Added ColBERT example [skip ci]

ankane · ankane · commit 94c8c5494801 · 2024-08-12T23:39:06.000-07:00
diff --git a/README.md b/README.md
@@ -32,6 +32,7 @@ Or check out some examples:
 - [Hybrid search](https://github.com/pgvector/pgvector-python/blob/master/examples/hybrid_search_rrf.py) with SentenceTransformers (Reciprocal Rank Fusion)
 - [Hybrid search](https://github.com/pgvector/pgvector-python/blob/master/examples/hybrid_search.py) with SentenceTransformers (cross-encoder)
 - [Sparse search](https://github.com/pgvector/pgvector-python/blob/master/examples/sparse_search.py) with Transformers
+- [Late interaction search](https://github.com/pgvector/pgvector-python/blob/master/examples/colbert_exact.py) with ColBERT
 - [Image search](https://github.com/pgvector/pgvector-python/blob/master/examples/pytorch_image_search.py) with PyTorch
 - [Image search](https://github.com/pgvector/pgvector-python/blob/master/examples/hash_image_search.py) with perceptual hashing
 - [Morgan fingerprints](https://github.com/pgvector/pgvector-python/blob/master/examples/morgan_fingerprints.py) with RDKit
diff --git a/examples/colbert_exact.py b/examples/colbert_exact.py
@@ -0,0 +1,48 @@
+from colbert.infra import ColBERTConfig
+from colbert.modeling.checkpoint import Checkpoint
+import numpy as np
+from pgvector.psycopg import register_vector
+import psycopg
+
+conn = psycopg.connect(dbname='pgvector_example', autocommit=True)
+
+conn.execute('CREATE EXTENSION IF NOT EXISTS vector')
+register_vector(conn)
+
+conn.execute('DROP TABLE IF EXISTS documents')
+conn.execute('CREATE TABLE documents (id bigserial PRIMARY KEY, content text, embeddings vector(128)[])')
+conn.execute("""
+CREATE OR REPLACE FUNCTION max_sim(document vector[], query vector[]) RETURNS double precision AS $$
+    WITH queries AS (
+        SELECT row_number() OVER () AS query_number, * FROM (SELECT unnest(query) AS query)
+    ),
+    documents AS (
+        SELECT unnest(document) AS document
+    ),
+    similarities AS (
+        SELECT query_number, 1 - (document <=> query) AS similarity FROM queries CROSS JOIN documents
+    ),
+    max_similarities AS (
+        SELECT MAX(similarity) AS max_similarity FROM similarities GROUP BY query_number
+    )
+    SELECT SUM(max_similarity) FROM max_similarities
+$$ LANGUAGE SQL
+""")
+
+checkpoint = Checkpoint('colbert-ir/colbertv2.0', colbert_config=ColBERTConfig())
+
+input = [
+    'The dog is barking',
+    'The cat is purring',
+    'The bear is growling'
+]
+doc_embeddings = checkpoint.docFromText(input)
+for content, embeddings in zip(input, doc_embeddings):
+    embeddings = [e.numpy() for e in embeddings if e.count_nonzero() > 0]
+    conn.execute('INSERT INTO documents (content, embeddings) VALUES (%s, %s)', (content, embeddings))
+
+query = 'puppy'
+query_embeddings = [e.numpy() for e in checkpoint.queryFromText([query], bsize=1)[0]]
+result = conn.execute('SELECT content, max_sim(embeddings, %s) AS max_sim FROM documents ORDER BY max_sim DESC LIMIT 5', (query_embeddings,)).fetchall()
+for row in result:
+    print(row)
diff --git a/examples/requirements.txt b/examples/requirements.txt
@@ -1,4 +1,5 @@
 cohere
+colbert-ai
 datasets
 gensim
 imagehash

Original file line number	Diff line number	Diff line change
`@@ -1,4 +1,5 @@`
`1`	`1`	`cohere`
	`2`	`+colbert-ai`
`2`	`3`	`datasets`
`3`	`4`	`gensim`
`4`	`5`	`imagehash`