Improved examples [skip ci]

ankane · ankane · commit 1774011bf7d4 · 2025-02-16T20:35:27.000-08:00
diff --git a/examples/cohere/example.cpp b/examples/cohere/example.cpp
@@ -10,7 +10,7 @@
 using json = nlohmann::json;
 
 // https://docs.cohere.com/reference/embed
-std::vector<std::string> fetch_embeddings(const std::vector<std::string>& texts, const std::string& input_type, char *api_key) {
+std::vector<std::string> embed(const std::vector<std::string>& texts, const std::string& input_type, char *api_key) {
     std::string url = "https://api.cohere.com/v1/embed";
     json data = {
         {"texts", texts},
@@ -61,14 +61,13 @@ int main() {
         "The cat is purring",
         "The bear is growling"
     };
-    auto embeddings = fetch_embeddings(input, "search_document", api_key);
-
+    auto embeddings = embed(input, "search_document", api_key);
     for (size_t i = 0; i < input.size(); i++) {
         tx.exec("INSERT INTO documents (content, embedding) VALUES ($1, $2)", pqxx::params{input[i], embeddings[i]});
     }
 
     std::string query = "forest";
-    auto query_embedding = fetch_embeddings({query}, "search_query", api_key)[0];
+    auto query_embedding = embed({query}, "search_query", api_key)[0];
     pqxx::result result = tx.exec("SELECT content FROM documents ORDER BY embedding <~> $1 LIMIT 5", pqxx::params{query_embedding});
     for (const auto& row : result) {
         std::cout << row[0].as<std::string>() << std::endl;
diff --git a/examples/hybrid/example.cpp b/examples/hybrid/example.cpp
@@ -11,7 +11,15 @@
 
 using json = nlohmann::json;
 
-std::vector<std::vector<float>> fetch_embeddings(const std::vector<std::string>& input) {
+std::vector<std::vector<float>> embed(const std::vector<std::string>& texts, const std::string& taskType) {
+    // nomic-embed-text-v1.5 uses a task prefix
+    // https://huggingface.co/nomic-ai/nomic-embed-text-v1.5
+    std::vector<std::string> input;
+    input.reserve(texts.size());
+    for (auto& v : texts) {
+        input.push_back(taskType + ": " + v);
+    }
+
     std::string url = "http://localhost:8080/v1/embeddings";
     json data = {
         {"input", input}
@@ -48,7 +56,7 @@ int main() {
         "The cat is purring",
         "The bear is growling"
     };
-    auto embeddings = fetch_embeddings(input);
+    auto embeddings = embed(input, "search_document");
 
     for (size_t i = 0; i < input.size(); i++) {
         tx.exec("INSERT INTO documents (content, embedding) VALUES ($1, $2)", pqxx::params{input[i], pgvector::Vector(embeddings[i])});
@@ -78,7 +86,7 @@ int main() {
     LIMIT 5
     )";
     std::string query = "growling bear";
-    auto query_embedding = fetch_embeddings({query})[0];
+    auto query_embedding = embed({query}, "search_query")[0];
     double k = 60;
     pqxx::result result = tx.exec(sql, pqxx::params{query, pgvector::Vector(query_embedding), k});
     for (const auto& row : result) {
diff --git a/examples/openai/example.cpp b/examples/openai/example.cpp
@@ -9,7 +9,7 @@ using json = nlohmann::json;
 
 // https://platform.openai.com/docs/guides/embeddings/how-to-get-embeddings
 // input can be an array with 2048 elements
-std::vector<std::vector<float>> fetch_embeddings(const std::vector<std::string>& input, char *api_key) {
+std::vector<std::vector<float>> embed(const std::vector<std::string>& input, char *api_key) {
     std::string url = "https://api.openai.com/v1/embeddings";
     json data = {
         {"input", input},
@@ -53,14 +53,14 @@ int main() {
         "The cat is purring",
         "The bear is growling"
     };
-    auto embeddings = fetch_embeddings(input, api_key);
-
+    auto embeddings = embed(input, api_key);
     for (size_t i = 0; i < input.size(); i++) {
         tx.exec("INSERT INTO documents (content, embedding) VALUES ($1, $2)", pqxx::params{input[i], pgvector::Vector(embeddings[i])});
     }
 
-    int document_id = 1;
-    pqxx::result result = tx.exec("SELECT content FROM documents WHERE id != $1 ORDER BY embedding <=> (SELECT embedding FROM documents WHERE id = $1) LIMIT 5", pqxx::params{document_id});
+    std::string query = "forest";
+    auto query_embedding = embed({query}, api_key)[0];
+    pqxx::result result = tx.exec("SELECT content FROM documents ORDER BY embedding <=> $1 LIMIT 5", pqxx::params{pgvector::Vector(query_embedding)});
     for (const auto& row : result) {
         std::cout << row[0].as<std::string>() << std::endl;
     }
diff --git a/examples/sparse/example.cpp b/examples/sparse/example.cpp
@@ -15,7 +15,7 @@
 
 using json = nlohmann::json;
 
-std::vector<pgvector::SparseVector> fetch_embeddings(const std::vector<std::string>& inputs) {
+std::vector<pgvector::SparseVector> embed(const std::vector<std::string>& inputs) {
     std::string url = "http://localhost:3000/embed_sparse";
     json data = {
         {"inputs", inputs}
@@ -57,14 +57,13 @@ int main() {
         "The cat is purring",
         "The bear is growling"
     };
-    auto embeddings = fetch_embeddings(input);
-
+    auto embeddings = embed(input);
     for (size_t i = 0; i < input.size(); i++) {
         tx.exec("INSERT INTO documents (content, embedding) VALUES ($1, $2)", pqxx::params{input[i], embeddings[i]});
     }
 
     std::string query = "forest";
-    auto query_embedding = fetch_embeddings({query})[0];
+    auto query_embedding = embed({query})[0];
     pqxx::result result = tx.exec("SELECT content FROM documents ORDER BY embedding <#> $1 LIMIT 5", pqxx::params{query_embedding});
     for (const auto& row : result) {
         std::cout << row[0].as<std::string>() << std::endl;