fix: update embedding model references to jina-embeddings-v4 in configuration files

jruokola · jruokola · commit 572daa6978dc · 2025-11-18T05:45:53.000+02:00
diff --git a/.env.example b/.env.example
@@ -133,8 +133,9 @@ CODEGRAPH_EMBEDDING_PROVIDER=auto
 # - Jina: Variable Matryoska dimensions depending on model 2048, 1024, 512, 256
 # - OpenAI: Small 1536 dimensions, Large 3072 dimensions
 # - Local ONNX: typically 384 qdrant/all-mini-llm-onnx
-# - Local Ollama: qwen3-embedder:0.6b-8b 1024, 2048, 4096
+# - Local Ollama: qwen3-embedder:0.6b-8b 1024, 2048, 4096, embeddingsgemma 768, all-mini-llm 384
 # - 384 (all-mini-llm:latest)
+# - 768 (embeddingsgemma:latest)
 # - 1024 (qwen3-embedding:0.6b)
 # - 1536 (text-embedding-3-small)
 # - 2048 (qwen3-embedding:4b, jina-embeddings-v4)
diff --git a/config/.codegraph.toml.example b/config/.codegraph.toml.example
@@ -13,10 +13,10 @@ provider = "lmstudio"
 # Model path or identifier
 # For ONNX: Absolute path to model directory (auto-detected from HuggingFace cache)
 # For Ollama: Model name (e.g., "all-minilm:latest")
-# For LM Studio: Model name (e.g., "jinaai/jina-embeddings-v3")
+# For LM Studio: Model name (e.g., "jinaai/jina-embeddings-v4")
 # For OpenAI: Model name (e.g., "text-embedding-3-small")
-# Recommended: jinaai/jina-embeddings-v3 (1536-dim, optimized for code)
-model = "jinaai/jina-embeddings-v3"
+# Recommended: jinaai/jina-embeddings-v4 (2048-dim, optimized for code)
+model = "jinaai/jina-embeddings-v4"
 
 # LM Studio URL (default port 1234)
 lmstudio_url = "http://localhost:1234"
@@ -28,8 +28,11 @@ ollama_url = "http://localhost:11434"
 # Can also be set via OPENAI_API_KEY environment variable
 # openai_api_key = "sk-..."
 
-# Embedding dimension (1536 for jina-code-embeddings-1.5b, 384 for all-MiniLM)
-dimension = 1536
+# Embedding dimension (2048 for jina-embeddings-v4, 384 for all-MiniLM, 1024 for qwen3-embedding:0.6b etc. check your model and what's available in the schema)
+# All mini-minilm:latest (ollama for speed)
+# embeddingsgemma or qwen3-embedding:0.6b or 4b or8b for local SOTA
+# Jina for SOTA accuracy
+dimension = 2048
 
 # Batch size for embedding generation (GPU optimization)
 batch_size = 64
diff --git a/crates/codegraph-mcp/src/bin/codegraph.rs b/crates/codegraph-mcp/src/bin/codegraph.rs
@@ -1294,7 +1294,8 @@ async fn handle_index(
         println!(
             "{}\n   • {}\n   • {}\n   • {}\n   • {}",
             "🧠 Using Local Embeddings".green(),
-            "384-dim all-mini-llm".green(),
+            "384-dim all-minilm:latest".green(),
+            "768-dim embeddingsgemma:latest".green(),
             "1024-dim qwen3-embedding:0.6b".green(),
             "2048-dim qwen3-embedding:4b".green(),
             "4096-dim qwen3-embedding:8b".green()
diff --git a/crates/codegraph-napi/README.md b/crates/codegraph-napi/README.md
@@ -106,7 +106,7 @@ dimension = 384
 
 # Optional: Jina AI cloud embeddings
 jina_api_key = "jina_xxx"  # Or use JINA_API_KEY env var
-jina_model = "jina-embeddings-v3"
+jina_model = "jina-embeddings-v4"
 jina_task_type = "retrieval.query"
 jina_enable_reranking = true