Reduce quantization optimization steps at ivf query time (#130493)

benwtrent · web-flow · commit c0374c26b8ce · 2025-07-07T16:59:03.000+02:00
Since we are quantizing for posting list centroid, I think we can get
away with fewer optimization iterations.

Dropping from 5 to 2 reduces latency when hitting many centroids, with
no recall impact (at least on my data sets).

baseline:

```
index_name                      index_type  n_probe  latency(ms)  net_cpu_time(ms)  avg_cpu_count     QPS  recall    visited
------------------------------  ----------  -------  -----------  ----------------  -------------  ------  ------  ---------
cohere-wikipedia-docs-768d.vec         ivf      100         2.43              0.00           0.00   411.52    0.91  23766.65
```

candidate:

```
index_name                      index_type  n_probe  latency(ms)  net_cpu_time(ms)  avg_cpu_count     QPS  recall    visited
------------------------------  ----------  -------  -----------  ----------------  -------------  ------  ------  ---------
cohere-wikipedia-docs-768d.vec         ivf      100         1.84              0.00           0.00   543.48    0.91  23766.65
```

Here is a more extreme case (many segments):

baseline:

```
index_name                      index_type  n_probe  latency(ms)  net_cpu_time(ms)  avg_cpu_count     QPS  recall    visited
------------------------------  ----------  -------  -----------  ----------------  -------------  ------  ------  ---------
cohere-wikipedia-docs-768d.vec         ivf      100        36.10              0.00           0.00   27.70    0.87  364480.37
```

candidate:

```
index_name                      index_type  n_probe  latency(ms)  net_cpu_time(ms)  avg_cpu_count     QPS  recall    visited
------------------------------  ----------  -------  -----------  ----------------  -------------  ------  ------  ---------
cohere-wikipedia-docs-768d.vec         ivf      100        24.94              0.00           0.00   40.10    0.87  364480.37
```

Need to test against more data sets, but this is a nice improvement.
diff --git a/server/src/main/java/org/elasticsearch/index/codec/vectors/DefaultIVFVectorsReader.java b/server/src/main/java/org/elasticsearch/index/codec/vectors/DefaultIVFVectorsReader.java
@@ -33,6 +33,7 @@
 import static org.apache.lucene.index.VectorSimilarityFunction.MAXIMUM_INNER_PRODUCT;
 import static org.elasticsearch.index.codec.vectors.BQSpaceUtils.transposeHalfByte;
 import static org.elasticsearch.index.codec.vectors.BQVectorUtils.discretize;
+import static org.elasticsearch.index.codec.vectors.OptimizedScalarQuantizer.DEFAULT_LAMBDA;
 import static org.elasticsearch.simdvec.ES91OSQVectorsScorer.BULK_SIZE;
 
 /**
@@ -211,7 +212,7 @@ private static class MemorySegmentPostingsVisitor implements PostingVisitor {
             quantizedQueryScratch = new byte[QUERY_BITS * discretizedDimensions / 8];
             quantizedByteLength = discretizedDimensions / 8 + (Float.BYTES * 3) + Short.BYTES;
             quantizedVectorByteSize = (discretizedDimensions / 8);
-            quantizer = new OptimizedScalarQuantizer(fieldInfo.getVectorSimilarityFunction());
+            quantizer = new OptimizedScalarQuantizer(fieldInfo.getVectorSimilarityFunction(), DEFAULT_LAMBDA, 1);
             osqVectorsScorer = ESVectorUtil.getES91OSQVectorsScorer(indexInput, fieldInfo.getVectorDimension());
         }