Upgrade chonkie version

Weves · Weves · commit 7fecac5c0c3e · 2025-06-11T09:38:56.000-07:00
diff --git a/backend/onyx/indexing/chunker.py b/backend/onyx/indexing/chunker.py
@@ -1,3 +1,5 @@
+from typing import cast
+
 from chonkie import SentenceChunker
 
 from onyx.configs.app_configs import AVERAGE_SUMMARY_EMBEDDINGS
@@ -205,7 +207,8 @@ def _extract_blurb(self, text: str) -> str:
         """
         Extract a short blurb from the text (first chunk of size `blurb_size`).
         """
-        texts = self.blurb_splitter.chunk(text)
+        # chunker is in `text` mode
+        texts = cast(list[str], self.blurb_splitter.chunk(text))
         if not texts:
             return ""
         return texts[0]
@@ -215,7 +218,8 @@ def _get_mini_chunk_texts(self, chunk_text: str) -> list[str] | None:
         For "multipass" mode: additional sub-chunks (mini-chunks) for use in certain embeddings.
         """
         if self.mini_chunk_splitter and chunk_text.strip():
-            return self.mini_chunk_splitter.chunk(chunk_text)
+            # chunker is in `text` mode
+            return cast(list[str], self.mini_chunk_splitter.chunk(chunk_text))
         return None
 
     # ADDED: extra param image_url to store in the chunk
@@ -335,7 +339,8 @@ def _chunk_document_with_sections(
                     chunk_text = ""
                     link_offsets = {}
 
-                split_texts = self.chunk_splitter.chunk(section_text)
+                # chunker is in `text` mode
+                split_texts = cast(list[str], self.chunk_splitter.chunk(section_text))
                 for i, split_text in enumerate(split_texts):
                     # If even the split_text is bigger than strict limit, further split
                     if (
diff --git a/backend/requirements/default.txt b/backend/requirements/default.txt
@@ -7,7 +7,7 @@ beautifulsoup4==4.12.3
 boto3==1.36.23
 celery==5.5.1
 chardet==5.2.0
-chonkie==1.0.9
+chonkie==1.0.10
 dask==2023.8.1
 ddtrace==2.6.5
 discord.py==2.4.0