- bge-m3
- 直接把同個類別FAQ的文字組在一起當一個token
- ACC: 96%
- 以條文來切分token,過長的法條再用
RecursiveCharacterTextSplitter_400_300
細切 - acc: 94%,WA: 2, 4, 50
- 第4題有兩個答案
- 第50題沒有答案
- 精神上acc: 98%
- 先用tesseract盡可能將圖片中的文字題取出來(效果不好),然後再由人工校正(其實最後都丟到一個圖片轉文字的網站)
- 以
RecursiveCharacterTextSplitter_500_300
切token - 用reranker: acc: 82%
- 用前幾個關鍵字做rerank: acc: 84%
- 參賽隊伍數: 487
- 繳交隊伍數: 222