[Benchmark] Add support for SciDocBench benchmark (#1511)

yuhangzang · web-flow · commit 6cd39bb79294 · 2026-04-10T14:51:02.000+08:00
* [Benchmark] Add support for SciDocBench benchmark

- Add SciDocBench dataset class with multi-page image handling
- Support three evaluation methods: json_match, judge, exec_match
- Add reasoning verification as secondary scoring pass
- Register default judge model (gpt-4o-mini) in run.py

* [Fix] SciDocBench: fix isort lint and add parallel judge evaluation with checkpoint resume

- Fix import ordering to pass isort pre-commit hook
- Use track_progress_rich for parallel judge/reasoning calls
- Add pkl checkpoint for resumable evaluation on interruption
diff --git a/run.py b/run.py
@@ -317,6 +317,8 @@ def get_judge_kwargs(dataset_name, dataset_type, args):
             judge_kwargs['model'] = 'gpt-4o-mini'
         elif listinstr(['MaCBench'], dataset_name):
             judge_kwargs['model'] = 'gpt-4o-mini'
+        elif listinstr(['SciDocBench'], dataset_name):
+            judge_kwargs['model'] = 'gpt-4o-mini'
 
     if args.use_verifier:
         judge_kwargs['use_verifier'] = True
diff --git a/vlmeval/dataset/__init__.py b/vlmeval/dataset/__init__.py
@@ -107,6 +107,7 @@
 from .refspatialbench import RefSpatialBench
 from .robospatialbench import RoboSpatialBench
 from .sarena import SArena
+from .scidocbench import SciDocBench
 from .sfebench import SFE
 from .SGI_Bench_1_0.deep_research import SGI_Bench_Deep_Research
 from .SGI_Bench_1_0.dry_experiment import SGI_Bench_Dry_Experiment
@@ -290,7 +291,8 @@ def evaluate(self, eval_file, **judge_kwargs):
     UniSVG, SArena, VLMsAreBiased, MMESCIDataset, CoreCognition, GroundingME,
     FoxBench, VTCBench, Asclepius, PlotQA, ChartX, ChartBench, ChartCapDataset, WorldVQA, PuzzleVQA, VisualPuzzles,  # noqa: E501
     MMSafetyBenchDataset, MSSBenchDataset, SIUODataset, SIUOGenDataset, SIUOMCQDataset, M3oralBenchDataset,  # noqa: E501
-    Design2Code, VLADBench, SSIBenchDataset, NPMM, SGI_Bench_Experimental_Reasoning, MMOral_OPG_OPEN, MMOral_OPG_CLOSED  # noqa: E501
+    Design2Code, VLADBench, SSIBenchDataset, NPMM, SGI_Bench_Experimental_Reasoning, MMOral_OPG_OPEN, MMOral_OPG_CLOSED,  # noqa: E501
+    SciDocBench,
 ]
 
 # add by EASI team
diff --git a/vlmeval/dataset/scidocbench.py b/vlmeval/dataset/scidocbench.py