Imagine in Space : 视觉空间推理模型微调训练和benchmark #3041

jameslian87v5 · 2025-04-02T07:36:11Z

jameslian87v5
Apr 2, 2025

人类在视觉和空间推理当中存在视觉双通道行为，而当前多模态模型VLM 在空间推理和视觉推理方面能力仍然较弱，这是与当前多模态训练pipeline 与人类学习方式存在钆gap，为仿照人类视觉推理能力，我们构建了视觉想象和推理能力训练方法，计划使用internVL 2.5 模型增强能力