
进展最佳的 GPT-o4 mini,物理推理本事也远不足东说念主类!
就在最近,来自香港大学、密歇根大学等机构的相关东说念主员补皆了现存评估体系中的一处关键空缺——
评估多模态模子是否具备"物理推理本事"。

物理推理,即模子在面临真实或拟真的物理情境时,能否详细期骗视觉信息、物理学问、数学建模进行判断和展望,被以为是通向具身智能的关键本事。
但这一册事在现存评估体系中仍是空缺。
对此,相关东说念主员构建了PhyX(Physical Reasoning Benchmark),首个特大地向多模态大模子物理推理本事的大规模基准测试。
PhyX 包含 3000 说念题目,涵盖 6 大物理学科(力学、电磁、热学、光学、波动、当代物理),25 个细分子类与 6 类推理神态(如空间相识、物理建模、公式联立、展望性推理等),每说念题目都采集课本级图像与真什物理设定,并由 STEM 专科相关生全心审核。

那么,各大主流模子在 PhyX 上的进展如何呢?
强如 GPT-o4 mini 也比不上东说念主类
截止当今,多模态大谈话模子(MLLMs)束缚刷新各样图文推理与科学问答任务的纪录。
诸如 GPT-4o、Claude3.7、DeepSeek 系列等最新模子,一经在数学奥赛(AIME、MATH-V)、通识科学(MMMU)、跨学科推理(OlympiadBench)等表率化测试中展现出堪比东说念主类的进展。
可是,这些测试所预计的时常是抽象盘算本事、公式讲究与文本逻辑,尚未系统性地老师模子能否果然相识履行寰宇中的物理国法与视觉场景。
期骗 PhyX,相关东说念主员在包括 GPT-4o、Claude3.7、DeepSeek-R 等在内的16 个主流模子上进行了系统评估,发现:
即等于进展最佳的模子 GPT-o4 mini,其准确率也仅为 45.8%,而东说念主类物理本科 / 相关生在归拢任务上的准确率达 75.6%;
在当代物理、电磁学、热力学等高阶推理任务上,模子的进展尤其低下,准确率不足 30%;
造作分析骄慢,向上三分之一造作来自图像感知失败,其次是知识缺失与逻辑推理本事不足。
说完效劳,咱们趁便伸开一下 PhyX 的构建过程。
PhyX 策划在于征战一个真实、各样、具挑战性的物理图文推理测试环,系统评估多模态模子在处理物理场景中是否具备与东说念主类止境的"物理学问、感知相识与记号建模"本事。
与现存多模态基准(如 VQA、ScienceQA)侧重平淡知识与科普推理不同,PhyX 聚焦高级次的物理专科问题处分本事,强调图文信息的深度采集、推理链条的圆善性与真实感知与建模的规复度。
学科维度与题目苦衷
它揣测包含3000 说念图文物理题目,本色涵盖大学物理骨干课程的六大中枢学科:

每说念题均为图文华集问题,包含插图、图表或场景图,并匹配相应翰墨讲明与问题设定。
下图给出了每个学科的一个 PhyX 样本。

此外,还贯注给出了所苦衷的科目及有关统计数据,六大物理学科散播均匀。
左边对 PhyX 的关键数据进行了形貌性统计。如表 1 所示,PhyX 中共有 6000 个问题,绽放性问题与多选题各 3000 个。

PhyX 的优厚性
为细粒度分析模子本事,PhyX 对每说念题标注了 0~2 种中枢推理类型,共六类。
该标签体系有助于相关者系统性相关模子在哪些类型推理上进展精致或薄弱,并维持跨模子、跨模态、跨学科横向比拟。

PhyX 为每说念题提供三种输入模态与两类题型,以维持多种模子与本事维度的测试:

下图展示了 PhyX 如何去除重迭本色:

每说念题维持两种秩序切换,允洽不同类型模子(闭式 vs 绽放式、判别 vs 生成):
多项聘用题(MC):通俗长入评分与大规模测试
主不雅问答题(OE):用于评估链式推理、生成本事与公式抒发
下图与下表给出了 PhyX 与已有基准的各异,可见 PhyX 全面首先于现存基准。

下图为基于 GPT-4o 的推理轨迹真实示例及所需技巧对比处分物理和数学问题的本事。

数据构建与审核历程
为确保题目质料与广度,PhyX 继承如下多轮数据构建历程:
1、运行设想与题源收罗题目源泉包括:物理课本、考试题库、公开课程材料、大学教案与题目设想通盘题目条款采集图像;
2、专科标注者构建与重写组建跨高校相关生团队(物理、AI 双布景),每位标注者厚爱"构建 + 重写 + 图文匹配"任务图像长入制作表率,确保作风各样但信息明晰;
3、质料限度与审核每题需经过双东说念主交叉考证:科学性 + 谈话可读性标注项包括:学科标签、推理类型、题型双版块、谜底及瓦解自动检测图文重迭性 + 模板重合度 + 图像本色苦衷度。
模子评估与测试效劳
为了全面评估现时多模态大模子(MLLM)与谈话模子(LLM)在真什物理场景下的相识与推理本事,相关东说念主员在 PhyX-testmini 子集(共 1,000 说念题)上对 16 种主流模子进行了系统性测试。
该子集苦衷通盘学科与推理类型,继承长入输入模态和答题秩序,确保评估自制与可复现。
下图为三种首先的 MLLM、两种首先的 LLM 在 PhyX 基准中的正确率。

通盘模子均在 zero-shot(零样本)设定下运行,即不提供任何示例或任务微调,以真实反应其物理学问移动本事与场景泛化本事。
即使是进展最佳的模子(如 GPT-o4 mini 或 DeepSeek-R1),也远未达到东说念主类水平,尤其在"具图像感知 + 多步建模"的详细任务中权贵失分。
下表给出了在 PhyX 基准上不同 LLM 和 MLLM 的效劳比拟。PHYX 的 testmini 子集的准确度分数。每个模子中得分最高的部分和总体最高分分歧以蓝色和红色隆起骄慢。

相关东说念主员进一步对模子在六大学科维度的得分情况作念了细分分析。
下表骄慢了,不同物理学规模的模子平均得分(绽放式文本)冗余问题。各部分模子最高分及总最高分分歧以蓝色和红色隆起骄慢:
GPT-4o 在"当代物理"类题主义进展仅为 21.2%,远低于东说念主类平均;
通盘模子在"电磁学、热力学"题型中的准确率均低于 50%;
"力学、波动声学"中模子进展略优,但差距仍在 20 分以上。

模子造作分析与本事瓶颈
尽管多模态大模子在通用图文问答与学问性推理上进展强盛,但在 PhyX 上,它们的造作却暴知道更深档次的结构性弱势。
相关东说念主员对 GPT-4o 在 testmini 子集上的 100+ 个造作样本进行了逐题分析与群众标注,转头出如下主要问题类别止境占比见下图:


在造作分析中,相关东说念主员不雅察到 MLLM(寥落是 GPT-4o)倾向于:
过度依赖翰墨辅导:一朝图像中的信息未在题干中昭示,模子倾向忽略;
图像信息降权处理:哪怕图像中有明确变量、结构或数值,模子也更偏好使用题干形貌;
多模态会通机制缺少推理辅导:未能主动调取图像细节来修正翰墨中的不细目性或隐晦性。
这标明,现存 MLLM "多模态相识"仍更接近于图文匹配或粗粒特征拼接,缺少具备"物理结构建模意图"的跨模态会通本事。
更多细节接待查阅原论文。
Project Page: https://phyx-bench.github.io/
Arxiv: https://arxiv.org/abs/2505.15929
Github: https://github.com/NastyMarcus/PhyX
Huggingface Dataset: https://huggingface.co/datasets/Cloudriver/PhyX
一键三连「点赞」「转发」「小心心」
接待在挑剔区留住你的思法!
— 完 —
� � 点亮星标 � �
科技前沿进展逐日见开云体育(中国)官方网站