IT之家 2 月 23 日消息,本周,OpenAI 的一名员工公开指责埃隆・马斯克旗下的 xAI 公司,称其发布的最新 AI 模型 Grok 3 的基准测试结果具有误导性。对此,xAI 的联合创始人伊戈尔・巴布什金 则坚称公司并无不当。
xAI 在其博客上发布了一张图表,展示了 Grok 3 在 AIME 2025 一项近期邀请制数学考试中的高难度数学题集 上的表现。尽管一些专家质疑 AIME 作为 AI 基准的有效性,但 AIME 2025 及其早期版本仍被广泛用于评估模型的数学能力。
IT之家注意到,xAI 的图表显示,Grok 3 的两个版本 ——Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning—— 在 AIME 2025 上的表现超过了 OpenAI 当前最强的可用模型 o3-mini-high。然而,OpenAI 的员工很快在 X 平台上指出,xAI 的图表并未包含 o3-mini-high 在“cons@64”条件下的 AIME 2025 得分。
“cons@64”是指“consensus@64”,即允许模型在基准测试中对每个问题尝试 64 次,并将出现频率最高的答案作为最终答案。可想而知,这种方式往往会显著提升模型的基准测试分数,如果图表中省略这一数据,就可能让人误以为某个模型的表现优于另一模型,而实际情况未必如此。
在 AIME 2025 的“@1”条件下 即模型首次尝试的得分 ,Grok 3 Reasoning Beta 和 Grok 3 mini Reasoning 的得分低于 o3-mini-high。Grok 3 Reasoning Beta 的表现也略低于 OpenAI 的 o1 模型在“中等计算”设置下的得分。然而,xAI 仍在宣传 Grok 3 为“世界上最聪明的 AI”。
巴布什金在 X 平台上辩称,OpenAI 过去也曾发布过类似的误导性基准测试图表。尽管这些图表是用于比较其自身模型的表现。
在这场争议中,一位中立的第三方重新绘制了一张更为“准确”的图表:
但正如 AI 研究员内森・兰伯特 Nathan Lambert 在一篇文章中指出的,或许最重要的指标仍然未知:每个模型达到最佳分数所需的计算 和金钱 成本。这恰恰表明,大多数 AI 基准测试在传达模型的局限性和优势方面仍然存在很大的不足。
温馨提示:微信搜索公众号【深圳之窗】,关注后在对话框内回复【资讯】即可获取深圳的各种资讯内容,包含深圳入户,深圳天气,深圳交通,深圳人文,同时,扫描关注文下企微号,可以了解深圳近期的各种福利活动优惠等信息
版权与免责声明:
感谢您访问我们的网站。请在阅读本免责声明之前注意以下内容:
1.该文章主要收集于互联网,目的在于传递更多信息,并不代表本网赞同其观点或证实其内容的真实性。
2.本网站的所有信息仅供参考,不构成任何形式的建议或指导。用户应自行承担使用本网站信息的风险。
3.该文章主要来源于互联网,如发现本网站上的文章涉及侵权问题时,建议您立即联系本网站的站长或管理员进行删除处理。