OpenAI 的 o3 模型取得突破性进展但经济性欠佳AGI 基准测试竞赛 Arc Prize 与 OpenAI 合作在 ARC-AGI 基准测试上对新推理模型 o3 进行了测试，其展示了 AI 适应新任务的重大突破

18:34 · 2024年12月21日 · 周六

OpenAI 的 o3 模型取得突破性进展但经济性欠佳

AGI 基准测试竞赛 Arc Prize 与 OpenAI 合作在 ARC-AGI 基准测试上对新推理模型 o3 进行了测试，其展示了 AI 适应新任务的重大突破。它在低计算模式下的半私有评估中得分为 75.7%，相较于上代模型提升了3倍，在高计算模式下得分为 87.5%，大幅领先于其他受试模型。

然而，这种通用性的成本很高，而且目前还不是很经济：让人类解决 ARC-AGI 任务仅需支付大约每项任务 5 美元的费用，同时仅消耗几美分的能源。而 o3 在低计算模式下每项任务需要 17-20 美元，在高计算模式中每个任务数千美元。此外，仍有相当多的非常简单的 ARC-AGI-1 任务是 o3 即使消耗了数百万 token 也无法解决的，而这些任务对于正常人类并不复杂。

—— Arc Prize