中科院物理所:推理能力擊敗OpenAI

  香港文匯報訊(記者 蘇雨潤、凱雷 北京報道)據了解,在2024年美國數學邀請賽(AIME 2024)的測試中,低推理努力的o3-mini準確率(60%)與o1-mini差不多,但速率更快;而在中等努力下,o3-mini準確率能提升至79.6%,與o1模型相當。在最高努力水平時,o3-mini的準確率則能進一步提升至87.3%。同時,中科院物理所理論物理競賽命題組評測結果顯示,DeepSeek第一,推理能力擊敗OpenAI和Anthropic。

  今年1月,中科院物理所舉辦的「天目盃」理論物理競賽,命題組對DeepSeek-R1、 OpenAI發布的GPT-o1,Anthropic發布的Claude-sonnet,中美三大AI模型進行物理題目評測。結果顯示 ,以人類成績為基準,DeepSeek-R1進入前三名,但與人類的最高分125分仍有較大差距;GPT-o1進入前五名,Claude-sonnet則入前十名。