內地首個AI高考評測 數學全不及格

  圖:AI得分情況。
  圖:AI得分情況。

  【大公報訊】據第一財經報道:高考這一高難度綜合性測試,目前普遍被研究者用於考察大模型的智能水平。在前不久高考結束後,上海人工智能實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考「語數外」全卷能力測試,並於19日發布了首個大模型高考全卷評測結果。

  語數外三科加起來的滿分為420分,此次高考測試結果顯示,阿里通義千問2-72B得303分排名第一,OpenAI的GPT-4o得296分排名第二,上海人工智能實驗室的書生·浦語2.0排名第三,三個大模型的得分率均超過70%,但大模型的數學都不及格,最高分也只有75分。在數學試卷上,閱卷老師們發現,大模型的主觀題回答相對凌亂,且過程具有迷惑性,甚至出現過程錯誤但得到正確答案的情況。大模型的公式記憶能力較強,但是無法在解題過程中靈活引用。可以看出,在數學方面大模型還有很大的提升空間。

  數學關乎複雜推理相關能力,這是大模型普遍面臨的難題,也是大模型在金融、工業等要求可靠的場景落地需要的關鍵能力。上海人工智能實驗室領軍科學家林達華表示,「現在很多大模型的應用場景是客服、聊天等,在聊天場景一本正經胡說八道影響不太大,但它很難在非常嚴肅的商業場合去落地。」