內地首個AI高考評測數學全不及格

大公報 A7：內地 2024-06-23

　　【大公報訊】據第一財經報道：高考這一高難度綜合性測試，目前普遍被研究者用於考察大模型的智能水平。在前不久高考結束後，上海人工智能實驗室旗下司南評測體系OpenCompass選取了7個大模型進行高考「語數外」全卷能力測試，並於19日發布了首個大模型高考全卷評測結果。

　　語數外三科加起來的滿分為420分，此次高考測試結果顯示，阿里通義千問2-72B得303分排名第一，OpenAI的GPT-4o得296分排名第二，上海人工智能實驗室的書生·浦語2.0排名第三，三個大模型的得分率均超過70%，但大模型的數學都不及格，最高分也只有75分。在數學試卷上，閱卷老師們發現，大模型的主觀題回答相對凌亂，且過程具有迷惑性，甚至出現過程錯誤但得到正確答案的情況。大模型的公式記憶能力較強，但是無法在解題過程中靈活引用。可以看出，在數學方面大模型還有很大的提升空間。

　　數學關乎複雜推理相關能力，這是大模型普遍面臨的難題，也是大模型在金融、工業等要求可靠的場景落地需要的關鍵能力。上海人工智能實驗室領軍科學家林達華表示，「現在很多大模型的應用場景是客服、聊天等，在聊天場景一本正經胡說八道影響不太大，但它很難在非常嚴肅的商業場合去落地。」

讀大公報PDF版面

內地首個AI高考評測 數學全不及格

內地首個AI高考評測數學全不及格