記者測試：圖片識別強細節待完善

大公報 A20：國際 2024-06-22

圖：記者提供《機器人之夢》圖片，MiniCPM給出詳細的描述。\大公報記者郭瀚林攝

　　【大公報訊】全球人工智能大模型進入「百模大戰」時代，如何讓其早日走進尋常百姓家，成為一大命題。面壁智能推出的大模型MiniCPM-Llama3-V2.5具有優秀的字符識別能力（OCR），可精準識別難圖、長圖，無需連接網絡即可在智能手機等終端上運行。6月5日，面壁智能與清華NLP實驗室經過認真討論，決定將面壁「小鋼炮」MiniCPM免費商用。

　　為了更好地了解模型的功能，大公報記者在魔塔社區（ModelSocpe）下載了該模型並進行體驗。模仿官方的實操案例，在模型中插入高鐵車票，即使圖片清晰度較低，但該模型還是能給予準確回答，並通過指令呈現特定格式，告知該票根的所有文字信息。除了文字識別之外，MiniCPM-Llama3-V2.5模型對於圖像的處理也十分精準。當記者投放一張《機器人之夢》的電影圖片時，雖然該模型無法提供具體的人物名稱和圖片來源，但卻能夠將圖片的全部內容形象的概括為「卡通片中擬人化的小狗和機器人。」

　　不過，即使該模型表現強力，但在一些細節問題上仍需完善。記者在體驗中觀察到，該模型在處理大量需要分析處理的信息時會出現「憑空產生」的現象（即「AI幻覺」）。當上傳一張電視劇《狂飆》的宣傳海報，讓它識別圖片中所有人名時，出現了孫紅雷等未參演演員的名字。

　　據悉，MiniCPM已跑通了國際主流手機品牌和終端CPU芯片，即使是發布多年的老款機器也能流暢運行。在北科瑞聲創始人、國家重大人才計劃特聘專家劉軼博士看來，電腦、手機、手錶等終端是離用戶最近的信息入口，與大模型結合後，終端設備可以更加靈巧、智能，成為真正的「助理」，這將加快AI技術的普及。

讀大公報PDF版面

記者測試：圖片識別強 細節待完善

記者測試：圖片識別強細節待完善