記者測試:圖片識別強 細節待完善

  圖:記者提供《機器人之夢》圖片,MiniCPM給出詳細的描述。\大公報記者郭瀚林攝
  圖:記者提供《機器人之夢》圖片,MiniCPM給出詳細的描述。\大公報記者郭瀚林攝

  【大公報訊】全球人工智能大模型進入「百模大戰」時代,如何讓其早日走進尋常百姓家,成為一大命題。面壁智能推出的大模型MiniCPM-Llama3-V2.5具有優秀的字符識別能力(OCR),可精準識別難圖、長圖,無需連接網絡即可在智能手機等終端上運行。6月5日,面壁智能與清華NLP實驗室經過認真討論,決定將面壁「小鋼炮」MiniCPM免費商用。

  為了更好地了解模型的功能,大公報記者在魔塔社區(ModelSocpe)下載了該模型並進行體驗。模仿官方的實操案例,在模型中插入高鐵車票,即使圖片清晰度較低,但該模型還是能給予準確回答,並通過指令呈現特定格式,告知該票根的所有文字信息。除了文字識別之外,MiniCPM-Llama3-V2.5模型對於圖像的處理也十分精準。當記者投放一張《機器人之夢》的電影圖片時,雖然該模型無法提供具體的人物名稱和圖片來源,但卻能夠將圖片的全部內容形象的概括為「卡通片中擬人化的小狗和機器人。」

  不過,即使該模型表現強力,但在一些細節問題上仍需完善。記者在體驗中觀察到,該模型在處理大量需要分析處理的信息時會出現「憑空產生」的現象(即「AI幻覺」)。當上傳一張電視劇《狂飆》的宣傳海報,讓它識別圖片中所有人名時,出現了孫紅雷等未參演演員的名字。

  據悉,MiniCPM已跑通了國際主流手機品牌和終端CPU芯片,即使是發布多年的老款機器也能流暢運行。在北科瑞聲創始人、國家重大人才計劃特聘專家劉軼博士看來,電腦、手機、手錶等終端是離用戶最近的信息入口,與大模型結合後,終端設備可以更加靈巧、智能,成為真正的「助理」,這將加快AI技術的普及。