OpenAI推新工具文字可轉60秒視頻

大公報 A18：國際 2024-02-17

上圖：OpenAI推出AI視頻生成工具Sora，圖為其生成視頻「女子在東京街頭行走」截圖。\網絡圖片；下圖：Sora生成視頻「含有中國龍的新年慶典」截圖。\網絡圖片

　　【大公報訊】綜合法新社、《華爾街日報》、《麻省理工科技評論》報道：繼推出熱門聊天機器人ChatGPT之後，人工智能（AI）公司OpenAI在15日又有大動作，宣布推出全新的視頻AI生成工具「Sora」。該工具能夠根據文字輸入，生成最長60秒的高品質視頻，極具「爆款」潛質。Sora目前仍存在許多缺陷，包括無法處理比較複雜的題材，發生「左右不分」等等。由於生成視頻的能力太過強大，該工具目前仍在測試階段，在OpenAI完成風險評估前，暫時不會對公眾開放。

　　「在夜晚的城市中，霓虹燈光將街道點亮，身着皮衣的女子從行人中走出，墨鏡上反射出街道上的斑馬線」……乍一看，這段長達59秒的視頻似乎是真實拍攝的，然而它其實是由OpenAI全新AI視頻生成工具Sora憑藉寥寥數行輸入的文字，一鍵輸入、憑空生成的視頻。

　　美國當地時間15日下午，OpenAI正式宣布推出視頻生成工具Sora，並發布了一系列該工具生成的演示視頻。這些視頻五花八門，題材包括猛獁象踏過雪原，淘金熱時期的美國小鎮、男子坐在白雲上讀書等等，畫面生動逼真，令人瞠目結舌。

　　「人人都可當導演」

　　AI視頻工具已成為業界的熱門話題。Sora十分易用，用戶只需輸入文字描述自己想要的視頻，AI就能輸出一段最長60秒、細節豐富的影片，毋須擁有任何視頻拍攝的設備與製作經驗，相比於傳統的視頻製作，AI效率更高、成本更低，大幅降低視頻門檻，幾可實現「人人都可以當導演」。

　　Sora使用的技術，與OpenAI旗下的圖像生成AI工具DALL-E相似，使用「擴散模型」來訓練AI將隨機像素轉變成視頻。但是訓練AI處理視頻與以往的處理文字不同，因為視頻並非由文字組成。研究人員要想辦法，將視頻切成像文字單詞一樣的「塊」。最終，他們將視頻按幀數劃分，在空間和時間上也切割成「塊」。如此一來，Sora內部的神經網絡就能像處理語言文本一樣，能夠處理視頻「塊」。

　　OpenAI科學家布魯克斯表示，建立能夠理解視頻，以及人們世界中複雜互動的模型，是所有未來AI系統的重要一步。其他科企，如Meta、谷歌在研究文字到視頻的AI技術。

　　處理複雜題材仍存缺陷

　　儘管OpenAI的演示視頻令人印象深刻，但在社交平台上，不少受邀測試的創作者發出的視頻，顯示了Sora問題不少，尤其是處理相對複雜題材。例如，在一個「男人在跑步」的視頻中，男子站在跑步機上，但卻在朝着與跑步機相反的方向跑動。在另一「穿幫」視頻中，一群小狼在小路上嬉戲的視頻中，發生了數次小狼「憑空出現」或「憑空消失」的情形。

　　OpenAI警告稱，Sora當前的模型「存在缺陷」，例如在生成視頻期間對空間認知發生錯誤、發生「左右不分」，或無法在整個視頻中保持視覺連續性等。OpenAI解釋說，例如，視頻中一個人咬了一口餅乾，但之後這塊餅乾上的咬痕可能就會消失。《華盛頓郵報》記者Drew Harwell指出，Sora所生成的視頻中，人類手部形態有缺陷，易穿幫，這是AI生成圖像中最難以攻克的障礙之一。

　　Sora能力讓人驚訝的同時，也引發了外界AI技術濫用的擔憂。OpenAI表示，已意識到了Sora可能會生成錯誤信息和仇恨內容等。Sora目前僅開放給少量學者與研究人員使用，其間將同時進行所謂的紅隊演練（red-teaming），即試圖讓AI工具「失靈」，產生不恰當的內容或出毛病，以發現問題。OpenAI在有結論之前，不會開放公眾使用Sora。

讀大公報PDF版面

OpenAI推新工具 文字可轉60秒視頻

OpenAI推新工具文字可轉60秒視頻