【全球觀察】Sora 掀起2024年文生視頻AI熱浪

香港文匯報財經論壇 2024-03-05

　　林仲衡、林芷若中銀國際研究有限公司

　　隨着OpenAI公司文字生成視頻的AI產品Sora的發布，筆者預計人工智能產業將繼續成為2024年的核心投資機會。Sora展示了遠遠超越同業的強大視頻生成能力，可以預計未來在娛樂應用領域具有巨大潛力。儘管中國企業在「OpenAI-英偉達」這一產業鏈中的參與度普遍較低，但筆者預計文生視頻領域AI的突破將繼續拉動人工智能硬件基礎設施的需求；同時筆者認為文生視頻有帶來更加豐富終端應用的潛力，終端應用的開發亦將充滿投資機會。

　　技術革新解決了核心難點

　　Sora是一種先進的擴散（Diffusion）模型，同時利用了通用GPT模型的Transformer架構，實現了生成高精度視頻的能力。與傳統方法不同，Sora從一個呈現為靜態噪聲的視頻開始，通過多個步驟逐漸去除噪聲，將其轉變為連貫的視頻。Sora的一個關鍵優勢是其能夠一次生成整個視頻，或者擴展現有視頻以使其更長。通過同時為模型提供多個預見幀，Sora解決了文生圖AI的一個核心難點─當一個主體暫時消失時如何保持一致性。

　　為了實現更廣泛的通用性，Sora將視頻和圖像數據用稱為Patch的較小數據單元的集合來表示，類似於GPT中的Token。這種標準化的數據表達技術實現了在各種視覺數據上訓練擴散Transformer，包括不同的視頻時間、分辨率和寬高比。

　　Sora建立在DALL·E和GPT模型的研究基礎上。它採用了DALL·E3中的字幕重標註技術，即在視覺訓練數據生成描述性字幕。這種技術增強了模型在生成的視頻中忠實地遵循用戶指令的能力，從而產生更準確和連貫的輸出。

　　此外，Sora不僅限於從文本生成視頻。它還可以將靜止的圖像內容轉化為一個細節完善栩栩如生的視頻。此外，該模型還具有擴展現有視頻或填充缺失幀的能力，進一步擴展了其應用範圍。

　　Sora並不是文生視頻技術的首發。2023年，Pika和Runway這樣的AI產品已經令人印象深刻。然而OpenAI的Sora一經發布即以其優秀的技術完全打敗了市場上所有的其他AI工具。與Pika和Runway這兩個擴散AI模型相比，Sora可以生成更長（60秒對比5秒）、更高分辨率和更具沉浸感的視頻。

　　筆者亦留意到Sora湧現非常多的技術能力。比如無需特別提示，模型可以自動創建不同的拍攝角度，同時視頻中的物體在不同的拍攝角度中保持高度一致。在長視頻中，雖然仍不夠完美，Sora視頻的連貫性和延續性令人印象深刻，人物與物體大致上可以在被遮擋或離開畫面的情況下，仍保持存在。Sora亦可以模擬多個物體之間的複雜互動效果，顯示出對物理世界規律的歸納。這些關鍵的技術能力使具創造力和沉浸感的視頻生成成為了可能，讓Sora在文生視頻AI競爭中具有獨特優勢。

　　模型仍有待改善地方

　　OpenAI坦誠Sora仍存在許多不足。對Sora來說，模擬物體之間的複雜互動和多個角色之間的互動仍是具有挑戰性的。它也可能無法理解一些基本的因果關系。筆者認為這顯示出Sora對世界的理解仍是基於統計學的模仿行為，而非基於抽象理論的推理，這與其他基於Transformer和擴散的AI模型沒有明顯的區別。筆者預計隨着時間的推移，Sora將繼續顯著改進，但筆者仍然認為人類距離通用人工智能（AGI）還有很長的路要走。根據Meta首席科學家Yann Le Cun的說法，當前的大語言模型缺乏以下3個方面的能力：

　　1）從現實世界（而不是文本）中學習；2）常識；3）記憶、推理和層次規劃。AGI級別的AI應能夠在模型參數有限的情況下實現高效學習和計劃。

　　AI硬件基礎設施投資值得留意

　　自2022年末以來，生成式AI在文生文（ChatGPT）和文生圖（DALL·E、Mid-journey）方面取得了令人興奮的發展。進入2024年，Sora在文生視頻領域帶來更巨大的突破。筆者認為Sora作為視頻類應用，其商業潛力將更加巨大。類似TikTok和YouTube的視頻應用紛紛在近年成為了全球最受歡迎的應用之一，本質是更快的帶寬和更高的信息密度；視頻類AI亦同理。筆者預計視頻、遊戲、電影和廣告製作公司將是Sora的首批重要用戶。Transformer與Diffusion的技術天花板仍未達到。筆者預計基於Transformer與Diffusion的AI將繼續發展，下一個關鍵突破將是文生3D視頻和文生交互式空間（亦稱元宇宙）。

　　這條發展道路將繼續帶來對AI三要素—數據、算法和算力的巨大需求。AI硬件基礎設施將繼續是2024年投資的亮點，投資者應繼續緊密關注OpenAI的產品發布。筆者認為全球企業擔心在AI浪潮中落後的心理將持續推動對GPU和其他AI基礎設施硬件的投資。

　　題為編者所擬。本版文章，為作者之個人意見，不代表本報立場。

讀香港文匯報PDF版面