人工智慧公司 OpenAI 於週四推出了其首個文字轉(zhuǎn)視頻模型,獲得了熱烈反響,不過該公司承認(rèn)該模型還有很長的路要走。
OpenAI 於 2 月 15 日推出了名為 Sora 的新生成式 AI 模型,據(jù)稱該模型可以根據(jù)簡單的文本提示創(chuàng)建詳細(xì)的視頻、延續(xù)現(xiàn)有視頻,甚至基於靜態(tài)圖像生成場景。
隆重介紹 Sora,我們的文本轉(zhuǎn)視頻模型。Sora 可以創(chuàng)建長達(dá) 60 秒的視頻,其中包含高度詳細(xì)的場景、複雜的攝像機運動以及充滿活力的情感的多個角色。 https://t.co/7j2JN27M3WPprompt:「美麗,白雪皚皚… pic.twitter.com/ruTEWn87vf
- OpenAI (@OpenAI) 2024 年 2 月 15 日
根據(jù) 2 月 15 日的部落格文章,OpenAI 聲稱 AI 模型可以產(chǎn)生分辨率高達(dá) 1080p 的類似電影的場景。這些場景可以包括多個角色、特定類型的運動以及主題和背景的準(zhǔn)確細(xì)節(jié)。
索拉的工作原理
與 OpenAI 基於影像的前身 DALL-E 3 非常相似,Sora 運行在所謂的「擴散」模型上。
擴散是指生成式人工智慧模型透過產(chǎn)生看起來更像「靜態(tài)雜訊」的影片或影像來創(chuàng)建其輸出,然後透過幾個步驟「消除雜訊」來逐漸轉(zhuǎn)換。
宣布推出 Sora——我們的模型可以根據(jù)文字提示創(chuàng)建一分鐘長的影片:https://t.co/SZ3OxPnxwz pic.twitter.com/0kzXTqK9bG
— 格雷格·布羅克曼 (@gdb) 2024 年 2 月 15 日
這家人工智慧公司寫道,Sora 是建立在 GPT 和 DALL-E3 模型過去研究的基礎(chǔ)上的,該公司聲稱這使得該模型能夠更好地「忠實」地代表用戶輸入。
OpenAI 承認(rèn) Sora 仍然存在一些弱點,並且很難準(zhǔn)確地模擬複雜場景的物理原理,即混淆了因果關(guān)係的本質(zhì)。
“例如,一個人可能咬了一口餅乾,但之後餅乾可能沒有咬痕。”
該公司表示,新工具還可能透過混淆左右方向或無法遵循精確的方向描述來混淆給定提示的「空間細(xì)節(jié)」。
索拉可能會意外地產(chǎn)生物理上難以置信的運動。來源:OpenAI
OpenAI 表示,新的生成模型目前僅適用於“紅隊成員”(網(wǎng)路安全研究人員的技術(shù)術(shù)語),以評估“危害或風(fēng)險的關(guān)鍵領(lǐng)域”,並選擇設(shè)計師、視覺藝術(shù)家和電影製作人來收集有關(guān)如何推進(jìn)模型。
2023 年12 月,史丹佛大學(xué)的一份報告顯示,使用人工智慧資料庫LAION 的人工智慧圖像生成工具正在接受數(shù)千張非法虐待兒童材料的圖像的訓(xùn)練,這引發(fā)了文本到文字轉(zhuǎn)換的嚴(yán)重道德和法律問題。圖像或視訊模型。
X上的用戶“無語”
數(shù)十個視訊演示已在 X 上流傳,展示了 Sora 的實際操作範(fàn)例,而 Sora 目前在 X 上已發(fā)布超過 173,000 個帖子,成為熱門話題。
為了展示新的生成模型的能力,OpenAI 首席執(zhí)行官 Sam Altman 向 X 上的用戶開放了自定義視頻生成請求,這位 AI 負(fù)責(zé)人總共分享了 7 個 Sora 生成的視頻,從鴨子騎龍回到金毛獵犬在山頂錄製播客。
https://t.co/uCuhUPv51N pic.twitter.com/nej4TIwgaP
— Sam Altman (@sama) 2024 年 2 月 15 日
人工智慧評論員 Mckay Wrigley 以及其他許多人寫道,Sora 生成的影片讓他「無言以對」。
Nvidia 資深研究員 Jim Fan 在 2 月 15 日發(fā)布的 X 貼文中宣稱,任何認(rèn)為 Sora 只是另一個「創(chuàng)意玩具」(如 DALL-E 3)的人都大錯特錯。
如果您認(rèn)為 OpenAI Sora 是像 DALLE 一樣的創(chuàng)意玩具,...再想一想。 Sora 是一個數(shù)據(jù)驅(qū)動的實體引擎。它是對許多世界的模擬,無論是真實的還是幻想的。模擬器學(xué)習(xí)複雜的渲染、「直觀」物理、長期推理和語義基礎(chǔ),所有這些… pic.twitter.com/pRuiXhUqYR
— 吉姆範(fàn) (@DrJimFan) 2024 年 2 月 15 日
在 Fan 看來,Sora 與其說是一個視頻生成工具,不如說是一個“數(shù)據(jù)驅(qū)動的物理引擎”,因為人工智能模型不僅生成抽象視頻,而且還確定性地創(chuàng)建場景本身中對象的物理特性。
雜誌:“加密貨幣是不可避免的”,所以我們“全力以赴”——萬斯·斯賓塞 (Vance Spencer),permabull