试看20分钟做受-性开放a片免费看-同人漫画网站-变态虐玩乳奴爆乳护士夹奶头-韩国美女视频黄是免费

【觀察】從文生視頻到世界模型,廣電的機遇與選擇

2024-03-19來源:廣電智庫瀏覽量:

一、Sora是什么

Sora以與人類作品“難分伯仲”的逼真視頻驚艷全球,人們驚呼“現實,不存在了”“現實的邊界正在數字世界中變得愈發模糊”。Sora究竟是什么,憑什么讓全球為之震驚?

首先,Sora是文生視頻大模型,具有超級強大的視頻生成能力。

Sora可根據用戶提示的文本,創建最長60秒、具有多個角色、包含特定運動復雜場景的視頻,其逼真的效果令人嘆為觀止。美國社交媒體X(原Twitter)用戶認為,Sora“完勝皮克斯”“完勝好萊塢”,馬斯克甚至評論說“完勝人類”(Gg humans)。

2月16日起,OpenAI在TikTok上發布Sora生成的不同主題視頻,短短4天,漲粉10萬,50萬贊。Open AI還在TikTok上不斷根據網友提問發布最新視頻,并為其配上合適的音樂,如果不是特意標記由Sora生成,人們很難知道它是假的,以至于網友開始發出這樣的預警:“從現在開始,你在網上看到的一切都是值得懷疑的,不要相信你的眼睛。”“真正可怕的是,未來AI生成的視頻會變得更真實、更好。”

更重要的是,Sora粗具“世界模型”特征,將加速通用人工智能發展。

Sora引發全球高度關注與熱議,不僅是因為它生成的視頻時間更長、清晰度更高、更逼近人類作品,更因為其演進速度之快。美國伊利諾伊大學厄巴納-香檳分校信息科學教授泰德·安德伍德(Ted Underwood)表示:“我原以為,就算是在未來的2-3年,視頻制作也難以達到這樣持續、連貫的水平。”Sora的橫空出世,更加速通用人工智能(AGI)的到來。360集團創始人、董事長周鴻祎認為,隨著Sora的到來,人類離AGI真的就不遠了,不是10年、20年的問題,可能一兩年很快就可以實現。

但最令人震驚的還是Sora已經具備對世界的感知、觀察和交互以及模擬物理世界中物體運動和交互的能力。從這個意義上來說,Sora是一款“世界模型”(World Models),生成視頻不過是它對世界感知和交互的一種表達。OpenAI在《Sora技術報告》中已經宣告,Sora視頻生成模型是世界模擬器(Video generation models as world simulators),采用了游戲、無人駕駛和機器人領域驗證的世界模型來構建文生視頻模型,以達到模擬世界的能力,讓文生視頻生成更流暢、更符合邏輯,而且降低了訓練成本,提升了訓練效率。OpenAI表示,他們正在訓練人工智能理解和模擬運動中的物理世界,幫助人們解決需要與現實世界交互的問題。英偉達人工智能研究院首席研究科學家吉姆·梵(Jim Fan)認為,Sora是一個“數據驅動的物理引擎”,一個可學習的模擬器或“世界模型”。有評價認為,Sora堪稱建立起“世界模型”的標桿,將人工智能對真實物理世界的建模和預測推向了新高度。但圖靈獎獲得者、Meta首席科學家楊立昆(Yann LeCun)對此持不同意見,認為Sora并非世界模型。雖然如此,科技界普遍認為,文生視頻大模型是通向世界模型以及通用大模型的重要路徑之一。

世界模型是人工智能下一個重大突破點,也是通用人工智能的重要支撐。目前,全球眾多人工智能大模型企業正在圍繞世界模型開始新一輪的“超級賽事”。2月26日,谷歌公布了世界模型領域相關進展。據其官網介紹,大模型Genie是根據互聯網視頻訓練的基礎世界模型。

二、Sora意味著什么

Sora不僅展示了人工智能在生成視頻方面的“高智商”與“超能力”,而且初步展示了世界模型“無限可能”的“彪悍”,一個高度智能化甚至智慧化的人類社會不再是科幻,而是觸手可及。

(一)泛視聽產業革命已然來臨,創意將成為核心競爭力

從2023年開始,生成式人工智能就已經對全球動畫行業產生了巨大沖擊。Sora展現的文生視頻大模型的超強能力,標志著人工智能生成內容(AIGC)的時代已然到來。泛視聽行業迎來顛覆性的變革,全球泛視聽市場格局將為之調整和重構。

一是廣電和網絡視聽生產方式將發生根本性的變革。文生視頻大模型將成為視聽行業重要基礎設施,視聽內容生產制作的技術門檻將降低為零,人們的任何創意,都可以無障礙地轉化為視頻,甚至是院線電影,舊的生產方式和基礎設施面臨淘汰。好萊塢導演泰勒?派瑞(Tyler Perry)在看完Sora制作的視頻后,直接擱置了自己8億美元工作室擴建計劃。在Sora推出第二天,美國主營圖像處理、視頻制作軟件的Adobe成為遭受Sora收割的“重災區”,在Sora問世當天,公司股價大跌7.41%。YouTube大V帕迪·蓋羅維(Paddy Galloway)在觀看Sora生成的視頻后感慨地說:“內容創作永遠改變了,這不是夸張。”美國舊金山投資人扎克·庫可夫(Zak Kukoff)預測,在5年內,一個不到5人的團隊將可用文生視頻模型制作出一部票房收入超過5000萬美元的電影。

二是視頻游戲、虛擬現實、元宇宙等泛視聽行業將迎來重大變革。《Sora技術報告》顯示,Sora能夠模擬視頻游戲數字化過程,可在控制玩家(Minecraft)游戲角色進行基本操作的同時,高質量動態渲染游戲世界。這意味著,視頻游戲的制作門檻和成本將大幅降低。英偉達等公司正嘗試用大模型讓游戲“非玩家游戲角色”(NPC)脫離劇本與玩家自由交流,甚至成功使用AI創造了動作類游戲《賽博朋克2077》中的場景。中國游戲公司網易手游作品《逆水寒》,成為全球首個大規模落地人工智能玩法的AI游戲,玩家們不需要任何設備或技術,就可完成選角、取景、拍攝等核心任務,只需要根據腦海中的角色形象,輸入文字或者上傳角色形象照片,即可借助AI生成符合描述的“角色演員”。巨人網絡積極布局多模態大模型,聚焦游戲垂類創作場景,重點對AI視頻生成、3D模型生成算法的穩定性、可控性進行深入研究與探索,已將自研AI視頻風格遷移技術廣泛應用于研運環節,賦能內容創意表達。

長期以來,內容產能不足一直是制約虛擬現實和元宇宙產業發展的瓶頸。文生視頻大模型強大的內容生產能力,將直接推動虛擬現實和元宇宙行業騰飛。美國人工智能公司Takeoff AI創始人麥凱·瑞格(Mckay Wrigley)認為,Sora所代表的視頻生成新技術,最直接最大受益者可能是虛擬現實,5年后,人們將能夠生成完全沉浸式的世界中。

當技術不再成為競爭壁壘,創意將成為核心競爭力。培養創意人才、營造激發并保護人才的創意能力的環境和生態,將成為行業高質量發展乃至贏得國際競爭的根本。

(二)構建智慧社會底座,世界模型廣泛賦能千行百業

Sora展示了世界模型在更廣泛領域中應用的巨大潛能。隨著世界模型的成熟以及在各個垂直領域的落地應用,各行各業將創造出超級智能工具,正如文生視頻大模型將是泛視聽行業超級智能工具一樣。馬斯克認為,“AI增強的人類將在未來幾年里創造出最好的作品”。Sora背后的大模型一旦與傳統行業深度融合,將極大地釋放大模型的產業價值。在無人駕駛、人形機器人、智能終端、數字生物工程等領域,世界模型的強大功能已經初露鋒芒。

一是引領無人駕駛革命。世界模型具有理解環境以及和環境交互的能力,具有生成高質量駕駛視頻和用于端到端駕駛的巨大潛力,美國特斯拉純視覺無人駕駛采用的正是世界模型,而且已經采用路面真實視頻數據進行訓練。在OpenAI 推出sora后,馬斯克受到極大刺激,放出一段視頻并說明特斯拉從2023年開始就生成視頻了,并表示,特斯拉正致力于構建一種能夠理解和模擬任意情境的強大通用世界模型,目標是打造一個能夠在全世界范圍內安全、高效、類人化駕駛的通用棧,無論何種速度或道路條件均能勝任。2月28日,德國汽車企業博世與微軟聯合開發生成式AI產品,旨在強化自動駕駛功能、提高車輛安全性。

二是為人形機器人注入“靈魂”。3月1日,OpenAI、亞馬遜、英偉達、微軟向類人機器人企業Figure投資6.75億美元。OpenAI還將為Figure人形機器人打造多模態大模型,人形機器人將擁有自己的“大腦”,可在真實的物理環境中執行各種任務。

三是智能終端更加智能和智慧。在智能終端領域,生成式人工智能已經賦能智能手機,并加速換機潮的到來。2024年1月,三星推出搭載了谷歌大模型的AI手機Galaxy S24,28天突破100萬部銷量,打破了該機型銷售紀錄。比爾·蓋茨認為,5年內,人工智能助理(AI Agent)將大行其道,每個用戶都將擁有一個專屬AI Agent,智能終端將更加智能和智慧。

四是恢復身體機能。在數字生物工程領域,腦機接口已經能讓失明者恢復視覺,癱瘓者行走。近日,清華大學科研團隊公布的案例顯示,一名四肢癱瘓14年的患者,通過無線微創腦機接口技術,第一次實現了“用手喝水”。

(三)各國加速布局人工智能產業,美國保持全球領先地位

世界模型是智慧世界的“超級大腦”和“超級平臺”,是驅動數字經濟、數字社會的主引擎,將成為各國綜合國力競爭的制高點。英偉達創始人黃仁勛認為,“每個國家都需要擁有自己的人工智能”,并提出“主權大模型”概念。

世界發達國家早已布局人工智能產業,并將人工智能作為未來產業發展重點。2019年2月7日,美國前總統特朗普正式簽發由白宮科技政策辦公室(OSTP)炮制的報告《美國將主導未來產業》,強調美國一定要主宰人工智能、量子信息、先進通信、先進制造、生物技術等未來產業發展,在國際競爭中保持領導地位。英國瞄準了人工智能、機器人、先進醫療、清潔能源等產業;德國專注于人工智能、量子計算、6G通信、醫藥創新;日本提出“社會5.0”,致力于在機器人、人工智能、前沿材料、生命科學等領域實現突破,建立“超智慧社會”。2月17日,日本軟銀集團CEO孫正義表示,正在尋求最多1000億美元的資金,為一家芯片企業提供資金,與英偉達展開競爭。在日本,圖片和視頻類的生成式人工智能已經越來越多地被應用在動畫、設計以及廣告等領域,并著力開發基于日語數據的人工智能。2月28日,阿聯酋阿布扎比主權財富基金穆巴達拉投資公司CEO穆巴拉克(Khaldoon Mubarak)表示,2024年將向AI和太空技術領域投入大量資金。

從全球情況來看,美國無疑處于全球人工智能產業的主導地位。

一是原創大模型企業高度集中。美國擁有全球最多的原創大模型研發機構。除Open AI外,谷歌和Meta都是全球大模型重要玩家。2月9日,谷歌宣布大模型Gemini Ultra免費使用;2月16日,谷歌上線閉源大模型Gemini 1.5,將上下文窗口長度擴展到100萬個tokens;2月21日,谷歌發布開源大模型 Gemma,主打輕量級、高性能。谷歌還與美國社交媒體平臺Reddit達成每年6000萬美元的合作協議,將其內容用于訓練大模型。2023年1月,Meta CEO馬克·扎克伯格宣布Meta AI正在訓練更強大的Llama 3,并計劃在7月正式發布。就在Sora發布的同一天,Meta發布“以人類理解方式看世界”的視頻聯合嵌入預測架構V-JEPA(Video Joint Embedding Predictive Architecture)。3月4日, 人工智能創業公司Anthropic在社交平臺X上宣布,發布大模型Claude 3,成為首個全面超越GPT-4的人工智能模型Anthropic被視為OpenAI最大的競爭對手,背后的大投資者有谷歌和亞馬遜,與OpenAI背后的微軟形成直接競爭。

二是高端芯片產業獨步全球。美國擁有世界上最先進的芯片設計和制造技術,英特爾(Intel)、高通(Qualcomm)、蘋果(Apple)等在全球市場中占據重要地位。2月26日,美國商務部部長吉娜·雷蒙多(Gina Raimondo)表示,2030年,美國在全球先進光刻技術芯片生產服務市場的份額將達到20%,美國也有望成為世界上唯一能研發新型芯片架構的國家。美國高端芯片巨頭英偉達(Nvidia)占據全球圖形處理器GPU市場的大部分份額,占全球高端AI芯片市場90%的份額。3月5日,英偉達股價持續大漲,成為微軟、蘋果之后全球市值第三大公司。

三是積極培育產業鏈上下游和生態。據媒體報道,OpenAI將募集7萬億美元,打造人工智能生態。Meta擬投資105億美元建設人工智能基礎設施,Meta還計劃在2024年將生成型人工智能技術應用到其核心社交媒體產品和硬件設備中。2月27日,Meta平臺CEO馬克·扎克伯格會見韓國LG電子高層管理人員,討論在擴展現實(XR)設備領域以及人工智能(AI)領域合作的可能性。英偉達在基礎機器人技術領域取得突破性進展,并努力將“AI工廠”轉化為實際產品,打造全新形態的數據中心。美國無人駕駛、AI手機等也都在加速發展,并加速布局AI戰斗機。據《華爾街日報》3月3日報道,美國空軍計劃生產的AI智能戰斗機,前100架將在未來五年內交付。

三、廣電怎么辦

Sora是文生視頻領域的重大突破,也是人工智能發展的一個重要里程碑,標志著人類社會向智慧社會邁進的世界模型底座業已啟動。中國高度重視人工智能產業發展,2月19日,國資委召開“AI賦能 產業煥新”中央企業人工智能專題推進會,要求中央企業加快布局和發展智能產業,加快構建數據驅動、人機協同、跨界融合、共創分享的智能經濟形態。3月5日,國務院政府工作報告明確提出深化大數據、人工智能等研發應用,開展“人工智能+”行動。視聽節目是文生視頻大模型乃至世界模型底座這一基礎設施建設的重要生產資料,視聽行業也是生成式人工智能第一落地應用場景,不論是模型的研發還是應用,廣播電視網絡視聽行業都具有重要作用和地位。廣電應發揮自身優勢,積極參與文生視頻大模型以及世界模型的研發。

(一)加快視聽大模型研發,以新質生產力實現高質量發展

視聽大模型在加速進化和落地應用,對視聽行業的革命性影響不斷顯現。廣電機構已經部署視聽垂直模型的研發,并取得突破性進展。2024年2月23日,中央廣播電視總臺發布了動畫大模型,中國首部文生視頻AI系列動畫片《千秋詩頌》啟播。2月25日,上海廣播電視臺成立生成式人工智能媒體融合創新工作室,確立了財經媒體專屬AI大模型、新聞資訊類大模型應用、智能語音和大語言模型應用、智能手語數字人、生成式智能與多媒體通信、人工智能應用下的傳媒倫理研究等六大重點攻堅方向,構建國內領先的文化傳媒大模型應用生態。一些生產制作企業和網絡視聽平臺也在積極應用人工智能優化流程,降本增效。尤其是在短視頻、短劇、動畫行業,人工智能極大地提高了生產效率。

更多互聯網企業正在布局文生視頻大模型。2024年1月,百度發布名為UniVG的視頻生成模型;2月28日,李彥宏表示,多模態或多模態的融合是AGI的一個必要方向,百度已經并將繼續投資大模型研發。2月28日,阿里巴巴上線了生成式AI模型EMO,用戶只需要提供一張照片和一段任意音頻文件,EMO即可生成會說話唱歌的AI 視頻,以及實現無縫對接的動態小視頻,最長時間可達1分30秒左右。字節跳動正在研發多個人工智能產品,包括多模態數字人產品以及AI生圖、AI生視頻等。

廣播電視網絡視聽作為文生視頻大模型最早落地的應用場景,要加快與人工智能行業合作,部署視聽大模型研發,打造從基礎設施、算法工具、智能平臺到解決方案的視聽大模型,加快推動全產業鏈AI化,形成新質生產力,實現高質量發展。

(二)培育優質生產要素,深度參與智慧社會建設

視頻是訓練世界模型的主要數據形態,一幅圖、一段視頻的信息量勝過千言萬語。廣播電視網絡視聽不僅僅是文生視頻大模型最直接、最早落地的應用場景,而且擁有規模龐大的視聽節目資源,是訓練文生視頻大模型以及世界模型的寶貴資源,是驅動世界模型“成長發育”不可或缺的“主食”。尤其是中國視聽節目已經過嚴格的審核,具有較高的意識形態和價值觀安全系數,是世界模型訓練的優質資源,是建設智慧社會不可或缺的生產資料。

廣電行業要主動開放開發視聽節目優質數據資源,構建優質數據集,積極參與各類模型的研發與應用,實現數據資源流通使用,形成優質數據資產。首先,以視聽節目數據資源為抓手,參與游戲、虛擬現實、元宇宙等垂直模型的研發,形成泛視聽大生態,不斷孵化培育新業務新業態。其次,以泛視聽數據化生產資料為抓手,積極參與世界模型和通用人工智能的研發,成為智慧社會運行的底層數據資產,不僅實現從視聽數據到智慧社會的閉環,而且將為中國更快更好進入智慧社會作出不可替代的重要貢獻。

(三)制定審慎包容的監管政策,營造有利于創新發展的良好環境

和任何技術一樣,生成式人工智能毫無疑問也是一把雙刃劍。用好這把“超級智慧雙刃劍”,需要超越大模型的“超級智慧”。尤其是在生成式人工智能研發初期,更要采取審慎包容的監管態度,營造鼓勵探索和創新的發展空間。

一是采用負面清單形式,明確大模型禁止落地應用的場景和領域,充分保障企業科技創新和經營自主權,營造技術產業蓬勃發展的寬松環境。

二是引入“監管沙盒”理念,允許人工智能企業在可管可控環境下進行試驗性開發和測試,降低研發成本和監管成本,提高研發效率。

三是建立互信的政企合作關系,發揮行業自律的基礎性作用。企業雖然是監管對象,但同時也是人工智能研發主體和平臺運營主體,既掌握算法也掌握平臺,企業自我約束是實現人工智能安全和科技向善的根本保障。如,Sora內置的文本提示過濾器可阻止對暴力、色情、仇恨等不當內容的請求,視頻內容過濾器可檢查生成的視頻幀,屏蔽違反OpenAI安全政策的內容;2024年2月16日,亞馬遜、谷歌、微軟、Meta、OpenAI、TikTok和X等美國科技公司簽署了一份承諾協議,防止虛假的人工智能內容擾亂2024年美國及全球選舉投票。

未來已來。發揮自身優勢,擁抱技術革命,廣電未來可期。