近日,美國開放人工智能研究中心(OpenAI)推出的視頻生成模型Sora震驚了IT圈。
Sora目前展示出的功能十分強大,能夠根據(jù)用戶輸入的關(guān)鍵詞生成長達(dá)“60S”的視頻且視頻質(zhì)量非常高。
1、Sora生成的視頻具有多樣化表現(xiàn)
(1)在原始視頻圖像數(shù)據(jù)直接訓(xùn)練:過去,圖像和視頻生成需要將視頻調(diào)整標(biāo)準(zhǔn)要求,但Sora打破了這一常規(guī),可以直接在原始數(shù)據(jù)上進行訓(xùn)練。
(2)采樣更靈活:Sora具備更靈活的采樣能力,無論是寬屏1920x1080p視頻、垂直1080x1920視頻,還是介于兩者之間的任何尺寸視頻,都能輕松應(yīng)對,這意味著Sora可以為各種視頻生成要求匹配更恰當(dāng)?shù)膬?nèi)容。
(3)改進構(gòu)圖與框架:將Sora與一個將所有訓(xùn)練視頻裁剪為方形的模型版本進行了比較。結(jié)果發(fā)現(xiàn),在正方形裁剪上訓(xùn)練的模型有時會生成僅部分顯示主題的視頻。而Sora則能呈現(xiàn)出更加貼合的幀,充分展現(xiàn)了其在視頻生成領(lǐng)域的優(yōu)異性能。
(4)Sora具有圖像和視頻的多樣化提示,可以接受圖像或視頻等多樣形式的輸入。
2、Sora深化語言理解
研究員利用GPT技術(shù)將簡短的用戶提示轉(zhuǎn)換為更長的詳細(xì)轉(zhuǎn)譯, 并將其發(fā)送至模型,這一應(yīng)用使得Sora能夠精準(zhǔn)地按照關(guān)鍵詞生成高質(zhì)量的視頻。
3、Sora具有新的模擬能力
在大規(guī)模訓(xùn)練過程中,研究員發(fā)現(xiàn)Sora能夠模擬現(xiàn)實世界中的人物、動物和環(huán)境等方面,并且這些并沒有依賴于任何明確的3D建模、物體識別等歸納偏差,而是純粹通過模型的尺度擴展而自然展示的。
Sora的出現(xiàn),預(yù)示著一個全新的視覺敘事時代的到來,能夠依據(jù)關(guān)鍵詞,將人們的想象力轉(zhuǎn)化為動態(tài)畫面,而這種生成技術(shù)一旦得到場景化應(yīng)用,將對各行各業(yè)帶來顛覆式的發(fā)展。
但Sora的行業(yè)發(fā)展之路無論從自身所需資源還是社會接受度都還需要度過一段艱難的時間。數(shù)據(jù)、算法和算力作為人工智能三素,也整體制約人工智能技術(shù)的發(fā)展。
算力作為人工智能技術(shù)發(fā)展的底層源動力,對大模型的訓(xùn)練和推理至關(guān)重要,而服務(wù)器則是算力的底層載體。
針對大模型訓(xùn)練,安擎基于“訓(xùn)練服務(wù)器+推理服務(wù)器+存儲服務(wù)器”,推出“大模型算存解決方案”。
·EG8628G4·
安擎EG8628G4是一款面向云計算、大數(shù)據(jù)、AI等應(yīng)用場景的高性能服務(wù)器,支持第四代英特爾?可擴展處理器。采用NVIDIA NVlink 互聯(lián)技術(shù),在6U空間內(nèi)支持最新計算模塊,單機AI性能達(dá)到16 PFlops,具有高擴展和高可用性。
·EG540S-G30·
安擎EG540S-G30是一款4U雙路存儲產(chǎn)品,支持Icelake全系列擴展處理器,整機可支持52個硬盤存儲槽位,單機可提供1PB的存儲空間。
安擎作為專業(yè)的AI服務(wù)器提供商,深耕AI服務(wù)器研產(chǎn)銷多年,具有五大系列產(chǎn)品(訓(xùn)練服務(wù)器、推理服務(wù)器、邊緣服務(wù)器、存儲服務(wù)器、通用服務(wù)器),并擁有完備的供應(yīng)鏈體系。
返回列表