OpenAI:s nya modell ”Sora” skapar ultrarealistiska videoklipp från text

publicerad 17 februari 2024
- av Redaktionen
Bilden ovan är helt genererad utifrån en godtycklig textbeskrivning.

OpenAI presenterade under torsdagen Sora, en ny modell som kan generera högupplösta videoklipp på upp till en minut baserat på textbeskrivningar. Sora, som betyder “himmel” på japanska, kommer dock inte att finnas tillgänglig för allmänheten inom snar framtid. Istället släpps den till en liten grupp forskare och akademiker som ska utvärdera riskerna för missbruk.

“Sora kan generera komplexa scener med flera karaktärer, specifika rörelser och exakta detaljer av motivet och bakgrunden”, skriver OpenAI på sin webbplats. “Modellen förstår inte bara vad användaren har bett om i beskrivningen, utan även hur dessa saker existerar i den fysiska världen”.

Ett av exemplen på videor genererade av Sora visar ett par som promenerar genom ett snöigt Tokyo, medan körsbärsblommor och snöflingor virvlar runt dem.

 

OpenAI hävdar att modellen fungerar tack vare en “djup förståelse för språk”, vilket gör att den kan tolka textbeskrivningar korrekt. Ändå, precis som i princip alla AI-baserade bild- och videogeneratorer, är Sora inte perfekt. I ett exempel saknas personer och gator helt i videon trots att beskrivningen nämner en dalmatinerhund som tittar ut genom ett fönster och människor som “promenerar och cyklar längs kanalerna”.

OpenAI varnar också för att modellen kan ha svårt att förstå orsakssamband – den kan till exempel generera en video av en person som äter en kaka, men kakan får inga bitmärken.

Sora är inte den första text-till-video-modellen på marknaden. Andra företag, inklusive Meta, Google och Runway, har antingen antytt planer för eller lanserat liknande verktyg. Dock kan inget annat verktyg ännu generera videoklipp på 60 sekunder. Sora genererar dessutom hela videor på en gång, istället för att sätta ihop dem bildruta för bildruta som andra modeller. Detta säkerställer att motiv i videon förblir sig själva även när de tillfälligt försvinner ur bild.

Väcker oro och avsmak

Framväxten av text-till-video-verktyg har väckt oro för att de kan användas för att lättare skapa realistiskt falska videoklipp. Generativ AI har även fått kritik från konstnärer och kreativa yrkesgrupper som oroar sig för att tekniken används för att ersätta jobb och använda upphovsrättsskyddat material.

OpenAI uppger att de arbetar med experter inom områden som “desinformation, hatiskt innehåll och partiskhet” för att testa verktyget innan det släpps offentligt. Företaget utvecklar även verktyg för att upptäcka videor genererade av Sora och inkluderar metadata i de genererade videoklippen för enklare upptäckt.

OpenAI vägrade att avslöja för The Times hur Sora hade tränats, förutom att de använt både “publikt tillgängliga videoklipp” samt videor licensierade från upphovsrättsinnehavare.

Ladda ner Nya Dagbladets mobilapp!