New kid on the block: Sora

OpenAI zette met Sora recent een indrukwekkende stap in het domein van text-to-video. De belofte van OpenAI? Sora zou uitgesproken fotorealistische video’s genereren tot 1 minuut lang. Met de gedeelde voorbeelden lijkt het deze hoge verwachtingen alvast in te lossen én een grote verbetering te zijn ten opzichte van andere text-to-video toepassingen zoals Runway Gen-2 en Pika.

Straks van tekstprompt naar langspeelfilm?

Huidige text-to-video modellen hebben laten zien dat ze problemen hebben met temporele consistentie en het begrijpen van fysieke wetten zoals zwaartekracht. Sora toont een vooruitgang in het aanpakken van deze problemen. Blijkbaar heeft het model ook cinematografische grammatica geleerd, als een opkomende mogelijkheid zonder daar specifiek voor te zijn getraind. Hoe lang zal het duren voordat individuele makers hele series of films kunnen genereren uit tekstprompts?

… en dan in rechte lijn richting Artificial General Intelligence?

De laatste zin op de landingspagina is misschien wel het meest intrigerend: “Sora dient als basis voor modellen die de echte wereld kunnen begrijpen en simuleren, een mogelijkheid waarvan wij geloven dat dit een belangrijke mijlpaal zal zijn voor het bereiken van AGI (Artificial General Intelligence)”. Onlangs kondigde ook Runway nieuw langlopend onderzoek aan naar general world models : systemen die de visuele wereld en haar dynamiek begrijpen.

LLM’s tonen stilaan hun beperkingen. Sam Altman gaf toe dat er een nieuwe doorbraak nodig is. Deze voorbeelden onthullen dat het begrijpen en simuleren van de echte wereld, haar fysieke wetten, dynamiek en interacties mogelijk de volgende grote innovatie zijn op het gebied van AI-onderzoek.

Eerste experimenten in het Immersive Lab
Onderzoeker Keerthanan deed in het lab even een test via Luma AI, en kon al een 3D-mesh uit een Sora voorbeeldvideo halen. Hier zie je het resultaat:

Workshop AI-video op 13 maart

Sora zal nog niet present zijn, maar tijdens de eerstvolgende workshop introduceren we jullie alvast in enkele andere, reeds toegankelijke toepassingen om voeling te krijgen met de mogelijkheden van AI voor video. Schrijf je via dit formulier in voor de workshop op woensdag 13 maart, bij ons in het Immersive Lab (Ellermanstraat 33, Antwerpen).