Az OpenAI létrehozott egy olyan eszközt, amely szöveges instrukció alapján képes akár egyperces videót készíteni. A modell azonnal olyan videókat generál, amely részletes jeleneteket, összetett kameramozgást és élethű karaktereket is tartalmaz.

Az OpenAI nemrég mutatta be Sora nevű új videó generáló eszközét, amely szöveges instrukció alapján képes azonnal, részletes jeleneteket, összetett kameramozgást és élethű karaktereket tartalmazó, akár egyperces videókat is létrehozni   írta a  The Guardian.

A Sora a japán „ég" szó után kapta a nevét. A  modellel valósághű videók generálhatók, amelyek mind témában, mind stílusban követik a felhasználók által megadott utasításokat. A vállalat bejegyzése szerint a program emellett egy sima állókép alapján is létre tud hozni videót, vagy új elemekkel képes bővíteni a meglévő anyagot.

Megtanítjuk az MI-t a mozgásban lévő fizikai világ megértésére és szimulálására, azzal a céllal, hogy olyan képzési modelleket hozzanak létre, amelyek segítik az embereket a valós interakciót igénylő problémák megoldásában

– olvasható a blogbejegyzésben.

A vállalat néhány kutató és videókészítő számára lehetővé tette a hozzáférést a Sora-hoz. Szakértők azt tesztelték, hogy a Sora-val a felhasználók meg tudják-e kerülni az OpenAI szolgáltatás szabályait. Ezek ugyanis tiltják az olyan tartalmakat, amelyeknek az erőszakhoz, a gyűlöletkeltéshez vagy a szexualitáshoz van köze. Továbbá mások szellemi tulajdonának, illetve hírességek képmásának felhasználása sem megengedett a programmal. A szabályozásokra azért is van szükség, mert rengetegen visszaélnek a mesterséges intelligencia generálta eszközökkel. A deepfake-problémáról részletesebben nemrég Veszelszki Ágnes kommunikációkutatóval beszélgettünk.

Az OpenAI elmondása szerint csak korlátozott hozzáférést biztosít a kutatók, a képzőművészek és a filmesek számára. Sam Altman  vezérigazgató a bejelentés után az érdeklődőknek olyan videókkal válaszolt X-en, amelyeket állítása szerint a Sora készített. A tartalmakon vízjel is látható, amely azt jelzi, hogy az AI generálta őket. 

A cég több kezdeti példája között szereplő egyik videó a következő felszólításon alapult, mely egy poszt formájában is látható az X-en:

„A gyönyörű havas Tokyo városa tele nyüzsgéssel. A kamera a pezsgő városi utcán halad át, több embert követve, akik élvezik a gyönyörű havas időt és a közeli bódékban vásárolnak. Szépséges szakura szirmok szállnak a szélben a hópelyhekkel együtt."

A vállalat 2021-ben mutatta be a Dall-E képgenerátort, 2022 novemberében pedig a ChatGPT generatív AI chatbotot, amely igen hamar elérte a 100 millió felhasználót. Ugyan más AI-cégek is debütáltak már videogeneráló eszközökkel, de ezek a modellek csak néhány másodperces felvételeket tudnak készíteni, amelyek gyakran alig állnak kapcsolatban a megadott instrukciókkal. De a piac bővül: a Google és a Meta korábban is közölte már korábban, hogy jelenleg folyamatban van náluk a generatív videóeszközök fejlesztése.

Az OpenAI azt nem hozta nyilvánosságra, hogy mennyi felvételt használtak fel a Sora létrehozásához, és hogy honnan származhatnak a tanuláshoz szükséges videók. A cég azt állította ezzel kapcsolatban, hogy az tananyag olyan videókat tartalmazott, amelyek nyilvánosan elérhetők és a szerzői jogtulajdonosoktól licenceltek. A vállalatot ugyanis már többször perelték be a szerzői jogok állítólagos megsértése miatt, mivel azok óriási mennyiségű, az internetről származó anyagot használtak fel.

(Borítókép: OpenAI)

Címkék