Az OpenAI nemrég mutatta be Sora nevű új videó generáló eszközét, amely szöveges instrukció alapján képes azonnal, részletes jeleneteket, összetett kameramozgást és élethű karaktereket tartalmazó, akár egyperces videókat is létrehozni – írta a The Guardian.
A Sora a japán „ég" szó után kapta a nevét. A modellel valósághű videók generálhatók, amelyek mind témában, mind stílusban követik a felhasználók által megadott utasításokat. A vállalat bejegyzése szerint a program emellett egy sima állókép alapján is létre tud hozni videót, vagy új elemekkel képes bővíteni a meglévő anyagot.
Megtanítjuk az MI-t a mozgásban lévő fizikai világ megértésére és szimulálására, azzal a céllal, hogy olyan képzési modelleket hozzanak létre, amelyek segítik az embereket a valós interakciót igénylő problémák megoldásában
– olvasható a blogbejegyzésben.
A vállalat néhány kutató és videókészítő számára lehetővé tette a hozzáférést a Sora-hoz. Szakértők azt tesztelték, hogy a Sora-val a felhasználók meg tudják-e kerülni az OpenAI szolgáltatás szabályait. Ezek ugyanis tiltják az olyan tartalmakat, amelyeknek az erőszakhoz, a gyűlöletkeltéshez vagy a szexualitáshoz van köze. Továbbá mások szellemi tulajdonának, illetve hírességek képmásának felhasználása sem megengedett a programmal. A szabályozásokra azért is van szükség, mert rengetegen visszaélnek a mesterséges intelligencia generálta eszközökkel. A deepfake-problémáról részletesebben nemrég Veszelszki Ágnes kommunikációkutatóval beszélgettünk.
Az OpenAI elmondása szerint csak korlátozott hozzáférést biztosít a kutatók, a képzőművészek és a filmesek számára. Sam Altman vezérigazgató a bejelentés után az érdeklődőknek olyan videókkal válaszolt X-en, amelyeket állítása szerint a Sora készített. A tartalmakon vízjel is látható, amely azt jelzi, hogy az AI generálta őket.
A cég több kezdeti példája között szereplő egyik videó a következő felszólításon alapult, mely egy poszt formájában is látható az X-en:
„A gyönyörű havas Tokyo városa tele nyüzsgéssel. A kamera a pezsgő városi utcán halad át, több embert követve, akik élvezik a gyönyörű havas időt és a közeli bódékban vásárolnak. Szépséges szakura szirmok szállnak a szélben a hópelyhekkel együtt."
Introducing Sora, our text-to-video model.
— OpenAI (@OpenAI) February 15, 2024
Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W
Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
A vállalat 2021-ben mutatta be a Dall-E képgenerátort, 2022 novemberében pedig a ChatGPT generatív AI chatbotot, amely igen hamar elérte a 100 millió felhasználót. Ugyan más AI-cégek is debütáltak már videogeneráló eszközökkel, de ezek a modellek csak néhány másodperces felvételeket tudnak készíteni, amelyek gyakran alig állnak kapcsolatban a megadott instrukciókkal. De a piac bővül: a Google és a Meta korábban is közölte már korábban, hogy jelenleg folyamatban van náluk a generatív videóeszközök fejlesztése.
Az OpenAI azt nem hozta nyilvánosságra, hogy mennyi felvételt használtak fel a Sora létrehozásához, és hogy honnan származhatnak a tanuláshoz szükséges videók. A cég azt állította ezzel kapcsolatban, hogy az tananyag olyan videókat tartalmazott, amelyek nyilvánosan elérhetők és a szerzői jogtulajdonosoktól licenceltek. A vállalatot ugyanis már többször perelték be a szerzői jogok állítólagos megsértése miatt, mivel azok óriási mennyiségű, az internetről származó anyagot használtak fel.
(Borítókép: OpenAI)