Az OpenAI egymillió órányi YouTube-videó leiratát használta fel

Az OpenAI több mint egymillió órányi YouTube-videó leiratát használta saját nagy generatív modelljének betanításához, de a konkurens Google sem mentes a vádak alól.

Korábban is tudni lehetett, hogy az OpenAI óriási mennyiségű, részben szerzői jogvédelem alatt álló adatot halászott össze az internetről generatív modelljének betanításához. Most kiderült, a cég több mint egymillió órányi YouTube-videó szövegének átiratán tanította be a ChatGPT alapját képező mesterséges intelligenciát, de így cselekedett a konkurens Google is, a videómegosztó szolgáltatás tulajdonosa – írja az Index a The New York Times cikke alapján.

A The New York Timesnak nyilatkozott belső munkatársak szerint a YouTube-videók feldolgozását az OpenAI technikai vezetője, Greg Brockman vezette. A videókat, illetve a podcastokat, az audiót szöveggé alakító Whisper mesterséges intelligenciát felhasználva és fejlesztve táplálták a GPT-4-be. Az Alphabet leányvállalata, a YouTube felhasználási szabályai tiltják, hogy a felületén elérhető videókat a platformtól független célokra használják fel.

A YouTube-videókat nemcsak az OpenAI használta fel, hanem a Google is, amely riválisként tekint a ChatGPT-re. A megszólaló Google-alkalmazottak szerint a cég tudott róla, hogy az OpenAI felhasználja a YouTube-videókat, de nem hozták nyilvánosságra, mivel ők maguk is ezt tették. Ennek ellenére Matt Bryant, a Google szóvivője azt nyilatkozta, hogy nem tudtak a videók engedély nélküli felhaszálásáról. Azt is hozzátette, hogy az ilyen jellegű jogsértések esetén a vállalat – ha vannak rá technikai és jogi lehetőségek – mindig megteszi a szükséges lépéseket.

Küzdelem a szerzői jogokért

A The New York Times fontosnak tartja, hogy feltárja a mesterséges intelligenciát fejlesztő cégóriások visszaéléseit a szerzői jogok védelmében. 2023 végén beperelték az OpenAI-t, mivel amellett, hogy engedély nélkül használták fel a cikkeiket, ezzel még egy olyan szolgáltatást is létrehoztak, ami elveszi a közönségüket és ellehetetleníti őket: így nem kártérítést kérnek, hanem a GPT-4 megszüntetését.

Miért van szükség az adatokra?

A nyelvi modellek fejlesztéséhez nagy mennyiségű adatra van szükség, hiszen minél több anyagon tanítják a mesterséges intelligenciát, annál jobban teljesít. A 2020 októberében bemutatott GPT-3 betanításához például százmilliárd szavas adatbázist használtak fel.

Ez akkora szöveggyűjtemény, amiben a Wikipédia online enciklopédia teljes tartalma alig fél százalékot jelentett.

Emellett a nyelvi modell betanításához hatalmas mennyiségű jó minőségű szövegre is szükség van: szakemberek által írt, szerkesztett, ellenőrzött könyvekre. A GPT-4-be már 2021-re szinte beadagoltak minden hozzáférhető szöveget, így nem maradt más lehetőség, mint bármilyen más publikus tartalmak beforgatása.

A Google – amely ugyanebbe a problémába ütközött bele – 2023-ban lazított a felhasználási feltételeken, hogy a Google Docsba felvitt publikus dokumentumokat és a Google Mapsre feltöltött értékeléseket felhasználhassa. Közlésük szerint ők is felhasználtak YouTube-tartalmakat, amikre az alkotóktól engedélyt adtak. A The New York Timesnak nyilatkozó jogi szakértő szerint a videómegosztó felhasználási feltételei nem kimondottan részletesek, így az értelmezésen múlik, hogy a Google felhasználhatja-e a videók szövegeinek átiratát egy szolgáltatás fejlesztésére.

A Meta vezetése eközben azon gondolkodik, hogy felvásárolják a Simon & Schuster könyvkiadót, az öt legnagyobb angol nyelvű kiadó egyikét, annak érdekében, hogy szabadon felhasználhassák katalógusukat. A The New York Times értesülései szerint a cég jogászai tudtak róla, hogy az OpenAI nem törődik a szerzői jogokkal, de úgy vélték, nincs választásuk, mivel túl sokáig tartana minden jogtulajdonossal megegyezni.

Így védekezik a cégóriás

A Meta jogászai – akik nem érintettek a YouTube-szövegek felhasználásában – a Google és Authors Guild 2015-ös perét emlegették fel: ennél a Google Books szolgáltatást perelték könyvek jogtalan terjesztése miatt. Az ügy végül azzal zárult, hogy a Google-szolgáltatás az elfogadott és szabad felhasználás kategóriájába esett: ezt azzal indoltokták, hogy nem az egész könyvet adja közkézre, csupán néhány oldalt. Az OpenAI úgy vélte, hogy a YouTube-videók felhasználása ugyanez a kategória.

(Borítókép: Thilina Kaluthotage / Getty Images)

Ha nem akar lemaradni a legfrissebb cikkekről, vagy szívesen hozzászólna a posztokhoz, akkor kövesse a MediaFuture Facebook és LinkedIn oldalát is.

Küzdelem a szerzői jogokért

Miért van szükség az adatokra?

Így védekezik a cégóriás

Címkék