Így tanítják az AI-eszközöket a social media jelenlétünk által

Gábor Bálint

2026.01.03. 16:00

Mesterséges intelligencia és technológiai jogi szakjogászt kérdeztünk arról, hogy a cookie adatokat hogyan használják fel a cégek, illetve hogy milyen oldalakon érdemes különösen odafigyelni privát szféránkra.

Az AI-modellek már szinte minden online tevékenységből tanulnak, köszönhetően annak, hogy a nagy techcégek saját mesterséges intelligenciát fejlesztenek. Emellett a cookie-kon át is különféle adatokhoz juthatnak rólunk. Az írók, a tartalomgyártók, valamint a webhelyszolgáltatók eközben más-más úton próbálnak fellépni az egyes AI-modellek ellen.

Bartal Ivánnal, az Oppenheim ügyvédjével, mesterséges intelligencia és technológiai jogi szakjogásszal beszéltünk arról, hogy pontosan milyen adatokat és milyen célokra használnak fel a cégek a közösségimédia-platformokon való tevékenységünk alapján.

Pontosan milyen adatokat használ fel az egyes oldalak AI-modellje a tanuláshoz?

Az általános célú AI-modellek tanításához használt adatok köre rendkívül széles és változatos lehet, és a modellek képessége és tudása nagymértékben függ a tanítás során felhasznált adatoktól. Az ilyen modellek kidolgozásához és tanításához használnak többek között szöveges adatokat. Ezek lehetnek weboldalak, könyvek, tudományos munkák, cikkek, a közösségi médiában generált tartalmak, mint például hozzászólások, beszélgetések, egyéb online tartalmak.

A tanításhoz használt adatok egy másik csoportja a képi adatok. Ide tartoznak többek között a digitális fotók, rajzok, festmények és egyéb vizuális anyagok. A modellek általában tanulnak audió (hangfelvételek) és videó (filmek, videók, kamerafelvételek, stb.), valamint többek között IoT eszközök által generált szenzoradatokból is, de gyakran használnak a tanításhoz táblázatokba rendezett adatokat vagy adatbázisokat és szintetikus adatokat is.

Végül pedig meg kell említeni a jogi szempontból meglehetősen neuralgikus személyes adatok témakörét is, mivel sok esetben a modellek betanításához felhasznált adatok (pl. a közösségi médiából gyűjtött, a felhasználókhoz köthető adatok, képek, hozzászólások, önéletrajzokból származó adatok, az interneten közzétett személyes adatok) az általános adatvédelmi rendelet (GDPR) alapján egyben személyes adatoknak is minősülnek.

Mivel a GDPR a személyes adatok felhasználását szigorú szabályokhoz köti, ezért a modellek szolgáltatóinak különös figyelmet kell fordítaniuk arra, hogy mind a modell életciklusához kapcsolódó tanítási, validációs, tesztelési folyamatok, és természetesen a modell éles használata során betartsák ezeket a szabályokat.

Az adatvédelmi szempontok mellett természetesen a modellek betanítása egy sor másik jogi kérdést is felvet. Ezek közül az egyik legfontosabb a tanításhoz felhasznált szerzői jogi tartalmak (pl. zenék, könyvek, cikkek) jogszerű felhasználásának biztosítása, ezen belül a szerzői jogosultak (írók, zeneszerzők, zenekarok, hangfelvételkiadók) engedélyezési vagy tiltakozási jogának gyakorolhatósága, és megfelelő kompenzációjuk biztosítása.

Mire és miért használják fel ezeket az adatokat?

A modellek tanításának a célja, hogy egy AI-rendszer keretén belül egy szöveges promptra reagálva a tanítási adatok felhasználásával előrejelzéseket (pl. ingatlanárak várható alakulása), tartalmakat (pl. szöveget, képeket), ajánlásokat (pl. utazási tippek) vagy döntéseket (pl. munkavállaló felvételével, értékelésével vagy elbocsátásával kapcsolatos döntést) generáljon.

Minél jobban sikerül a tanítás a modell felhasználási eseteihez, annál jobb eredményeket generál majd, és annál értékesebb lesz. A felhasználók értelemszerűen a legjobban teljesítő modelleket szeretik használni.

Mely oldalak esetében érdemes odafigyelni leginkább?

Ez attól függ, honnan nézzük. Ha például zenészek vagyunk, és nem szeretnénk, ha az általunk írt vagy előadott számokat erre specializált AI-modellek (pl. MusicGen, Suno) tanításához használják, akkor érdemes a zeneíráshoz használt modellek szolgáltatóinál tiltakoznunk.

Ha egy közösségimédia-platform (pl. Facebook, Instagram) felhasználóiként szeretnénk jobban óvni a privát szféránkat a mesterséges intelligenciától, akkor ezeknél a szolgáltatóknál is érdemes áttekinteni az ezzel kapcsolatos beállításokat.

Ez persze személyes preferencia kérdése, mert valakit ezek a dolgok egyáltalán nem zavarnak, sőt, kifejezetten örülnek neki, ha a felhasználói szokásaik alapján hasonló tartalmakat és/vagy reklámokat kínál fel nekik a szolgáltató, de tudni kell, hogy ez például kifejezetten alkalmas a közösségimédia-függőség kialakítására vagy megerősítésére, aminek már a társadalmi hatása (pl. csökkenő mértékű vagy minőségű emberi interakciók) sem elhanyagolható.

Hogyan lehet tiltakozni az adataink felhasználása ellen?

Adatvédelmi szempontból érdekes kérdés, hogy az AI-célú felhasználás esetén valóban elegendő-e csak a tiltakozási jog felkínálása, vagy esetleg a szolgáltatónak előzetesen be kell-e szereznie az érintett felhasználók hozzájárulását ehhez? A GDPR nem tesz különbséget az egyes jogalapok között, de egy előzetes hozzájárulás beszerzése nyilván nehezebb, mint egy tiltakozási jog felkínálása, és nem véletlen, hogy erre tekintettel a modell-szolgáltatók általában az ún. jogos érdekükre hivatkoznak a személyes adatok tanító adatként felhasználása esetén. Ilyenkor sok minden más (pl. eredményes érdekmérlegelési teszt) mellett elegendő a tiltakozási jogot biztosítani.

Ez általában úgy néz ki, hogy a szolgáltató a személyes adataink tanító-adatként felhasználását megelőzően megkeres minket, és felkínálja a tiltakozási jog gyakorlását.

Ez a Facebook esetében egy külön üzenetben történik, és két eset lehetséges. Ha a Meta által megadott határidőig nem gyakoroljuk a tiltakozási jogunkat, akkor a Meta elkezdi az adataink AI-célú felhasználását. Amennyiben élünk a tiltakozási jogunkkal, és azt megfelelően megindokoljuk, akkor a Meta jó eséllyel tájékoztat minket arról, hogy a tiltakozásunkat elfogadta, és nem használja az adatainkat ilyen célra.

Én például rögtön ennek a funkciónak a bevezetését megelőzően éltem ezzel a jogommal, és az indoklásban kitértem arra, hogy többek között a Messenger üzeneteim és a Facebookon kifejtett aktivitásom (pl. politikai posztokhoz való hozzászólások) különleges adatokat is tartalmaz, amelyeket a GDPR jobban véd, mint a „sima” személyes adatokat. Egyébként is, a GDPR kifejezetten tiltja a különleges (pl. politikai, egészségügyi, stb.) adatok jogos érdek alapon történő felhasználását, ezért jogi akadálya van a Meta adataimmal tervezett tevékenységének. Egyből jött is a válasz, hogy megvizsgálták és elfogadták a tiltakozásomat, és nem fogják ilyen célokra használni az adataimat.

Milyen fontos szabályozásokat hoztak a felhasználók védelmében, hogy az AI ne használjon fel jogtalanul adatokat?

Az emberek kiszolgáltatottsága az algoritmusoknak, a személyes adatainkat monetizáló, és az online életünk minden szegletébe hihetetlen hatékonysággal benyomuló platform-szolgáltatóknak (Meta, Amazon, Google stb.) már eddig is aggasztó méreteket öltött.

Ha még mindezt megfejeljük az adataink AI-célú felhasználásával is, az csak fokozni fogja az adatainkkal való visszaélések lehetőségét, a választási lehetőségeink csökkenésével járhat, és privát szféránkat is még jobban korlátozhatja.

Akit zavar, hogy az online aktivitásának a fokozott ellenőrzése és az így keletkezett adatok új technológiákkal való hasznosítása csak növeli mindezt a kiszolgáltatottságot, annak egyéb megoldások mellett érdemes megfontolnia a tiltakozási jogának gyakorlását.

Milyen következményekkel jár, ha az AI jogtalanul használja a felhasználók adatait?

Az EU-ban az Európai Adatvédelmi Testület már elkezdett foglalkozni a témával, és tavaly egy állásfoglalást is kiadtak arról, hogy az AI-modellek személyes adatokkal történő tanításakor a szolgáltatók hogyan tudnak megfelelni a GDPR rendelkezéseinek.

Ha kiderül, hogy egy szolgáltató az adatvédelmi jogszabályokba ütköző módon használja a felhasználói adatait, akkor akár magánszemélyek által indított kártérítési perekkel, illetve hatósági figyelmeztetéssel, tiltással vagy bírsággal számolhat. A GDPR alapján a kiszabható bírság legnagyobb mértéke a szolgáltató előző éves világpiaci forgalmának 4%-a, vagy 20 millió euró, attól függően, hogy melyik a magasabb, de a tapasztalatok azt mutatják, hogy a hatalmasra nőtt platformok szolgáltatóira ez nem igazán bír elrettentő hatással.

Nemrég az Anthropic cégről derült ki, hogy illegálisan beszerzett könyvekkel tanította fel mesterséges intelligenciáját. Ezzel több millió szerzőt károsított meg, így a bíróság kártérítés megfizetésére kötelezte.

social media közösségi média ai mesterséges intelligencia bartal iván