Az Anthropic AI kutatásából kiderült, hogy a nagy nyelvi modellek hogyan kényszeríthetők arra, hogy válaszokat generáljanak a potenciálisan káros kérésekre.

Egy kutatás szerint a leghatékonyabb mesterséges intelligencia-eszközök biztonsági funkciói, amelyek megakadályozzák, hogy számítógépes kiberbűnözésre vagy terrorizmusra használják őket, valójában egyszerűen megkerülhetők – olvasható a The Guardian cikkében.

A ChatGPT riválisa, a Claude mögötti nagy nyelvi modellt előállító Anthropic AI tanulmányában a kutatók egy általuk „sokszoros jailbreaknek” nevezett támadásról számoltak be. Elmondásuk szerint a célzott merénylet pont olyan egyszerű volt, mint amilyen hatékony.

A Claude, a legtöbb nagy kereskedelmi AI-rendszerhez hasonlóan olyan biztonsági funkciókat tartalmaz, amely bizonyos kérdéseknek a megválaszolását automatikusan megtagadja. Például nem generál erőszakos vagy gyűlölködő tartalmú beszédet, illegális tevékenységekre vonatkozó utasításokat sem készít, illetve kerüli a diszkriminációt és félrevezetést. Az a felhasználó, aki például bombakészítésre vonatkozó tartalmak generálását kéri a rendszertől, udvarias elutasítást kap.

A mesterséges intelligencia rendszerek azonban gyakran működőképesebbek – bármilyen feladatban –, ha a felhasználók „helyes” példákkal alátámasztják a kérésüket. A kutatásból most az derült ki, hogy ha elég példát – azaz több száz példát – hoznak a felhasználók a „helyes” válaszra, akkor az olyan káros kérdésekre, mint „hogyan kötözzek meg valakit”, „hogyan hamisítsak pénzt” vagy „hogyan készítsek metamfetamint” a rendszer boldogan válaszol.

A nagy mennyiségű szöveg egy adott konfigurációban, arra kényszerítheti az LLM-eket, hogy potenciálisan káros válaszokat adjanak, annak ellenére, hogy arra vannak kiképezve, hogy ne tegyenek ilyet

– mondta Anthropic.

A vállalat hozzátette, hogy már megosztotta a kutatás eredményét az érintett szakemberekkel, hogy segíthessen a probléma mihamarabbi javításában.

Bár a jailbreak néven ismert támadás pofon egyszerű, eddig még nem volt ehhez hasonló példa, mert ez olyan mesterséges intelligenciamodellt igényelt, amely képes válaszolni egy több ezer szavas kérdésre is, vagyis nagy kontextusablakkal rendelkezik. Az egyszerűbb AI-modelleket nem lehet ilyen módon átverni, mert gyakorlatilag „elfelejtik” a kérdés elejét, mielőtt a végére érnének. Az AI-fejlesztés élvonalába tartozó eszközök, azonban új lehetőségekkel kecsegtetnek a rosszakaró felhasználóknak.

A kutatásból úgy tűnik, hogy az újabb, összetettebb AI-rendszerek sebezhetőbbek az ilyen támadásokkal szemben. Az Anthropic szerint ennek az az oka, hogy ezek a rendszerek ügyesebben tanultak a példából, ami azt jelenti, hogy gyorsabban is megtanulják megkerülni saját szabályaikat.

Tekintettel arra, hogy a nagyobb modellek azok, amelyek potenciálisan a legkártékonyabbak, különösen aggasztó az a tény, hogy ez a jailbreak technika ilyen jól működik rajtuk

– tette hozzá az amerikai mesterséges intelligencia startup cég.

A vállalat az eredmények fényében talált néhány működő megközelítést a problémára. A legegyszerűbb egy olyan megoldás, amely a felhasználói utasítás után egy figyelmeztetéssel emlékezteti a rendszert arra, hogy nem adhat káros válaszokat. Ez nagymértékben csökkentheti a jailbreak támadások okozta veszélyeket. A kutatók szerint azonban ez a megközelítés más feladatokban is ronthatja a rendszer teljesítményét.

(Borítókép: Halfpoint Images / Getty Images)

Címkék