Az OpenAI úgy véli, hogy a Voice Engine hanggeneráló technológia bevezetésének késleltetése jó hatással lehet a szolgáltatással való visszaélés csökkentésére, főként a politikai csalások visszaszorításában.

Mivel az OpenAI eszköze mindössze tizenöt másodpercnyi rögzített hangfelvétellel képes bárki hangját meggyőzően klónozni, így   a cég  egyelőre túl kockázatosnak ítélte meg a nyilvános megjelenítéshez. A technológiai óriás a késleltetéssel a káros félretájékoztatás veszélyét igyekszik minimalizálni a globális választások évében – olvasható a The Guardian cikkében.

A Voice Engine-t először 2022-ben kezdték el fejleszteni, kezdeti változatát a ChatGPT-be épített szöveg-beszéd funkcióhoz használták. A szolgáltatás valódi erejét azonban még nem tapasztalhatták meg a felhasználók, ugyanis a cég elmondása szerint óvatosan és megfontoltan állnak ehhez a funkcióhoz.

Úgy döntöttünk, hogy egyelőre nem adjuk ki széles körben ezt a technológiát

– írta egy posztjukban.

Ám arról már ennek ellenére is lehet tudni, hogy az új eszköz mire képes, ugyanis a vállalat a bejegyzésében több olyan cégről is írt, akik már hozzáférést kaptak a technológiához. Az Age of Learning nevű oktatási technológiai cég például az eszközt szkriptelt szinkronhangok generálására használja. A HeyGen „AI visual storytelling” alkalmazás pedig lehetővé teszi a felhasználóknak, hogy a rögzített tartalmak folyékony, de az eredeti beszélő akcentusát és hangját megőrző fordítását készítsék el. Például egy francia beszélő esetén az eszköz úgy képes a hangmintából angol nyelvű hanganyagot generálni, hogy az francia akcentussal egészül ki.

A cég a nyilvános hozzáférés bevezetése előtt abban bízik, hogy megerősödik a társadalom ellenálló képessége az egyre meggyőzőbb generatív modellek támasztotta kihívásokkal szemben. Az OpenAI emellett kiemelte az egyének hangjának AI alapú felhasználásának védelmére irányuló törekvéseket is, valamint az edukáció fontosságát az AI-technológiák képességeinek és korlátainak megértésére, beleértve a megtévesztő AI-tartalmakat.

Reméljük, hogy elindíthatunk egy párbeszédet a szintetikus hangok felelős alkalmazásáról, és arról, hogy a társadalom hogyan tud alkalmazkodni ezekhez az új képességekhez. Ezen beszélgetések és a kis léptékű tesztek eredményei alapján megalapozottabb döntést fogunk hozni arról, hogy ezt a technológiát alkalmazzuk-e, és ha igen, hogyan, milyen léptékben

– írta az OpenAI egy blogbejegyzésben.

Az OpenAI elmondása szerint a Voice Engine generációi egyelőre vízjellel vannak ellátva, ami lehetővé teszi a szervezet számára, hogy nyomon követhesse a generált hang eredetét.

A partnereinkkel kötött feltételeink megkövetelik az eredeti beszélő kifejezett és tájékozott beleegyezését, és nem engedjük meg a fejlesztőknek, hogy módot teremtsenek arra, hogy az egyes felhasználók saját hangokat hozzanak létre

– olvasható a közleményben.

Bár az OpenAI eszköze kiemelkedik abból a szempontból, hogy milyen csekély hosszúságú hanganyag felhasználásával képes meggyőzően klónozni, azonban versenytársai sem teljesítenek rosszul, ráadásul ezek nyilvánosan elérhetőek. Az olyan cégek, mint az ElevenLabs, mindössze néhány percnyi hanganyagból képesek teljes hangklónt létrehozni. A programmal okozható károk csökkentése érdekében a vállalat bevezetett egy intézkedést is, amelynek célja, hogy felismerje és megakadályozza az olyan hangklónok létrehozását, amelyek az elnök- vagy miniszterelnök-választásokon aktívan részt vevő politikai jelölteket utánoznak, kezdve az amerikai és az egyesült királyságbeli választásokkal.

(Borítókép: Liudmila Chernetska/ Getty Images)

Címkék