Mintegy 170 ezer könyv illegálisan terjesztett változatát használhatták fel, így már érthetőbb, honnan van olyan bő szókincse sok rendszernek.
Stephen King, Margaret Atwood, Elena Ferrante, Jonathan Franzen és Murakami Haruki szerzői jogilag értelemszerűen védett műveit is felhasználták kalózverzióban több mesterséges intelligencia (MI) rendszerek fejlesztéséhez, idézi a The Atlantic cikkét a 24.hu. E szerint a 170 ezer érintett cím úgy kétharmada non-fiction, a többi szépirodalom. Ezeket a „Book3” elnevezésű adattárba táplálták be, ezt pedig több MI-modell „betanítására” is felhasználták, ilyen volt a BloombergGPT vagy az EleutherAI’s GPT-J.
Az egész az után derült ki, hogy egy korábbi, fotók miatti eljárás után három szerző, Sarah Silverman, Richard Kadrey és Christopher Golden beperelték a Facebookot is működtető Metát jogvédett műveik engedély nélküli felhasználásáért. A mostani elemzés pedig be is bizonyította, hogy a Book3-nak részei voltak az ő műveik is.
A Meta a lapnak nem reagált, a Bloomberg elismerte az adatbázis használatát és azt ígérte, a jövőben ezt az adatgyűjteményt már nem használják. Korábban a ChatGPT fejlesztőjét is érték hasonló vádak, egy 2020-as tanulmány szerint nagyjából 300 ezer könyvből álló szövegtesten „kupálódhatott” a rendszer. Az MI-k kulcskérdése, hogy megfelelő adatanyaggal „etetik-e meg”, ez előkerül például a vállalati döntéshozatalban használt rendszereknél, de azt is befolyásolhatja, hogy egy szöveget generáló rendszer politikailag milyen irányultságú válaszokat ad.
(Kiemelt kép: EMMANUEL DUNAND / AFP)