Magyar nyelven is nagy pontossággal képes megkülönböztetni az ember által írt és a mesterséges intelligencia által generált szövegeket az az AI-detektor, amelyet Kiss Mihály, a Szegedi Tudományegyetem hallgatója fejlesztett. A rendszer a tesztek szerint lényegesen pontosabb a jelenleg elérhető magyar nyelvű megoldásoknál.
A fejlesztés célja az volt, hogy megbízható eszköz álljon rendelkezésre annak eldöntésére, egy szöveget ember vagy mesterséges intelligencia írt-e, ami az oktatásban egyre nagyobb problémát jelent – számolt be róla az SZTE.
A fejlesztés ötlete 2023-ban, a nagy nyelvi modellek – köztük a ChatGPT – elterjedésével párhuzamosan merült fel. A téma eredetileg szakdolgozati kutatásként indult, de a fejlesztő szerint hamar kiderült, hogy nem pusztán elméleti kérdésről van szó.
ChatGPT az iskolapadban: puskázásra vagy tanuláshoz használják a diákok?
„Egyre többen használják ezeket az eszközöket, és hosszú távon ez biztosan problémát jelent majd az oktatásban és azon túl is” – fejtette ki Kiss Mihály az egyetem programtervező informatikus mesterszakos hallgatója.
A gond nem a magyar nyelv, hanem az adat
Mihály szerint eddig nem azért nem létezett megbízható magyar nyelvű AI-detektor, mert a magyar „nehezebb” lenne az angolnál, hanem mert nem álltak rendelkezésre megfelelő tanítóadatok. Míg angol nyelven hatalmas, jól tisztított szövegkorpuszok léteznek, magyar nyelven ilyen korábban nem volt.
Ennek pótlására Kiss Mihály több mint 350 ezer szövegből álló adathalmazt hozott létre, amely irodalmi műveket, szakdolgozatokat, cikkeket, fórumhozzászólásokat és közösségi médiás tartalmakat is tartalmaz.
A rendszer maga is mesterséges intelligencián alapul, de nem tartalomgeneráló modell. Egy encoder alapú architektúrát használ, amely kifejezetten osztályozási feladatokra alkalmas, hasonlóan a spam-szűrőkhöz. A felhasználó egy százalékos értéket kap arról, hogy mennyire valószínű, hogy az adott szöveget AI generálta. Az eszköz napi három alkalommal ingyenesen használható.
Lényegesen pontosabb, mint a jelenlegi eszközök
A mesterszakos hallgató a modell teljesítményét 1000 magyar nyelvű szövegen hasonlította össze olyan online detektorokkal, amelyek saját állításuk szerint támogatják a magyar nyelvet. A tesztek alapján a saját modell 0,98-as pontossággal működött, míg a többi eszköz jellemzően 0,6 körüli értéket ért el.
Kiemelt szempont volt az alacsony fals pozitív arány, vagyis hogy a rendszer ne minősítsen tévesen emberi szöveget AI-generáltnak, ami különösen fontos lehet az oktatásban.
Félmillió laptopból csak minden hatodik korszerű, mégis MI-oktatást tervez a kormány
Oktatásban, médiában, HR-ben is használható
Kiss Mihály szerint a mesterséges intelligencia használata nem kerülhető meg, de nem is kell tiltani: „A cél nem az, hogy betiltsuk, hanem hogy tudjuk, mikor és hogyan használták.”
A fejlesztés elsődleges felhasználói az oktatás szereplői lehetnek, de az eszköz a médiában, könyvkiadásban, jogi területeken vagy akár a HR-ben is hasznos lehet. A projekt elnyerte az SZTE Hallgatói Innovációs Díját, az éles indulást 2026 elejére tervezik.