Kijöttek az új OpenAI modellek, és van egy kis probléma

Hírek - 2025. április 20.

Írta: Prievara Tibor

Ahogy egyre fejlettebbek az AI modellek, valahogy lineáris fejlődést szeretnénk feltételezni felhasználóként. Ehhez képest ez nem mindig van így. Az OpenAI bejelentette az o3 és o4-mini verziókat, amelyek tesztelésénél egy meglepő, váratlan, és a felhasználók számára esetenként kellemetlen tendenciát tapasztaltak. A lapozás után mutatjuk, mire kell ezekkel a modellekkel vigyázni.

A TechCrunch tette közzé azt a belső jelentést, amely az új modellekben a hallucinációkat vizsgálja. Bár sok szempontból a kódolás, érvelés terén sokkal jobban teljesítenek, nem várt mellékhatásként megnőtt a hallucinációk száma. Az alábbiakban a TechCrunch cikkének rövid összefoglalóját olvashatjátok.

Az OpenAI legújabb mesterséges intelligencia modelljei, az o3 és o4-mini, bár technikailag fejlettek, a várttal ellentétben több hallucinációt produkálnak, mint a korábbi modellek. A hallucináció – vagyis az, amikor a modell valótlan állításokat fogalmaz meg – továbbra is az egyik legnehezebben megoldható probléma az AI fejlesztésében. Az új modellek, különösen az úgynevezett "reasoning", azaz érvelő típusúak (mint az o3 és o4-mini), gyakoribb hibákat követnek el, mint az elődeik (o1, o1-mini, o3-mini) vagy a hagyományos GPT-4o modell. Az OpenAI jelenleg nem tudja pontosan, mi okozza ezt a romló tendenciát, és a hivatalos technikai jelentés szerint további kutatások szükségesek a jelenség megértéséhez.

Bár az o3 és o4-mini jól teljesítenek a programozási és matematikai feladatokban, több állítást tesznek, ezáltal egyszerre több pontos és több pontatlan választ is adnak. Az OpenAI által kifejlesztett PersonQA teszten például az o3 válaszainak 33%-a volt hibás, ami duplája a korábbi modellek eredményeinek, míg az o4-mini még ennél is rosszabbul szerepelt 48%-os hallucinációs aránnyal. Független vizsgálatok szerint az o3 néha még azt is állítja, hogy végrehajtott bizonyos műveleteket – például kódot futtatott –, amelyeket technikailag nem tudna elvégezni. A kutatók feltételezik, hogy a modellek megerősítéses tanulása is hozzájárulhat ezekhez a problémákhoz.

Annak ellenére, hogy egyes felhasználók, például a Workera csapata, pozitív tapasztalatokról számoltak be az o3 használatával kapcsolatban, gyakori panasz, hogy a modell hibás vagy nem létező hivatkozásokat generál. Mivel a pontatlanságok jelentős problémát jelentenek, különösen olyan szektorokban, ahol az információk hitelessége létfontosságú (például jogi vagy egészségügyi területeken), a hallucinációk visszaszorítása kulcsfontosságú feladat. Egy ígéretes megoldás lehet a webes keresési képességek beépítése a modellekbe – a GPT-4o például 90%-os pontosságot ért el, amikor keresést is használt. Ha azonban a reasoning modellek skálázása tovább növeli a hibaarányt, a kutatóknak sürgősen új megközelítéseket kell találniuk a probléma kezelésére.

(Az összefoglalás AI segítségével készült)