Egy svájci és német kutatók által készített új benchmark azt mutatja, hogy még az olyan csúcsmodellek is, mint a Claude Opus 4.5 – bekapcsolt internetes kereséssel –, az esetek közel egyharmadában még mindig téves információkat adnak.
A benchmark négy érzékeny tudásterületen 950 kezdeti kérdést fed le: jogi esetek, kutatási kérdések, orvosi irányelvek és programozás. Minden kezdeti kérdéshez egy külön felhasználói modell két követő kérdést generált, így valósághű, háromfordulós beszélgetések lettek generálva.
A
tanulmány szerint még a tesztelt legjobb konfiguráció, a Claude Opus 4.5 internetes kereséssel, is az esetek mintegy 30 százalékában hallucinált. Internetes keresés nélkül ez az arány 60 százalék körüli értékre ugrott. A GPT-5.2 Thinking internetes kereséssel 38,2 százalékos eredményt ért el.
Az olyan kínai következtető modellek, mint a Kimi-K2-Thinking és a GLM-4.7-Thinking, teljesítettek a legrosszabbul közvetlen következtető társaikhoz képest. Ami feltűnő, hogy ezek nyitott modellek, amelyek általában más benchmarkok legjobb modelljeivel is felveszik a versenyt, ami felveti a gyanút, hogy ezeket kifejezetten a benchmark-pontszámokhoz optimalizálták, nem pedig a valós világban való megbízhatósághoz.
Kulcspontok
Az EPFL, a tübingeni ELLIS Intézet és a Max Planck Intézet kutatói kifejlesztették a „Halluhard” nevű új benchmarkot, amely valósághű, többfordulós beszélgetésekben teszteli a hallucinációkat.
Az internetes keresés főleg abban segít a modelleknek, hogy valós forrásokat idézzenek. Az, hogy a tartalom ténylegesen egyezik-e ezekkel a forrásokkal, már más kérdés.
A modellek különösen hajlamosak a hallucinációra olyan rétegtémák esetében, mint a ritkán idézett tanulmányok: a betanítás során elég töredéket szednek össze a válaszgeneráláshoz, de nem eleget ahhoz, hogy az helyes is legyen.
Témák
A nagyobb modellek kevesebbet hallucinálnak, de a következtetés csak korlátozottan segít.
Az internetes keresés csökkenti a hallucinációkat, de nem szünteti meg őket.
A hosszabb beszélgetések súlyosbítják a hallucinációkat.
A modellek leginkább a rétegtudás terén vallanak kudarcot.
A jelenlegi benchmarkok nem tudnak lépést tartani a modellek fejlődésével.
A kép forrása a cikk.