Egy új benchmark azt mutatja, hogy az MI-modellek még mindig túl gyakran hallucinálnak

Beküldte bebiak.magdolna - 2026. február 13. - 14:00

Egy svájci és német kutatók által készített új benchmark azt mutatja, hogy még az olyan csúcsmodellek is, mint a Claude Opus 4.5 – bekapcsolt internetes kereséssel –, az esetek közel egyharmadában még mindig téves információkat adnak.

Jensen Huang, az Nvidia vezérigazgatója azt állítja, hogy az LLM-ek (nagy nyelvi modellek) már nem hallucinálnak, ám a tudomány ezzel nem ért egyet. A svájci EPFL, a tübingeni ELLIS Intézet és a Max Planck Intelligens Rendszerek Intézetének kutatói kifejlesztették a „Halluhard” nevű benchmarkot, amely valósághű, többfordulós beszélgetések során méri a hallucinációkat. Az eredmények más képet mutatnak: a hallucináció még mindig jelentős probléma, még engedélyezett internetes keresés mellett is.

A benchmark négy érzékeny tudásterületen 950 kezdeti kérdést fed le: jogi esetek, kutatási kérdések, orvosi irányelvek és programozás. Minden kezdeti kérdéshez egy külön felhasználói modell két követő kérdést generált, így valósághű, háromfordulós beszélgetések lettek generálva.

A tanulmány szerint még a tesztelt legjobb konfiguráció, a Claude Opus 4.5 internetes kereséssel, is az esetek mintegy 30 százalékában hallucinált. Internetes keresés nélkül ez az arány 60 százalék körüli értékre ugrott. A GPT-5.2 Thinking internetes kereséssel 38,2 százalékos eredményt ért el.

Az olyan kínai következtető modellek, mint a Kimi-K2-Thinking és a GLM-4.7-Thinking, teljesítettek a legrosszabbul közvetlen következtető társaikhoz képest. Ami feltűnő, hogy ezek nyitott modellek, amelyek általában más benchmarkok legjobb modelljeivel is felveszik a versenyt, ami felveti a gyanút, hogy ezeket kifejezetten a benchmark-pontszámokhoz optimalizálták, nem pedig a valós világban való megbízhatósághoz.

Kulcspontok

Az EPFL, a tübingeni ELLIS Intézet és a Max Planck Intézet kutatói kifejlesztették a „Halluhard” nevű új benchmarkot, amely valósághű, többfordulós beszélgetésekben teszteli a hallucinációkat.

Az internetes keresés főleg abban segít a modelleknek, hogy valós forrásokat idézzenek. Az, hogy a tartalom ténylegesen egyezik-e ezekkel a forrásokkal, már más kérdés.

A modellek különösen hajlamosak a hallucinációra olyan rétegtémák esetében, mint a ritkán idézett tanulmányok: a betanítás során elég töredéket szednek össze a válaszgeneráláshoz, de nem eleget ahhoz, hogy az helyes is legyen.

Témák

A nagyobb modellek kevesebbet hallucinálnak, de a következtetés csak korlátozottan segít.

Az internetes keresés csökkenti a hallucinációkat, de nem szünteti meg őket.

A hosszabb beszélgetések súlyosbítják a hallucinációkat.

A modellek leginkább a rétegtudás terén vallanak kudarcot.

A jelenlegi benchmarkok nem tudnak lépést tartani a modellek fejlődésével.

A témák részletes kifejtése angol nyelven a következő linken érhető el: New benchmark shows AI models still hallucinate far too often

A teljes tanulmány és a Halluhard brenchmarkinggal kapcsolatos információk angol nyelven itt találhatók: HalluHard - Hallucination Benchmark Leaderboard

Forrás: New benchmark shows AI models still hallucinate far too often

A kép forrása a cikk.

Hír

Egy új benchmark azt mutatja, hogy az MI-modellek még mindig túl gyakran hallucinálnak

További oldalak

Gyorslinkek

Kapcsolat

Keresés űrlap

Jelenlegi hely

Hír

Egy új benchmark azt mutatja, hogy az MI-modellek még mindig túl gyakran hallucinálnak

További oldalak

Gyorslinkek

Kapcsolat