Hír

Egy új benchmark azt mutatja, hogy az MI-modellek még mindig túl gyakran hallucinálnak

Egy svájci és német kutatók által készített új benchmark azt mutatja, hogy még az olyan csúcsmodellek is, mint a Claude Opus 4.5 – bekapcsolt internetes kereséssel –, az esetek közel egyharmadában még mindig téves információkat adnak.
 
Jensen Huang, az Nvidia vezérigazgatója azt állítja, hogy az LLM-ek (nagy nyelvi modellek) már nem hallucinálnak, ám a tudomány ezzel nem ért egyet. A svájci EPFL, a tübingeni ELLIS Intézet és a Max Planck Intelligens Rendszerek Intézetének kutatói kifejlesztették a „Halluhard” nevű benchmarkot, amely valósághű, többfordulós beszélgetések során méri a hallucinációkat. Az eredmények más képet mutatnak: a hallucináció még mindig jelentős probléma, még engedélyezett internetes keresés mellett is.
 
A benchmark négy érzékeny tudásterületen 950 kezdeti kérdést fed le: jogi esetek, kutatási kérdések, orvosi irányelvek és programozás. Minden kezdeti kérdéshez egy külön felhasználói modell két követő kérdést generált, így valósághű, háromfordulós beszélgetések lettek generálva.
 
A tanulmány szerint még a tesztelt legjobb konfiguráció, a Claude Opus 4.5 internetes kereséssel, is az esetek mintegy 30 százalékában hallucinált. Internetes keresés nélkül ez az arány 60 százalék körüli értékre ugrott. A GPT-5.2 Thinking internetes kereséssel 38,2 százalékos eredményt ért el.
 
Az olyan kínai következtető modellek, mint a Kimi-K2-Thinking és a GLM-4.7-Thinking, teljesítettek a legrosszabbul közvetlen következtető társaikhoz képest. Ami feltűnő, hogy ezek nyitott modellek, amelyek általában más benchmarkok legjobb modelljeivel is felveszik a versenyt, ami felveti a gyanút, hogy ezeket kifejezetten a benchmark-pontszámokhoz optimalizálták, nem pedig a valós világban való megbízhatósághoz.
 
Kulcspontok
 
Az EPFL, a tübingeni ELLIS Intézet és a Max Planck Intézet kutatói kifejlesztették a „Halluhard” nevű új benchmarkot, amely valósághű, többfordulós beszélgetésekben teszteli a hallucinációkat.
 
Az internetes keresés főleg abban segít a modelleknek, hogy valós forrásokat idézzenek. Az, hogy a tartalom ténylegesen egyezik-e ezekkel a forrásokkal, már más kérdés.
 
A modellek különösen hajlamosak a hallucinációra olyan rétegtémák esetében, mint a ritkán idézett tanulmányok: a betanítás során elég töredéket szednek össze a válaszgeneráláshoz, de nem eleget ahhoz, hogy az helyes is legyen.
 
Témák
A nagyobb modellek kevesebbet hallucinálnak, de a következtetés csak korlátozottan segít.
Az internetes keresés csökkenti a hallucinációkat, de nem szünteti meg őket.
A hosszabb beszélgetések súlyosbítják a hallucinációkat.
A modellek leginkább a rétegtudás terén vallanak kudarcot.
A jelenlegi benchmarkok nem tudnak lépést tartani a modellek fejlődésével.
 
A témák részletes kifejtése angol nyelven a következő linken érhető el: New benchmark shows AI models still hallucinate far too often
A teljes tanulmány és a Halluhard brenchmarkinggal kapcsolatos információk angol nyelven itt találhatók: HalluHard - Hallucination Benchmark Leaderboard
 
A kép forrása a cikk.
Share

További oldalak

 

Kapcsolat

Cím: 1016 Budapest, Szent György tér 4-6. (Budavári Palota F épület)
Postacím: 1276 Budapest, Pf. 1205

Tel: +36 1 224-3725

Corporate Site - This is a contributing Drupal Theme
Design by WeebPal.