A DataSeer mesterséges intelligencia rendszert fejleszt az adatkészletek újrafelhasználásának nyomon követésére

Beküldte bebiak.magdolna - 2026. március 20. - 11:00

A DataSeer a Michael J. Fox Alapítvánnyal (MJFF) együttműködve egy új, nagy nyelvi modellre (LLM) épülő rendszert fejlesztett ki, amelynek célja az adatkészletek újrafelhasználásának nagy léptékű észlelése és számszerűsítése a tudományos szakirodalomban.

A rendszer a kutatásfinanszírozók és intézmények egy régóta fennálló kihívására kíván megoldást nyújtani: a megosztott kutatási adatok tovagyűrűző, későbbi hatásának mérésére.

A publikált kutatásokban történő adat-újrahasznosítás észlelésének automatizálásával a platform célja egy olyan kulcsfontosságú szűk keresztmetszet megszüntetése, amely korábban korlátozta az adatok újrafelhasználásának kiterjedt elemzését.

Az adatmegosztás egyre inkább prioritássá válik azon kutatásfinanszírozók számára, akik a felfedezések felgyorsítására és a tudományos folyamatok átláthatóságának javítására törekszenek. Az MJFF aktívan részt vesz ebben a mozgalomban, 2020 óta az Aligning Science Across Parkinson’s (ASAP) kezdeményezés végrehajtó partnereként tevékenykedik. Az alapítvány 2022-ben kiterjesztette nyílt tudományos (open science) gyakorlatát a szélesebb kutatási hálózatára is, az ASAP program keretében bevezetett irányelvekre építve.

Az új rendszer egy 2025-ben, a Strategies for Open Science (Stratos) szervezettel közösen megrendelt, az adatkészletek újrahasznosítását vizsgáló tanulmányra épül, amely segített megteremteni a megközelítés kidolgozásához szükséges bizonyítékokat.

A DataSeer által a PLOS (a Nyílt Tudományos Indikátor partnerük) együttműködésével, valamint a szélesebb nyílt tudományos közösség visszajelzései alapján kifejlesztett LLM-et egy 6000 MJFF által finanszírozott cikkből álló korpuszon tesztelték. A hagyományos, formális adathivatkozásokra vagy digitális objektumazonosítókra (DOI) támaszkodó megközelítésekkel ellentétben a modell a kutatási cikkek teljes szövegét elemzi az újrahasznosított adatkészletek azonosítása érdekében.

Ez lehetővé teszi a rendszer számára, hogy akkor is felismerje az újrahasznosítást, ha az adatkészletekre csak közvetve hivatkoznak, például hozzáférési számokon, repozitóriumok nevein, URL-eken vagy szöveges leírásokon keresztül.

„Az adatkészletek újrafelhasználásának felismerése valóban nehéz feladat” – mondta Tim Vines, a DataSeer alapítója és vezérigazgatója. „A strukturált azonosítóktól függő hagyományos megközelítések jellemzően csak a cikkek körülbelül 2 százalékában találnak bizonyítékot az újrahasznosításra. Amikor azonban az LLM-ünket az MJFF korpuszán alkalmaztuk, a cikkek 43 százalékában találtunk egyértelmű bizonyítékot az adatok újrafelhasználására. Ez a különbség megerősíti azt az általános vélekedést, hogy az adatok újrahasznosítása mindig is jelen volt, de gyakorlatilag láthatatlan maradt.”

„A finanszírozók részéről egyre nagyobb az érdeklődés nemcsak aziránt, hogy mi kerül publikálásra, hanem aziránt is, hogy a kutatási eredményeket hogyan használják fel és hasznosítják újra az idő múlásával” – mondta Josh Gottesman, az MJFF kutatási adatokért felelős közösségi igazgatója. „Az adatok újrafelhasználásának szisztematikus nyomon követése új megvilágításba helyezi számunkra a nyitottságot, a kutatási integritást és a támogatásra fordított dollárjaink hosszú távú hatását – miközben hangsúlyozza azoknak a kutatóknak a kritikus hozzájárulását, akik a jövőbeli felfedezéseket lehetővé tevő adatokat előállítják.”

Forrás: DataSeer develops AI system to track dataset reuse - Research Information

A kép forrása a cikk.

Hír

A DataSeer mesterséges intelligencia rendszert fejleszt az adatkészletek újrafelhasználásának nyomon követésére

További oldalak

Gyorslinkek

Kapcsolat

Keresés űrlap

Jelenlegi hely

Hír

A DataSeer mesterséges intelligencia rendszert fejleszt az adatkészletek újrafelhasználásának nyomon követésére

További oldalak

Gyorslinkek

Kapcsolat