A Digital Science kutatási jövőért felelős alelnökeként Simon Porter feladata, hogy segítse a vállalatot – és a tágabb ökoszisztémát – abban, hogy hogyan változik a kutatás és milyen infrastruktúrákra lesz szükség annak támogatásához. Fókuszában a metaadatok, a tartós azonosítók, az analitika és az olyan új technológiák, mint a mesterséges intelligencia (MI), valamint az ezek által létrehozható megbízhatóbb és összekapcsoltabb kutatási környezet áll.
Simon Porter a karrierjét a Melbourne-i Egyetemen kezdte, ahol 15 évig dolgozott a könyvtárban, a kutatási irodában és az informatikai szolgálatnál. Az itt szerzett tapasztalatok megmutatták, hogyan mozog valójában a kutatási információ – és hol szakad meg.
2015-ben kezdett el dolgozni a Digital Science-nél, ahol kutatási tudásgrafikonokkal, PID -benchmarkinggal, intézményi elemzésekkel és adatvizualizációval foglalkozott. Azzal a céllal végezte feladatait, hogy javítsa a kutatási információk áramlását, minőségét és hasznosságát az ökoszisztéma egészében.
Az motiválta, hogy még a kutatási információk kismértékű javítása is rendszerszintű hatással járhat.
Karrierje elején arra koncentrált, hogy hogyan lehetne optimalizálni az intézmények belső információáramlását az adatokhoz való hozzáférés korlátainak lebontásával (például HR, pénzügy, kutatás és hallgatói rendszerek). Az idő múlásával, miközben az adathalmazok egyre nagyobbak lettek (kutatói közösségek, intézmények, finanszírozók és kiadók), a legmélyebb kihívások továbbra is kulturálisak maradtak, nem technikaiak.
Az összekapcsolt információs rendszerek azt jelentik, hogy nem csak magunknak és közvetlen céljainknak hozunk létre információkat. Azt is figyelembe kell vennünk, hogy mások hogyan fogják felhasználni az általunk létrehozott információkat.
A kutatási információk közössége az az elképzelés, hogy a szervezetek közös felelősséget viselnek az egész ökoszisztéma számára fontos, pontos, állandó és nyílt metaadatok kezeléséért.
A jó információ nem véletlenül jön létre, hanem szándékos magatartást igényel. Érdekes, hogy a kutatási információk közössége mérhető a Datacite és Crossref forrásokban létrehozott metaadatokban.
Sürgető kihívások egy komplex környezetben
Két kihívás emelkedik ki. Először is a bizalom: ahogy a mesterséges intelligencia (MI) egyre inkább beépül a kutatásértékelésbe, a döntéshozatalba és a tartalomgyártásba, a szervezeteknek egyértelműségre van szükségük az adatok minőségét, eredetét és az analitikai eszközök mögött álló feltételezéseket illetően.
Másodszor, a gazdálkodási képesség: sok szervezet támogatja a PID-ket és a nyílt metaadatokat, de nincs megfelelő erőforrása az egységes, magas színvonalú információs gyakorlatok fenntartásához.
Ezek a kihívások összefüggenek egymással; közös szabványok és közös felelősség nélkül a kutatási rendszer egyre átláthatatlanabbá válhat éppen akkor, amikor nagyobb átláthatóságra lenne szüksége.
A nyílt adatok elengedhetetlenek, de fontos megkülönböztetni a nyílt adatokat a FAIR (kereshető, hozzáférhető, interoperábilis és újrafelhasználható) adatoktól. A kutatási információs infrastruktúrában szerencsés helyzetben vagyunk, mert négy fontos FAIR-forrás áll rendelkezésünkre – Crossref, DataCite, ROR és ORCID –, amelyek hiteles, közösség által irányított metaadatokat nyújtanak.
Algoritmusok, hovatartozás és hitelesség
Amikor ezeken túlra tekintünk, elkerülhetetlenül algoritmusok által generált metaadatokat vezetünk be, mint például a kutatók személyazonosságára vonatkozó következtetések vagy hovatartozási nyilatkozatok. Ezek az adatok rendkívül hasznosak lehetnek, de soha nem szabad ugyanolyan hitelességgel kezelni őket, mint az eredeti FAIR-forrásokat, függetlenül attól, hogy nyílt licenc alatt állnak-e.
A nyílt adatok nem automatikusan FAIR-adatok, és figyelni kell arra, hogy az algoritmusok hogyan vezetnek be torzításokat, hibákat és strukturális vakfoltokat az elemzéseinkbe.
A platform kiválasztásakor a szervezeteknek azt is figyelembe kell venniük, hogy mire irányulnak erőfeszítéseik. Arra kérik őket, hogy tisztítsák meg vagy javítsák ki az adatokat egy adott eszköz számára, vagy hasznosabban fordíthatnák ezt az időt a Crossref, DataCite, ORCID vagy ROR saját hiteles metaadatainak minőségének javítására?
Minél kevesebb időt töltünk „algoritmusokért való munkával”, és minél több időt fordítunk a közös kutatási információk megosztásának erősítésére, annál jobb lesz az egész ökoszisztéma. A kérdés nem az, hogy nyílt vagy kereskedelmi, hanem hogy hogyan lehet mindkettőt fenntartható, megbízható módon használni.
Összekapcsolt és kontextusfüggő megközelítés
Mivel az olyan nyílt infrastruktúrák, mint a Crossref, a DataCite, az ORCID és a ROR egyre inkább kielégítik a közösség igényét a magas színvonalú alapvető metaadatok iránt, az innováció horizontja természetesen eltolódik.
A 2010-es évek a tartós azonosító infrastruktúra kiépítéséről szóltak, a 2020-as évek pedig annak széles körű bevezetéséről. Ha a jelenlegi trendek folytatódnak, akkor teljesen valószínű, hogy 2030-ra elérjük a telítettségi pontot az ORCID kutatók körében és a ROR intézmények körében történő elterjedésében. (Annak ellenére, hogy a ROR elterjedése még csak most kezdődik.)
Ezzel a javított alapokkal a kérdés már nem az, hogy „Hogyan juthatunk alapvető publikációs vagy intézményi metaadatokhoz?”, mert azok már rendelkezésünkre állnak, és évről évre javulnak. A kérdés inkább az lesz: Hogyan kapcsolódik a szervezet a finanszírozás, adatkészletek, szabadalmak, politika és együttműködés szélesebb kutatási világához?
A
Dimensions erőssége abban rejlik, hogy biztosítja ezt a kontextuális réteget: összekapcsolja a publikációkat a támogatásokkal, kutatókkal, intézményekkel, adatkészletekkel, szabadalmakkal és politikai hozzájárulásokkal. Ez lehetővé teszi a szervezetek számára, hogy lássák, hogyan vesznek részt munkájukkal a tágabb tudományos, társadalmi és gazdasági rendszerekben, és hogyan alakítják azokat.
Egy olyan világban, ahol az alapvető metaadatok egyre inkább szabványosítottá és nyílttá válnak, a stratégiai betekintés a kapcsolatok, az utak és a kontextus megértéséből származik. A Dimensions biztosítja ezt az összekötő felületet, segítve a szervezeteket abban, hogy ne csak azt lássák, amit előállítanak, hanem azt is, hogy az hogyan illeszkedik a tágabb kutatási környezetbe.
A bizalom kérdése
A Dimensions mögött rengeteg munka áll, hogy a kutatási környezet megbízható képet mutasson.
Bár a kutatók azonosításának jövője egyértelműen az ORCID-ben rejlik (és minél hamarabb, annál jobb!), ma még mindig kutatói disambiguációs algoritmusokra kell támaszkodnunk, hogy a publikációkat és eredményeket helyesen összekapcsoljuk. Ezen algoritmusok kialakítása fontos kérdés. A Dimensions megközelítése úgy lett kialakítva, hogy támogassa a kutatási integritás és a kutatási biztonság területén felmerülő felhasználási eseteket, ahol a rekordok helytelen összekapcsolásának következményei károsabbak lehetnek, mint azok szétválasztása.
Bár egyetlen algoritmus sem képes minden kutatót tökéletesen azonosítani, a mai kutatási környezetben elengedhetetlenül fontos, hogy csökkentsük annak valószínűségét, hogy egy személyt tévesen azonosítsanak vagy helytelenül társítsanak nem megfelelő vagy nemkívánatos tevékenységhez. A Dimensions ezért a konzervatív, pontosságra összpontosító egyezésnek ad elsőbbséget, hogy minimalizálja a téves összekapcsolásokat.
Egy másik fontos szempont a besorolás. A Dimensions nem saját taxonómiát alkalmaz, hanem külsőleg meghatározott kutatási besorolási rendszereket, például a kutatási területeket, az értékelési egységeket és a fenntartható fejlődési célokat. Ezáltal a Dimensions elemzései sokkal jobban összeegyeztethetők a szélesebb körű ágazati elemzésekkel, és biztosítja, hogy az eredmények összhangban legyenek az intézményi, nemzeti és nemzetközi jelentéstételi keretekkel.
Az MI javítja mind az információk kinyerését, mind az eredmények rendelkezésre állásának sebességét. A Dimensionsban az MI segít a tartalom osztályozásában, a kapcsolatok feltárásában, az új témák felismerésében és a többértelműségek tisztázásában.
A Dimensions valódi lehetősége egy erős tudásgráfon alapuló, magyarázható, felelősségteljes MI-ban rejlik. Mivel a Dimensions összekapcsolja a támogatásokat, a publikációkat, az adatkészleteket, a szabadalmakat és a politikákat, az MI strukturált kapcsolatokra alkalmazható, nem pedig elszigetelt rekordokra, így mélyebb, kontextusba ágyazott eredményeket hoz.
A közösség ereje
A Dimensions jövőjével kapcsolatban leginkább nem a technológia maga izgat, hanem az azt körülvevő közösség, valamint az, ahogyan a Digital Science folyamatosan újraértékeli, hogyan tudnak konstruktív szerepet játszani a szélesebb kutatási információs ökoszisztémában. Ez közvetlenül kapcsolódik a kutatási információs közösségről korábban elmondottakhoz: az igazi fejlődés akkor történik, amikor a szervezetek együttműködnek a közös infrastruktúrák megerősítésében és a magas színvonalú metaadatok mindenki számára elérhetőbbé tételében.
Ennek szellemében két közelmúltbeli kezdeményezést indítottak. Az első a Scientometric Access to Data Program újbóli bevezetése, amely a Google BigQuery segítségével egyszerűsíti a kutatók hozzáférését a Dimensions adataihoz. A második az ORCID-hez hasonló szervezetekkel folytatott együttműködés, amelynek célja, hogy adataik ugyanabban a környezetben könnyebben elemezhetők legyenek.
Az ilyen típusú együttműködések – amelyek átláthatóságon, interoperabilitáson és közös felelősségen alapulnak – fogják alakítani a Dimensions jövőjét, és ami még fontosabb, megerősítik a kutatási információk közös használatát egészében.