Szemantikus Web a könyvtárakban konferencia, SWIB2020

Beküldte bodog.andras - 2021. január 07. - 12:17

A koronavírus-járványra való tekintettel rendhagyó módon idén online formában került megrendezésre a Szemantikus Web a Könyvtárakban – Semantic Web in Libraries (SWIB) konferenciasorozat legújabb része 2020. november 23. és 27. között. Az idei esemény középpontjában a nyílt kapcsolt adatok (Linked Open Data – LOD) könyvtári felhasználása és a szemantikus web könyvtárorientált felhasználásának kurrens jó gyakorlatai álltak. A SWIB2020 szervezésének munkáját – ezúttal is – a ZBW Leibniz Közgazdasági Információs Központ és az Észak-Rajna–Vesztfáliai Könyvtári Szolgáltatások Központja (hbz) látták el.

A konferencia első napja Audrey Tang, Tajvan első digitális miniszterének egyórás bevezető előadásával kezdődött, amely a nyílt adatok társadalmi hasznosulását mutatta be a szigetország példáján, elsősorban a koronavírus-járvány tükrében. Ennek egyik kulcstényezője a Tang által kollektív intelligenciának nevezett felfogás, amely a nyílt adatokon alapuló közhasznú információk gyors terjeszthetőségére épül. Tajvanon a politikában online módon részt vevő állampolgárok alkotják az ún. árnyékkormányt, akik többféle online fórumon keresztül kinyilváníthatják véleményüket, amelyet figyelembe vesznek a politikai döntéshozók is. Az egyik legfőbb ilyen fórum a gov zero mozgalom. A társadalmat a közszféra és a piaci szféra összefogásával is segítik. A Tang által digitális társadalmi innovációnak nevezett szemlélet központi eleme a jelentős mértékű átláthatóság, az önkéntesség és a digitális tevékenységekből eredő helyfüggetlenség. Mindehhez központi helyszínül az ún. társadalmi innovációs laborok szolgálnak, amelyek több száz társadalmi innovátor – magánszemélyek és vállalatok egyaránt – együttműködésében valósultak meg. A társadalmi innováció e megközelítésében a kormányzás, a társadalom és a kereskedelem keresi a közös nevezőt a problémák megoldására. A sandbox.org.tw oldalon bármely társadalmi innovátor tehet javaslatot egy egyéves kísérletre, legyen szó például önvezető járművekről, platformgazdaságról, 5G távközlésről vagy úttörő pénzügyi technológiáról (financial technology). A kísérletet követheti az adott újítást bevezető szabályozás, kevésbé látványos siker esetén pedig a társadalom egésze számára átlátható módon vonják le a tanulságokat.

Az első nap könyvtárszakmai előadóinak sorát Ricardo Eito-Brun, a Madridi III. Károly Egyetem (Universidad Carlos III de Madrid) oktatója indította. Előadásának témája az intézményi repozitórium automatikus indexelése a SKOS szótárát felhasználva. A spanyol gyakorlat a deszkriptorok és a kulcsszavak tezauruszból történő automatikus kiosztását preferálja. A kísérleti folyamat során automatikusan azonosítják a tezaurusz azon fogalmait, amelyekkel leírható a repozitóriumi tartalom. A dokumentumokhoz társított tezaurusz-deszkriptorok meghatározását követően maga a tezaurusz használható a lekérdezések bővítésére, illetve segít a végfelhasználóknak a keresőkifejezések kiválasztásában. Ezután a SWIB visszatérő előadója, Osma Suominen, a Finn Nemzeti Könyvtár munkatársa az Annif többnyelvű gépi tárgyszavazó eszköz aktualitásait ismertette. Minden gépi tárgyszavazó rendszer fejlesztésének indoka az, hogy a manuális tartalmi feltárás rendkívül idő- és munkaigényes feladat, különösen, ha igen nagy méretű gyűjtemények feldolgozásáról van szó. A finn gyakorlat alapját a már létező metaadat-gyűjtemények gépi tanulással segített felhasználása képezi. A metaadatok bázisát a Finna közgyűjteményi aggregátorportál nyújtja. Az Annif már gyakorlati alkalmazásban van a Jyväskylä Egyetem JYX repozitóriumában, ahol a rendszer a hallgatók által feltöltött szakdolgozatokhoz és disszertációkhoz javasol tárgyszavakat: üres mezők kitöltése helyett a gépi javaslat listájából választhatják ki a legmegfelelőbbnek ítélt tárgyszavakat a saját kulcsszavaik mellé. 2020-tól hasonló elv szerint működik az Annif több másik finn egyetemi repozitórium (Osuva, Trepo, Theseus) esetében is. A projekt 2020-as újítása a májusban indított Finto AI gépi tárgyszavazó eszköz és API szolgáltatás. Ezen a webfelületen a rendszer az oda beillesztett tetszőleges szöveg tárgyszavazását elvégzi angol, finn és svéd nyelven, szövegelemzést futtatva le az YSO (finn nemzeti ontológia) tezauruszát bázisként használva. Az első nap utolsó előadója Anna Kasprzik volt, aki programkoordinátorként a német AutoSE gépi tárgyszavazó projektet ismertette. Ennek közvetlen előzménye a 2014 és 2018 között „házon belül” fejlesztett, Közgazdasági Tezauruszt (STW) és a SKOS-t lexikai alapként használó, többféle gépi tanulási módszert kombináló AutoIndex projekt volt. A rendszer metaadatbázisát egy közös katalógus nyújtja, az AutoSE maga pedig az EconBiz elnevezésű intézményi repozitórium adatbázisába és discovery rendszerébe illeszkedik. Jelenleg a gépi feldolgozás tárgyszavainak a közös katalógusba való vissza-integrálásán és a katalógussal összeköttetésben álló digitális asszisztens fejlesztésén dolgoznak.

A SWIB2020 második napja gyakorlati jellegű volt. A délután során, előzetes jelentkezést követően online workshopokon lehetett részt venni. A konferencia harmadik napja a BIBFRAME és az authority tematikája körül forgott. A PCC (Program for Cooperative Cataloging – Kooperatív Katalogizálás Program) részéről Paloma Graciani-Picardo és Nancy Lorimer tartottak előadást a katalogizáló közösségnek szánt BIBFRAME-alkalmazásprofilok fejlesztéséről. A PCC a könyvtári kapcsolt adatokat kívánja – a BIBFRAME-t ontológiaként felhasználva – egy kooperatív katalogizáló ökoszisztéma keretében összekötni mások kapcsolt adataival, aminek során a könyvtárak képesek megosztani saját kapcsolt adataikat egyéb szereplőkkel, valamint a könyvtárak is használni tudnak más forrásból származó adatokat. Mivel nem áll rendelkezésre hivatalos megfeleltetés az RDA és a BIBFRAME között, és jó gyakorlatokat sem ismerünk a könyvtári katalogizálásra kapcsoltadat-környezetben, ezért a katalogizálási területnek szüksége van egy tágabb értelemben vett ökoszisztémába történő integrációra. A PCC egyik munkacsoportja a Sinopia rendszerhez fejleszt és értékel ki létező, a szervezet standardjainak megfelelő alkalmazásprofilokat. Sablonok kialakításával kívánnak létrehozni szabványosított BIBFRAME-modelleket, RDA–BIBFRAME kapcsolatokat, továbbá szorgalmazzák a PCC-környezetben alkalmazott szótárak használatát. Egy sablon alapvetően a következő elemekből épül fel: osztály-URI-kat tartalmazó forrássablon, a tulajdonságokat összesítő tulajdonságsablon, authority adatok (id.loc.gov, Getty, MESH, OCLCFAST), RWO (Real World Objects – való világbeli objektumok, pl. ISNI, GeoNames, WikiData), továbbá RDA-t érintő megjegyzések. Mindezek elérhetők a Sinopia kapcsoltadat-szerkesztőjében (Linked Data Editor) az összes egyéb releváns sablonnal egyetemben, RDF-dokumentumként tárolva. A sablonok eszközsemleges metaadat-alkalmazásprofilként is használhatók könyvek és periodikumok leírásához (JSON-LD linket is tartalmazva). A következő munkafázisokat az átláthatóság (a szélesebb katalogizáló közönség bevonásának reményében), az interoperabilitás (Share-VDE, OCLC és nem-PCC könyvtárak esetén, továbbá BF2MARC konverziók révén), valamint a PCC infrastruktúrájának fenntartása és a partnerek igényeinek kielégítése képezik. Az előadást követően Jeremy Nelson a Stanford Egyetem könyvtárából a fent említett Sinopia kapcsoltadat-szerkesztőt mutatta be részletesen. A BIBFRAME-szekció zárásaként egy esettanulmányt ismerhettünk meg a Texasi Egyetem Harry Ransom Központjából (HRC) Brittney Washington és Paloma Graciani-Picardo jóvoltából. Ritka könyvek gyakorlati katalogizálását mutatták be az LD4P2 (Linked Data for Production phase 2) pilot projekt eredményeként. A különgyűjteményi dokumentumok leírására a MARC nem ideális, mivel a ritka dokumentum egyediségét tükröző ismérvek nehezen fejezhetők ki ebben a formátumban. Megjegyzésekként és provenienciaként szokásos rögzíteni az egyedi információkat, mint például az előző tulajdonos(oka)t, hiszen nem egyszer ez az egyetlen ismérv, amely alapján visszakereshető egyes bibliográfiákban az adott ritka dokumentum. Az LD4P2 részeként a partnereknek lehetőségük van a tapasztalataik megosztására és ezek alapján a profilkészítésre. Az RDF-leírásokban tárolt alkalmazásprofilok használata alapozza meg az egyes használói csoportok számára a hatékony visszakeresést. Az alapot a szekció elején bemutatott alkalmazásprofil-sablonok képezik, jelen esetben az LD4P „ritka anyagok”-sablonjai. Ezekre épül a HRC ARM (Art and Rare Materials BIBFRAME ontológiakibővítés), majd a Yale ARM, amely további sablonokat szolgáltat, továbbá a Harry Ransom Központ saját sablonjai is. A sablonokat a katalogizáló könyvtárosok visszajelzései alapján finomítják tovább. Zárásul Brittney Washington megosztotta saját gyakorlatukat a Harry Ransom Központból.

A következő szekció témáját az authority adatok képezték. Elsőként Jim Hahn, a Pennsylvaniai Egyetem metaadat-kutatásának vezetője ismertette a BIBFRAME-előfordulások „bányászatát” a Share-VDE projektben. A globális együttműködés keretében működő Share-VDE metaadatainak többségét konvertált MARC-rekordok képezik. A BIBFRAME adatmodellben ezek a leírások a művek mentén rendeződnek klaszterekbe. Kísérleti projektként a Penn Könyvtárak több mint 5 millió MARC-rekordjának metaadatával reprodukálták az OCLC kísérleti név-authority kutatásának (PNAF) prototípus-folyamatát a Share-VDE környezetben. A következő előadó, Charlie Harper, a clevelandi Case Western Reserve Egyetem digitális kutatásokkal foglalkozó szakértője a metaadat-tárgyszócímkék Doc2Vec és DBPedia általi generálásáról számolt be. Az intézményi repozitóriumok nehéz kereshetősége és a szerzők által hozzárendelt kulcsszavak kezelése problematikusnak bizonyul. Egy kutatás tanúsága szerint ez utóbbiak 80%-át az elmúlt öt évben csupán egyszer használták, míg a többi kulcsszó túlságosan gyakori és tág fogalmakat képezett le. E probléma megoldása érdekében a gépi tanuláshoz fordultak. A Doc2Vec már a teljes szövegre kiterjeszti a szövegfelismerést. Az algoritmus tanulásáért felelő „képzési adatokat” a DBPedia előcímkézett szövegkorpusza szolgáltatja (5 millió weboldal). A kezdeti kísérleteket követően megkezdték a tárgyszócímkézés folyamatának finomítását az adatkészlet kibővítésével, valamint a címkék minőségének javításával, szakértőket is bevonva a folyamatba, még mindig túl sok volt ugyanis az irreleváns címke. Jelenleg a vizualizáció prototípusán és a keresőfelület felhasználói interfészén dolgoznak. A következő előadást Joeli Takala tartotta, témája: a Finn Nemzeti Könyvtár Finto (Finn Tezaurusz és Ontológia Szolgáltatás) szótárainak közös hierarchiáját építő automata eszközök. A 2003 óta fejlesztett holisztikus megközelítésű finn ontológia (az ún. KOKO) központi eleme az YSO nevű központi finn ontológia és a hozzá kapcsolódó 15 további területspecifikus kontrollált szótár. A legnagyobb kihívást a különböző szótárak „együttműködésében” a szemantikus interoperabilitás jelenti. Takala a rendszer folyamatábráján keresztül mutatta be az ontológiabővítés menetét.

A konferencia negyedik napja az azonosítók tematikájával folytatódott. Az első előadást a salamancai Pontifica Egyetem (Spanyolország) két hallgatója és oktatói tartották az OpenUPSA-nak nevezett kurrens kutatási információs rendszer (Current Research Information System – CRIS) tervezett szemantikus technológiai integrációjáról és tudásszervezéséről. A visszakeresési, integrációs, menedzsment- és adatvizualizációs funkciókat egy intézményi repozitóriumként is működő relációs adatbázissal tervezik megvalósítani. Az egyéni információk és dokumentumok, illetve a relációs adatbázis közötti integrációról PDF, HTML, Excel és JSON (JavaScript Object Notation) parserek gondoskodnak. Az információ lekérdezésére és újrafelhasználására egy, a CERIF (Common European Research Information Format – Közös Európai Kutatási Információs Formátum) ontológián alapuló OpenUPSA ontológiát alkalmazó szemantikus repozitóriumot terveznek SPARQL végpontokkal. A következő előadást Eva Seidlmayer,a németországi ZB MED élettudományi információs központ munkatársa tartotta a szerzőket (illetve ORCID-azonosítóikat) a publikációikkal a Wikidatában párosító munkafolyamatról. A Wikipédián és társprojektjein alapuló Wikidata a szemantikus adatok hatalmas nyílt tudásbázisát képezi. A tömeges adatátvitel (data dump) során 7,6 millió adatpárt ellenőriztek, és 33 ezer szerzőt rendeltek hozzá publikációikhoz. A jelenlegi cél a meglévő adatok folyamatos javítása és kibővítése egyéb ismérvek (szervezeti hovatartozás, finanszírozás stb.) szerint. Az azonosítókkal foglalkozó szekció utolsó előadójaként Matt Miller ismertette a Kongresszusi Könyvtár (Library of Congress – LC) id.loc.gov - és Wikidata-projektjének aktuális újdonságait. Az id.loc.gov a Kongresszusi Könyvtár kapcsolatadat-platformja – authority adatokkal, kontrollált szótárral és egyéb szolgáltatásokkal. 2019-től kezdődött meg a Wikidata-rekordok integrálása a szolgáltatásba, jelenleg a több mint tízmillió LC-authority közül csupán 1,2 millió (többségében névadat) van a Wikidatához kapcsolva.

A SWIB2020 utolsó előadói blokkjában gyakorlati alkalmazásokat tekinthettünk meg. Elsőként David Seubert, Shawn Averkamp és Michael Lashutka ismertették az Amerikai Történeti Felvételek Diszkográfiájához (DAHR) köthető kapcsolt adatok projektjét. Az „audioenciklopédia” jobb kereshetősége érdekében a DAHR-szerkesztők több mint 20 ezer olyan nevet azonosítottak az adatbázisban szereplő nagyjából 60 ezerből, amely már rendelkezik Library of Congress név-authority fájllal (LCNAF). Az adatkészletek bővítésével az a távlati cél, hogy a DAHR szakterülete authority szolgáltatásává váljon. A projekt során a meglévő LCNAF azonosítók alkalmazásával egyéb „aratható” vagy nyílt adatkészleteket (pl. VIAF, MusicBrainz, Wikidata, AllMusic stb.) kerestek, majd egyeztették saját adatbázisukkal, a rekordokhoz authority fájlt és egyéb webhelyet (pl. Spotify vagy iTunes azonosítót) kapcsolva, valamint azokat további adatelemekkel kiegészítve. A második gyakorlati példát Huda Khan mutatta be a Cornell Egyetem munkatársaként. Az egyetemi könyvtár kapcsolt adatokkal növelte a könyvtári discovery szolgáltatás hatékonyságát az LD4P2 program keretében. A katalogizálásban a dokumentumközpontúságot felváltja az entitásközpontúság, amely magában foglalja a releváns kapcsolatokat és a katalógusra visszautaló külső adatforrásból származó kapcsolt adatokat egyaránt. Ez a megoldás az eddigieknél jóval relevánsabb találatokkal kecsegteti a használót. Az entitások és kapcsolatok mentén rendszerezett katalógus a böngészést is egyszerűsíti a kategóriák és kapcsolataik szerinti navigáció révén.További előrelépés az újfajta katalogizálási megközelítésben, hogy a rendszer javaslatokat tesz a használók számára a vonatkozó keresési eredmények alapján. Ezt az Annif Rest alkalmazásprogramozási felülete teszi lehetővé, amelyet a Library of Congress tárgyszavai alapján hoztak létre. Emellett a funkciók közül kiemelhetők a használók számára automatikusan kitöltődő javaslatok a különböző személyek, helyek, tárgyszavak és műfajok keresésére. Utolsó előadóként Jeff Keith Mixter, az OCLC munkatársa ismertette projektjüket, amelynek keretében az IIIF (International Image Interoperability Framework – Nemzetközi Kép-interoperabilitási Keretrendszer) és a Wikibase (utóbbi alapeleme a Wikidata infrastruktúrájának is) félig strukturált adatainak használatával gondoznak és osztanak meg a kulturális örökség tárgyában anyagokat a CONTENTdm-en, az OCLC digitális repozitóriumszolgáltatásán keresztül. Mindez tömeges aggregációval valósul meg. Az IIIF Explorer tárgyi facetták szerint rendszerezi a learatott képi tartalmat, feltüntetve a tárgyi megjelölést, a közreműködőket, helyeket, létrehozókat és hasonló entitásokat. Egy másik OCLC-projektben 5 CONTENTdm-felhasználó könyvtár intézményenként három gyűjtemény metaadatait manuális munkával nézte át, feleltette meg és egyeztette össze. Ezt követően az OCLC készített egy prototípus discovery eszközt ezen előfordulások keresésére és felfedezésére. A felület azonos az IIIF Explorerével, azonban jóval strukturáltabb metaadatok társulnak a repozitóriumban tárolt képek mellé. Míg az aggregált metaadatoknál csupán néhány tárgyszó kapcsolódott a fotóhoz, a könyvtári adatfeldolgozás eredményeképpen rendkívül részletes információkat kaphatunk ugyanazon dokumentum mellé, kitérve annak formátumára, tartalmára. Ezt a Wikibase hatalmas adatmennyisége teszi lehetővé, így egy adott kép bizonyos részletei is kiemelhetők és metaadatolhatók, amennyiben ezek a részinformációk a kapcsolt adatokkal rendelkező tárgyszavak alapján importálhatók. Végszóként megemlíthető, hogy hiába a technológia biztosította tömeges aggregáció lehetősége, a minőségi metaadatolás továbbra is nélkülönözhetetlenné teszi az emberi beavatkozást.

A konferencia utolsó napján rövid, pár perces villámelőadások keretében mutattak be olyan témába vágó projekteket és jó gyakorlatokat, mint a bécsi KDZ Szemantikus MediaWiki projektje, a már említett Share-VDE, a Tennessee Egyetem könyvtárosának Wikidata-projektje, a W3C Entitás-összeegyeztetés közösségi csoportjának ismertetése, a K10Plus nevű német közös katalógus kibővítése Wikidata-elemekkel, illetve a SWIB2020 résztvevőinek helyadataival elkészített térkép prezentálása.

Összegzésként elmondható, hogy a SWIB2020 konferencia pontos nemzetközi pillanatképet szolgáltatott a könyvtárak és a kapcsolt adatok jelenlegi helyzetéről. Az előadások mellett a konferencia szervezői által biztosított online fórumfelület alkalmat adott a tapasztalatok informális megosztására is.

Hír

Szemantikus Web a könyvtárakban konferencia, SWIB2020

Legfrissebb híreink

Kiadványaink

Magyarországi Könyvtárak Adatbázisa

További oldalak

Alapdokumentumok

Információs oldalak

Kapcsolat

Keresés űrlap

Jelenlegi hely

Hír

Szemantikus Web a könyvtárakban konferencia, SWIB2020

Legfrissebb híreink

Kiadványaink

Magyarországi Könyvtárak Adatbázisa

További oldalak

Alapdokumentumok

Információs oldalak

Kapcsolat