2026. január 10. – FCLSC – Virtuális éves találkozó egy különleges előadással
The Forum for Classics, Libraries and Scholarly Communication (
FCLSC) 2026. január 10-én, szombaton budapesti idő szerint 20:00–22:00 között tartja virtuális éves találkozóját, amelynek programja a következő:
1. Köszöntő és bejelentések (FCLSC elnök, Ramona Romero, Vanderbilt Egyetem) [5 perc]
2. Üzleti megbeszélés (20:05–21:00, CET)
A 2025-ös jegyzőkönyv jóváhagyása (FCLSC-titkár, Aaron Hershkowitz) [5 perc]
A New Alexandria Alapítvány projektjeinek aktuális állása (Leonard Muellner, Brandeis Egyetem) [5 perc]
Megbeszélés a nagy nyelvi modellekről (LLM) és az optikai karakterfelismerésről (OCR) – Gregory Crane, Tufts Egyetem) [35 perc]
Nyílt vita [10 perc]
3. Különleges előadás (kezdő időpont: 21:05, CET)
Patrick J. Burns, az Institute for the Study of the Ancient World digitális projektekkel foglalkozó társult kutatója megosztja gondolatait a következő témában: „Hol találhatunk egymilliárd latin szót? (Vagy az ősi nyelvi adatok LLM-méretű kurátori munkájának megvalósíthatóságáról).”
„Egy 2014-es cikkben, „Cataloging for a Billion Word Library of Greek and Latin” (Katalógus egymilliárd szavas görög és latin könyvtárhoz) címmel, Gregory Crane és társai arra kérték az olvasókat, hogy gondolkodjanak el azon, mi lenne szükséges ahhoz, hogy megbirkózzunk a HathiTrust és az Internet Archive gyűjteményeiben digitalizált több mint 8 milliárd ókori görög és latin szó kezelésével járó kihívásokkal. Bár a milliárd szavas latin gyűjtemények technikailag már egy évtizeddel ezelőtt is léteztek, ma már nem csupán elérhetők, hanem filológiai célokra is felhasználják őket, például nagy méretű számítógépes nyelvi modellek képzésére.
Ezt az előadást egy áttekintéssel kezdeném arról, hogy
– milyen (több) milliárd szavas gyűjtemények állnak rendelkezésre;
– mit építenek jelenleg ezekkel az adatokkal; és
– melyek a gyűjteményekkel való munka közvetlen kihívásai, beleértve a bibliográfiai kihívásokat is, amelyek Crane és társai innovációi ellenére is fennállnak.
„Miután felvázoltam a számítógépes filológiai helyzetet, azt javaslom, hogy mivel a metaadatok kurátori munkájának igényei kezdik meghaladni az emberi beavatkozás lehetőségeit, komolyan fontolóra kell vennünk a teljes mértékben számítógépes, talán még ügynökökkel támogatott megoldásokat is, hogy önleíró és önkorrekciós mechanizmust találjunk erre a folyamatra.
(Remélhetőleg provokatív) konklúzióként megvitatnánk a latin szövegek „gyűjtésének” következő szakaszát, vagyis a versenyképes, latin-központú nagy nyelvi modellek képzéséhez szükséges trilliónyi szintetikus latin adat előállítását, ami felveti a kérdést: mi a kurátori felelősségünk abban, hogy több latin szöveggel kell foglalkoznunk, mint amennyi valószínűleg valaha is létezett egyetlen gyűjteményben, bármilyen formátumban?”