Czwartkowe spotkania lingwistyczne 20.04.2023

Zapraszamy serdecznie na seminarium naukowe IJP UW, które odbędzie się w czwartek 20 kwietnia w godz. 13.15-14.45 na platformie Zoom https://uw-edu-pl.zoom.us/j/95019433033
Na seminarium referat pt.  Projekt RetroDict – Platforma dla leksykografii historycznej wygłosi pan Mirosław Koziarski. 

Streszczenie

Podczas wystąpienia zostaną przedstawione założenia i status realizowanego projektu o nazwie RetroDict, którego celem jest stworzenie repozytorium zdigitalizowanych słowników w ramach jednolitej struktury leksykograficznej. Projekt został zainicjowany, aby ułatwić badania zarówno leksyki historycznej – przede wszystkim specjalistycznej – jak i samych słowników jako gatunku tekstów w kontekście parastylometrycznym. Osiągnięte zostanie to poprzez opracowanie interfejsu, z którym komunikacja będzie możliwa zarówno dla ludzi, jak i maszyn.

Dotychczasowe badania diachroniczne w zakresie metaleksykografii i leksykologii były poważnie ograniczone ze względu na brak kompleksowych rozwiązań pozwalających na automatyzację procesu z jednej strony, a brak odpowiednio opracowanego materiału z drugiej. Projekt RetroDict ma na celu rozwiązać ten problem poprzez digitalizację i integrację kilkuset słowników obejmujących ponad 20 języków i obejmujących około 100 dziedzin działalności człowieka: nauki, przemysłu, handlu, technologii, inżynierii, rzemiosła, prawa, sportu, sztuki i mody.

Omówione zostaną zarówno teoretyczne, jak i techniczne aspekty przedsięwzięcia. Metody badawcze obejmują przegląd literatury, rozważania teoretyczne, a także praktyczną egzemplifikację przekształceń danych.

Z perspektywy teoretycznej omówione zostaną takie kwestie, jak kryteria selekcji słowników, struktura dostępu, oraz zawartość relewantnych językoznawczo danych. Szczególny nacisk zostanie położony na problematykę prezentacji informacji w słownikach historycznych oraz sposobu separacji treści od formy. Spośród aspektów technicznych natomiast zaprezentowane zostaną ręczne i automatyczne metody pozyskiwania i konwersji danych, w tym optyczne rozpoznawanie znaków, wyrażenia regularne i własny zestaw narzędzi.

Na koniec zaprezentowane zostaną możliwe zastosowania platformy RetroDict, a unifikacja zasobów leksykograficznych zostanie zaproponowana jako alternatywa względem korpusów językowych, zarówno pod względem opłacalności, jak i oferowanych warstw informacji językowej.