CSL 10.04.2025 r. – Instytut Języka Polskiego

Zapraszamy serdecznie na kolejne Czwartkowe spotkania lingwistyczne, które odbędą się 10 kwietnia w godz. 13.15-14.45 na platformie Zoom. https://uw-edu-pl.zoom.us/j/96472813076
Na spotkaniu referat pr. „Korpus Czterech Wieszczów jako narzędzie do badania idiolektu pisarzy. Założenia i pierwszy etap projektu” wygłoszą Tomasz Korpysz (UKSW) oraz Anna Mędrzecka-Stefańska (IBL PAN).

Streszczenie

Tomasz Korpysz, Uniwersytet Kardynała Stefana Wyszyńskiego w Warszawie
Anna Mędrzecka-Stefańska, Instytut Badań Literackich Polska Akademia Nauk

„Korpus Czterech Wieszczów” jako narzędzie do badania idiolektu pisarzy. Założenia i pierwszy etap projektu

Wystąpienie służy prezentacji projektu „Korpus Czterech Wieszczów”, mającego na celu stworzenie kompletnego korpusu dzieł najważniejszych polskich pisarzy romantycznych: Adama Mickiewicza, Juliusza Słowackiego, Zygmunta Krasińskiego i Cypriana Norwida. Ich dorobek zostanie przekształcony w wielowarstwowe repozytorium tekstów, składające się z czterech naukowo opracowanych podkorpusów, obejmujących nie tylko teksty literackie, ale także wszystkie inne istotne dokumenty (notatki, marginalia, inskrypcje na rysunkach itp.).

W dobie coraz szerszego zastosowania metod cyfrowych w badaniach języka i literatury tym bardziej dojmujący staje się brak dostępności kompletnego korpusu dzieł wymienionych twórców, których wpływ na rozwój polskiego języka literackiego jest niepodważalny. Projekt ma na celu wypełnienie luki, którą stanowi brak takiej bazy.

Projekt „Korpusu Czterech Wieszczów” ma spełnić przewidywane potrzeby użytkownika końcowego, takie jak wyszukiwanie wszystkich użyć danego słowa w wybranym idiolekcie, badanie dystrybucji danego słowa lub grupy słów, śledzenie chronologii konkretnych słów, śledzenie zmienności idiolektu w czasie itp. Główne cele powstającego korpusu to: 1. zapewnienie elektronicznych, naukowo opracowanych wersji tekstów wszystkich czterech autorów; 2. umożliwienie – dzięki metadanym i anotacjom oraz zastosowaniu odpowiednich narzędzi – kompleksowych badanń w całym korpusie lub jego komponentach (poszczególni autorzy, gatunki, zakresy dat itp.).

Podczas prezentacji zostanie przedstawiony proces przetwarzania materiałów składających się na korpus, w tym: standaryzacja tekstu (modernizacja, korekta), a także system anotacji, który umożliwia sprawną nawigację w korpusie i wyszukiwanie danych interesujących badacza. Omówiony zostanie również specjalistyczny system metadanych, zaprojektowany specjalnie dla korpusu.

Do tej pory stworzono korpus tekstów poetyckich i pilotażowy korpus tekstów z innych gatunków. Na tej podstawie można już prowadzić wstępne badania, demonstrujące wartość przyszłego korpusu. Badania te zostały przeprowadzone z wykorzystaniem infrastruktury badawczej udostępnionej przez CLARIN-PL i opierają się na metodach przetwarzania języka naturalnego.

Ważnym elementem prezentacji jest podkreślenie różnic między podejściem ściśle edytorskim a koncepcją korpusu. Na różnych etapach przygotowania korpusu konieczne jest podejmowanie fundamentalnych decyzji edytorskich; jednak sposób prezentacji i wykorzystania uzyskanego materiału, a także styl przyjętych anotacji, znacznie różni się od tradycyjnej edycji. Jednocześnie jednak opracowane korpusy mogą być wykorzystywane w przygotowaniu nowych edycji prezentowanych tekstów.