Czwartkowe spotkania lingwistyczne 17.10.2024

Szanowni Państwo, zapraszamy serdecznie na nasze pierwsze spotkanie w nowym roku akademickim. Referat pt. Korpus Współczesnego Języka Polskiego (kwjp.pl) – nowy korpus referencyjny wygłosi Marek Łaziński (IJP UW). Spotkanie odbędzie się 17 października o 13.15 na platformie Zoom.

https://uw-edu-pl.zoom.us/j/95481029547

STRESZCZENIE
W wykładzie, a  właściwie prezentacji omówię podstawowe cechy oraz możliwości wyszukiwania Korpusu Współczesnego Języka Polskiego (kwjp.pl). Jest to nowy korpus referencyjny, powstały w Instytucie Podstaw Informatyki PAN w ramach projektu DARIAH (byłem członkiem tego projektu). Korpus zawiera teksty pisane redagowane (bez mediów społecznościowych) od roku 2010. Część zrównoważona korpusu liczy 100 milionó słów i składa się mniej więcej po równo z tekstów wiadomości prasowych, literatury fikcjonalnej raz tekstów non-fiction z uwzględnieniem różnorodności gatunkowej, rejestrowej, socjologicznej, geograficznej i innej.
Wyszukiwanie oparte jest na platformie MTAS znanej m.in. z serwisu Korpusomat lub Korpusu Dyskursu Parlamentarnego. Wyszukiwarka umożliwia szukanie form, leksemów i tagów gramatycznych (wartości kategorii). W porównaniu z  Narodowym Korpusem Języka Polskiego bardzo łatwe jest grupowanie wyników i tworzenie statystyk. Nowością jest reprezentacja składniowa i drzewa składnikowo-zależnościowe dla każdego zdania.
Na podstawie statystyk korpusu omówię niektóre tendencje w rozwoju słownictwa ostatnich piętnastu lat (nie tylko w kwestii feminatywów).