Czwartkowe spotkania lingwistyczne, 14.01.2021

Zapraszamy serdecznie na pierwsze zdalne spotkanie seminarium naukowego Instytutu Języka Polskiego na Wydziale Polonistyki UW z nowego cyklu Czwartkowe spotkania lingwistyczne. Referat pt. Korpus Polskiego Języka Migowego jako źródło danych frekwencyjnych do badań nad leksyką migową w imieniu zespołu wygłosi dr hab. Paweł Rutkowski. Spotkanie odbędzie się na Zoomie (link do spotkania) w czwartek 14 stycznia 2021, w godz. 13.15-14.45. 

STRESZCZENIE

Korpus Polskiego Języka Migowego jako źródło danych frekwencyjnych do badań nad leksyką migową

Paweł Rutkowski, Joanna Wójcicka, Piotr Mostowski, Anna Kuder

Pracownia Lingwistyki Migowej, Katedra Językoznawstwa Ogólnego, Migowego i Bałtystyki, Wydział Polonistyki, Uniwersytet Warszawski

Korzystanie z danych korpusowych staje się obecnie częstą praktyką w światowej lingwistyce migowej. Wynika to z tego, że wraz z rozwojem technologii przetwarzania wideo i narzędzi anotacyjnych coraz więcej grup badawczych podejmuje się czasochłonnego zadania tworzenia korpusów poszczególnych języków wizualno-przestrzennych. W wyniku takich projektów powstają różne typy korpusów, w tym korpusy ogólne o dużej skali (np. korpus niemieckiego języka migowego, który docelowo ma składać się z około 3 milionów zanotowanych wystąpień znaków, https://www.sign-lang.uni-hamburg.de/dgs-korpus/index.php/corpus.html) i mniejsze korpusy ogólne (np. korpus niderlandzkiego języka migowego – Crasborn, Sloejtes, 2008, korpus brytyjskiego języka migowego – Schembri i in., 2013), a także bardziej ograniczone archiwa językowe, takie jak korpus japońskiego języka migowego (http://research.nii.ac.jp/jsl-corpus/public/en/index.html). Rosnąca liczba zasobów językowych o różnej wielkości każe się zastanowić, jak dużo danych empirycznych wystarczy, aby uzyskać wiarygodne wyniki badań lingwistycznych dotyczących poszczególnych aspektów komunikacji migowej oraz w jakiej mierze wielkość badanej próby wpływa na wnioski z analiz przeprowadzonych na jej podstawie. Niniejszy referat jest próbą włączenia się w tę dyskusję poprzez omówienie materiału empirycznego pochodzącego z Korpusu Polskiego Języka Migowego (KPJM), którego tworzeniem zajmuje się zespół Pracowni Lingwistyki Migowej Wydziału Polonistyki UW (Rutkowski i in., 2017). Obecnie KPJM składa się z nagrań wideo z wypowiedziami migowymi 150 głuchych Polaków. W ramach procesu ręcznej anotacji tego zbioru glosami opatrzonych zostało niemal 700 000 pojedynczych wystąpień znaków, co czyni z KPJM jeden z dwóch największych zasobów tego typu na świecie. W referacie zostaną omówione dane korpusowe dotyczące frekwencji leksykalnej w PJM w zestawieniu z analogicznymi danymi pochodzącymi z innych korpusów języków migowych.

Bibliografia

  • Crasborn, O., H. Sloetjes (2008), “Enhanced ELAN functionality for sign language corpora”, in: O. Crasborn et al. (eds.), Proceedings of the 3th Workshop on the Representation and Processing of Sign Languages: Construction and Exploitation of Sign Language Corpora, Marrrakech: ELRA, 39-43
  • Schembri, A. et al. (2013), “Building the British Sign Language Corpus”, Language Documentation & Conservation 7, 136-154
  • Rutkowski, P. et al. (2017), “The design and compilation of the Polish Sign Language (PJM) Corpus”, in: P. Rutkowski (ed.), Different faces of sign language research, Warszawa: Wydział Polonistyki, Uniwersytet Warszawski, 125-151.