Slovenský národný korpus a jeho využitie
Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný súbor textov v slovenskom jazyku. Slúži ako cenný zdroj pre jazykovedný výskum, vývoj jazykových technológií a pre širokú kultúrnu verejnosť. Elektronické jazykové a textové zdroje Slovenského národného korpusu, ktoré sa budujú a rozvíjajú v Jazykovednom ústave Ľ. Štúra SAV už takmer dve desaťročia (od roku 2002), slúžia mnohým záujemcom o poznanie a používanie slovenského jazyka.
Tento článok poskytuje návod na jeho používanie, s dôrazom na morfologickú anotáciu a lematizáciu, ktoré sú kľúčové pre efektívnu prácu s korpusom.
Čo je to korpus?
Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií.
Korpus predstavuje rozsiahly súbor elektronicky zaznamenaných textov, ktoré pochádzajú z rozličných zdrojov a oblastí. Tieto texty sú reprezentatívnou vzorkou jazyka, ktorá sa využíva na jazykovedný výskum, tvorbu slovníkov a gramatík. Vďaka digitalizácii je možné s textami pracovať efektívne pomocou špecializovaných programov.
Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi. Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky.
Slovenský národný korpus ako oddelenie Jazykovedného ústavu Ľ. Štúra SAV v Bratislave i elektronická databáza vnútorne štruktúrovaného a uceleného súboru jazykových dát vznikol v roku 2002 v rámci projektu Budovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu na Slovensku.
Z viacerých druhov korpusov (napr. písaný - hovorený, jednojazyčný - viacjazyčný, všeobecný - špeciálny, synchrónny - diachrónny) vyhovoval aktuálnym potrebám lingvistického výskumu na Slovensku všeobecný korpus súčasných písaných textov a ako taký sa Slovenský národný korpus (SNK) aj začal budovať.
V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.
Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov, v prvej fáze so zameraním na písané texty súčasného slovenského jazyka (1955 - 2005). V druhej a tretej fáze sa rozšíril o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty). Náplňou štvrtej fázy bolo vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov, napríklad korpusu nárečí, historického korpusu slovenčiny či sprístupňovanie nových verzií vybraných korpusov. V súčasnosti prebieha už piata fáza budovania korpusových databáz, ktorá sa zameriava na rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu.
Tvorba, štruktúra a možnosti využitia týchto zdrojov boli súborne opísané v kolektívnej práci Slovenský národný korpus. Na ňu nadväzuje najnovší titul, v ktorom autorky zúročujú svoje dlhoročné teoretické poznatky z oblasti korpusovej lingvistiky, ako aj skúsenosti z vedenia seminárov pre záujemcov o používanie korpusových zdrojov. Kniha obsahuje praktické ukážky (návody) postupov pri vyhľadávaní jazykových javov z rôznych jazykových rovín a v rôznych korpusoch, komentované postupy ďalšej práce s vyhľadaným materiálom, opisy jednotlivých (meta)znakov a celých regulárnych výrazov potrebných na efektívne vyhľadanie jazykových prostriedkov aj inšpirácie na ďalšiu samostatnú prácu s korpusmi.
Význam Korpusu
- Jazykovedný výskum: Korpus je základom pre empirický jazykovedný výskum, poskytuje rozsiahle dáta pre analýzu jazykových javov.
- Informačné technológie: Zohráva dôležitú úlohu vo vývoji informačných technológií, ako sú systémy vyhľadávania textu, automatická analýza jazyka a ďalšie.
- Kultúrny fenomén: Má status kultúrneho fenoménu, pretože predstavuje bohatý zdroj informácií o národnom jazyku.
Princípy budovania korpusu
- Reprezentatívnosť: Zabezpečenie vyváženého zastúpenia rôznych typov textov a komunikačných oblastí.
- Bibliografická anotácia: Detailné informácie o zdroji textu (autor, vydavateľstvo, rok vydania, žáner).
- Lingvistická anotácia: Označovanie gramatických kategórií každého slova pomocou značiek SGML.
Ako funguje SNK?
Proces budovania a spracovania textov v Slovenskom národnom korpuse prebieha v niekoľkých fázach:
- Systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úzov zo všetkých regiónov Slovenska na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom (teda aj s prípadnými preklepmi a chybami). V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu.
- Po odstránení znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia.
- V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova - lema), vetám jazykové informácie na úrovni viet a pod.
- Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie (spravidla max. konkrétny tvar slova alebo slov: napr. slovenskými knižnicami - zobrazia sa všetky kontexty v rozsahu max. 100 znakov okolo vyhľadaného spojenia (tzv. konkrétnu morfologickú kategóriu pomocou značky - tagu: SSfp7 - zobrazia sa kontexty substantív [S] so substantívnou paradigmou [S] ženského rodu [f] v množnom čísle [p] v 7.
Na špeciálnejšie výskumy slúžia podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu. Vyhľadané slová sa dajú usporadúvať podľa frekvencie, podľa spoluvýskytov s inými slovami a pod.
Paralelné korpusy
V rámci SNK sa budujú aj paralelné korpusy - spárované rovnaké texty v origináli a v preklade alebo dva preklady toho istého textu. V súčasnosti sú verejne prístupné tri: slovensko-ruský, slovensko-francúzsky, slovensko-český paralelný korpus.
Digitalizácia textov
Vzhľadom na to, že databáza SNK má pokrývať slovnú zásobu od roku 1955 (aj v súvise s potrebami koncipovania nového výkladového Slovníka súčasného slovenského jazyka), veľa textov z predchádzajúcich desaťročí je potrebné digitalizovať. Napriek tomu môžeme povedať, že SNK okrem svojich hlavných cieľov (jazykovedný výskum, výučba slovenčiny ako materinského i ako cudzieho jazyka, počítačové spracovanie prirodzeného jazyka) prispieva aj k záchrane a uchovávaniu kultúrneho dedičstva. Jednak masívnou digitalizáciou starších textov, a to aj starších ako z r. 1955 (sprístupnili sme napr. Opis dnešného stavu prináša výkladový Slovník súčasného slovenského jazyka, ktorý materiálovo vychádza predovšetkým zo SNK, pripravuje sa frekvenčný slovník súčasnej slovenčiny a v pláne sú autorské slovníky významných slovenských autorov.
Rámcovým cieľom autorov je predstavenie čo najviac spôsobov vyhľadávania v istej postupnosti aj podľa poznaných potrieb a daností doterajších používateľov a zároveň poukázať na pestrosť jazyka a jeho dynamiku. Publikácia umožňuje predstaviť možnosti využitia korpusov v školskej praxi pri príprave konkrétnych úloh alebo ukážok preberaného učiva.
Morfologická anotácia a lematizácia v SNK
Morfologická anotácia je proces priraďovania slovnodruhových a tvarových charakteristík slovám v kontexte. Lematizácia je priradenie základného (slovníkového) tvaru každému slovu. V SNK existujú dva druhy:
- Ručná anotácia: Nachádza sa v podkorpuse r-mak, ktorá je založená na presných pravidlách a značkách.
- Automatizovaná anotácia: Používa sa pre ostatné korpusy a podkorpusy, pričom využíva tager MorphoDiTa, ktorý bol natrénovaný na podkorpuse r-mak.
Všetky textové jednotky (tokeny) podliehajú morfologickej anotácii. Tokeny sú reťazce znakov medzi medzerami, vrátane interpunkcie, pred ktorú sa medzery pridávajú. Každému tokenu sa priraďujú atribúty lema a tag.
Lema
Lema je základný, slovníkový tvar tokenu. Do verzie r-mak-4.0 sa nerozlišovalo medzi malými a veľkými písmenami, lemy mali vždy malé začiatočné písmeno a propriálnosť sa označovala písmenom "r" na konci tagu. Negované tvary slovies a iných slovných druhov sa lematizujú negovaným tvarom, pričom pri slovesách sa afirmácia a negácia označuje aj na úrovni tagu.
Tag
Tag vyjadruje hodnoty formálnych kategórií relevantných pre daný token. V SNK sa používajú tagy s variabilným počtom znakov, pričom poradie znakov v tagu je záväzné. Na prvom mieste je informácia o slovnom druhu.
Zoznam slovných druhov a značiek
V Slovenskom národnom korpuse sa používajú nasledujúce značky pre slovné druhy:
| Slovný druh | Značka |
|---|---|
| Substantívum | S |
| Adjektívum | A |
| Pronominum | P |
| Numerále | N |
| Verbum | V |
| Particípium | G |
| Adverbium | D |
| Prepozícia | E |
| Konjunkcia | O |
| Partikula | T |
| Interjekcia | J |
| Neurčiteľný slovný druh | Q |
| Reflexívum | R |
| Interpunkcia | Z |
| Neslovný element | # |
| Citátový výraz | % |
| Číslica | 0 |
| Kondicionálová morféma | Y |
| Vlastné meno | :r |
| Abreviácia, značka | W |
| Chybný zápis | :q |
Praktické využitie SNK
SNK je neoceniteľným nástrojom pre:
- Jazykovedcov: Na analýzu jazykových štruktúr, frekvencie slov a slovných spojení, a na štúdium vývoja jazyka.
- Lexikografov: Na tvorbu slovníkov a encyklopédií, kde korpus slúži ako zdroj autentických príkladov použitia slov.
- Prekladateľov: Na overovanie správnosti prekladov a na hľadanie vhodných ekvivalentov v cieľovom jazyku.
- Učiteľov: Na prípravu učebných materiálov a na ilustráciu gramatických a lexikálnych javov.
- Študentov: Na písanie seminárnych a diplomových prác, kde môžu využiť rozsiahle dáta z korpusu na podporu svojich argumentov.
Korpusy sa používajú v rôznych vedeckých výskumoch a aplikáciách, napr.:
Korpusová Lingvistika
Odbor matematickej, konkrétne počítačovej lingvistiky, ktorého predmetom sú jazykové fenomény zisťované na základe korpusov, teda na veľkom množstve reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch. Na základe analýzy korpusových textov sa overujú doterajšie lingvistické teórie a môžu vzniknúť nové hypotézy a teórie. Najvýznamnejšou aplikačnou zložkou je lexikografické využitie - veľa korpusov sa budovalo a buduje na podporu tvorby slovníkov a lexikografi patria medzi najčastejších používateľov korpusov.
Počítačové spracovanie prirodzeného jazyka
Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné výskyty slov (kolokácie), frekvencia slov atď., sa používajú aj v nelingvistických aplikáciách. Sem patria napr. systémy na spracovanie textov (automatická kontrola pravopisu či gramatiky, strojový preklad textov), systémy na rozpoznávanie reči atď.
Výučba jazykov
Korpus je dobrým zdrojom fráz a viet využiteľných pri výučbe cudzieho, ale aj materinského jazyka.
Softvér a nástroje pre prácu s SNK
Na efektívnu prácu s korpusom je potrebný špecializovaný softvér, ktorý umožňuje rýchle vyhľadávanie slov a slovných spojení, automatické vyhodnocovanie a spracovanie dát.
Ako citovať SNK
Pri použití citácie z korpusových databáz alebo výsledkov hľadania z jednotlivých zdrojov SNK, je potrebné odkazovať na konkrétnu verziu a/alebo podkorpus SNK (napr. prim-10.0-public-sane, s-hovor-7.0, r-mak-6.0, par-sken-all-4.0). Verzia prim-10.0 a jej podkorpusy: Slovenský národný korpus - prim-10.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2022.
Prednášky a workshopy SNK
Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV ponúka prednášky a praktické workshopy zamerané na používanie databáz SNK. Workshopy sa konajú nepravidelne po dohode so záujemcami. Účastníci by mali mať vlastné prihlasovacie meno a heslo na prácu s databázami SNK, ktoré je možné bezplatne získať registráciou.
Vývoj SNK
Vláda Slovenskej republiky schválila projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu v roku 2002. Cieľom projektu bolo vybudovať pracovisko Národného korpusu slovenského jazyka a zabezpečiť jeho fungovanie v rokoch 2002 - 2006.
Ukážka cvičenia
Nájdite vety, v ktorých sa nachádza spojka keby a sloveso v prítomnom čase.
- Keby sa však nájde nejaký 12- - 14-ročný chlapec, ktorý má o box záujem, tak ho budem trénovať aj zadarmo. (MY Žilinské noviny. Bratislava: Petit Press 2010, roč. 11, č.
- Keby máme 20 rokov, tak by sme určite nerozmýšľali a išli by sme do toho. (MY týždeň na Pohroní. Bratislava: Petit Press 2016, roč. 25, č.
Slovenský národný korpus. 23. 12.
tags: #slovensky #narodny #korpus #pouzitie


