Slovenský národný korpus vo vyučovaní slovenského jazyka na základnej škole
Slovenský národný korpus (SNK) je súbor jazykových korpusov, rôzne vybraných a usporiadaných zbierok elektronicky zaznamenaných textov pre slovenčinu. Primárne obsahuje rôznorodé slovenské texty od roku 1955. Obsah korpusu predstavuje referenčný materiálový zdroj poznatkov o slovenčine a jej reálnom používaní. Slúži ako dátová základňa pre vedecké štúdium písanej i hovorenej slovenčiny, pre tvorbu jazykových slovníkov, počítačových prekladačov a podobne.
Elektronické jazykové a textové zdroje Slovenského národného korpusu, ktoré sa budujú a rozvíjajú v Jazykovednom ústave Ľ. Štúra SAV už takmer dve desaťročia (od roku 2002), slúžia mnohým záujemcom o poznanie a používanie slovenského jazyka.
Slovenský národný korpus ako oddelenie Jazykovedného ústavu Ľ. Štúra SAV v Bratislave i elektronická databáza vnútorne štruktúrovaného a uceleného súboru jazykových dát vznikol v roku 2002 v rámci projektu Budovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu na Slovensku.
V roku 2001 ministerstvo kultúry v spolupráci s ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania Slovenského národného korpusu a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002. Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch (napr. slov).
V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026).
Čo je to korpus textov?
Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu.
Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi.
Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky.
Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov, v prvej fáze so zameraním na písané texty súčasného slovenského jazyka (1955 - 2005). V druhej a tretej fáze sa rozšíril o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty).
Náplňou štvrtej fázy bolo vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov, napríklad korpusu nárečí, historického korpusu slovenčiny či sprístupňovanie nových verzií vybraných korpusov. V súčasnosti prebieha už piata fáza budovania korpusových databáz, ktorá sa zameriava na rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu.
Ako sa buduje SNK?
- Systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úzov zo všetkých regiónov Slovenska na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom (teda aj s prípadnými preklepmi a chybami). V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu.
- Po odstránení znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia.
- V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova - lema), vetám jazykové informácie na úrovni viet a pod.
- Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie (spravidla max. konkrétny tvar slova alebo slov: napr. slovenskými knižnicami - zobrazia sa všetky kontexty v rozsahu max. 100 znakov okolo vyhľadaného spojenia (tzv. konkrétnu morfologickú kategóriu pomocou značky - tagu: SSfp7 - zobrazia sa kontexty substantív [S] so substantívnou paradigmou [S] ženského rodu [f] v množnom čísle [p] v 7.
Na špeciálnejšie výskumy slúžia podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu. Vyhľadané slová sa dajú usporadúvať podľa frekvencie, podľa spoluvýskytov s inými slovami a pod.
V rámci SNK sa budujú aj paralelné korpusy - spárované rovnaké texty v origináli a v preklade alebo dva preklady toho istého textu. V súčasnosti sú verejne prístupné tri: slovensko-ruský, slovensko-francúzsky, slovensko-český paralelný korpus.
Vzhľadom na to, že databáza SNK má pokrývať slovnú zásobu od roku 1955 (aj v súvise s potrebami koncipovania nového výkladového Slovníka súčasného slovenského jazyka), veľa textov z predchádzajúcich desaťročí je potrebné digitalizovať.
Napriek tomu môžeme povedať, že SNK okrem svojich hlavných cieľov (jazykovedný výskum, výučba slovenčiny ako materinského i ako cudzieho jazyka, počítačové spracovanie prirodzeného jazyka) prispieva aj k záchrane a uchovávaniu kultúrneho dedičstva. Jednak masívnou digitalizáciou starších textov, a to aj starších ako z r. 1955 (sprístupnili sme napr. Opis dnešného stavu prináša výkladový Slovník súčasného slovenského jazyka, ktorý materiálovo vychádza predovšetkým zo SNK, pripravuje sa frekvenčný slovník súčasnej slovenčiny a v pláne sú autorské slovníky významných slovenských autorov.
Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov.
V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.
Príklad použitia:
Ukážka cvičenia: Nájdite vety, v ktorých sa nachádza spojka keby a sloveso v prítomnom čase.
- Keby sa však nájde nejaký 12- - 14-ročný chlapec, ktorý má o box záujem, tak ho budem trénovať aj zadarmo. (MY Žilinské noviny. Bratislava: Petit Press 2010, roč. 11, č.
- Keby máme 20 rokov, tak by sme určite nerozmýšľali a išli by sme do toho. (MY týždeň na Pohroní. Bratislava: Petit Press 2016, roč. 25, č.
Na ňu nadväzuje najnovší titul, v ktorom autorky zúročujú svoje dlhoročné teoretické poznatky z oblasti korpusovej lingvistiky, ako aj skúsenosti z vedenia seminárov pre záujemcov o používanie korpusových zdrojov. Kniha obsahuje praktické ukážky (návody) postupov pri vyhľadávaní jazykových javov z rôznych jazykových rovín a v rôznych korpusoch, komentované postupy ďalšej práce s vyhľadaným materiálom, opisy jednotlivých (meta)znakov a celých regulárnych výrazov potrebných na efektívne vyhľadanie jazykových prostriedkov aj inšpirácie na ďalšiu samostatnú prácu s korpusmi.
| Korpus | Popis |
|---|---|
| Hlavný korpus písaných textov | Obsahuje rozsiahly súbor písaných textov súčasnej slovenčiny. |
| Paralelné korpusy | Slovensko-ruský, slovensko-francúzsky, slovensko-český. |
| Korpus nárečí | Špecializovaný korpus zameraný na slovenské nárečia. |
| Historický korpus slovenčiny | Korpus textov z historických období slovenčiny. |
Budova Jazykovedného ústavu Ľ. Štúra SAV, kde sa SNK buduje.
tags: #slovenský #národný #korpus #vo #vyučovaní #slovenského


