Čo je Slovenský národný korpus?

Slovenský národný korpus (SNK) je rozsiahly súbor textov v slovenskom jazyku, ktorý slúži ako reprezentatívna vzorka jazyka v jeho rôznych podobách. Je to cenný nástroj pre lingvistov, učiteľov, prekladateľov a všetkých, ktorí sa zaoberajú slovenským jazykom. Národný korpus slovenského jazyka predstavuje rozsiahly a systematicky budovaný zdroj jazykových dát, ktorý má zásadný význam pre jazykovedný výskum, vývoj jazykových technológií a kultúrne dedičstvo Slovenska.

Elektronické jazykové a textové zdroje Slovenského národného korpusu, ktoré sa budujú a rozvíjajú v Jazykovednom ústave Ľ. Štúra SAV už takmer dve desaťročia (od roku 2002), slúžia mnohým záujemcom o poznanie a používanie slovenského jazyka. Tvorbou, skvalitňovaním, spravovaním a sprístupňovaním uvedených zdrojov je poverený kolektív Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV aktuálne na základe Zmluvy o združení prostriedkov na tvorbu a rozvoj Slovenského národného korpusu (č. 0323/2017) uzavretej medzi Ministerstvom školstva, vedy, výskumu a športu SR, Ministerstvom kultúry SR, SAV, JÚĽŠ SAV.

V súčasnosti sú online dostupné odborníkom aj širokej verejnosti na vyhľadávanie jazykových informácií, na využitie v oblasti počítačového spracovania prirodzeného jazyka a vo výučbe slovenčiny ako materinského i cudzieho jazyka, od roku 2002.

Definícia a charakteristika korpusu

Korpus je rozsiahly súbor elektronicky zapísaných textov pochádzajúcich od rôznych autorov, z rôznych médií (kníh, periodík, reklamných a informačných tlačovín, záznamov hovorených prejavov, internetu a pod.), z rozličných komunikačných tematických a žánrových oblastí (napr. historický román, humoristická poviedka, odborný článok o leteckej doprave, technická norma, text zákona, text zápisnice, záznam diskusie a pod.). Vzájomný pomer týchto textov je vopred určený na základe výskumov a mal by predstavovať reprezentatívnu vzorku určitého jazyka použiteľnú na základný a aplikovaný jazykovedný výskum.

Texty zaraďované do korpusu prichádzajú z viacerých kanálov: prepisovaním do počítača, skenovaním, sťahovaním z internetu, získaním kópie z elektronickej sadzby. Texty získané z elektronickej sadzby kníh, časopisov a novín treba viacstupňovo čistiť. To znamená, že získané texty sa konvertujú do podoby čistého textu: odstraňujú sa obrázky a iné grafické prvky, riadiace kódy použitých textových editorov a kódovanie písmen sa transformuje do jednotnej kódovej tabuľky.

Po vyčistení sa texty prevedú do jednotného formátu SGML (Standard Generalized Markup Language), čo je medzinárodne štandardizovaný spôsob označovania elektronicky uložených textov.

Veľkosť korpusu sa meria počtom textových slov (reťazec znakov medzi dvoma medzerami alebo interpunkčnými znamienkami) a kvalita korpusu sa meria spomínanou reprezentatívnosťou (vyváženosťou) a taktiež detailnosťou pripojenej bibliografickej anotácie (kategória zdrojového textu, autor textu, vydavateľstvo, rok vydania, žáner) a lingvistickej informácie o gramatických kategóriách každého textového slova uložených pomocou značiek SGML.

Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod.

Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi. Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky.

Typy korpusov

Používateľom sú k dispozícii rôzne korpusy súčasných textov vrátane paralelných korpusov, hovorený korpus, nárečový korpus, historický korpus, ako aj morfologická databáza a terminologická databáza. Na ich tvorbu sa vyvíjajú vlastné alebo sa využívajú existujúce počítačové nástroje.

Korpusy súčasných textov: Obsahujú širokú škálu textov z rôznych oblastí, ako je beletria, publicistika, odborná literatúra a internetové zdroje.
Paralelné korpusy: Obsahujú texty v slovenskom jazyku a ich preklady do iných jazykov, čo je užitočné pre prekladateľov a lingvistov zaoberajúcich sa porovnávacou lingvistikou.
Hovorený korpus: Obsahuje prepisy hovoreného jazyka z rôznych situácií, ako sú rozhovory, diskusie a prednášky.
Nárečový korpus: Zaznamenáva rozdiely v slovenských nárečiach.
Historický korpus: Umožňuje sledovať vývoj jazyka v čase.
Morfologická databáza: Obsahuje informácie o tvarosloví slovenského jazyka.
Terminologická databáza: Zameriava sa na odbornú terminológiu.

Využitie Slovenského národného korpusu

Slovenský národný korpus má široké spektrum využitia:

Jazykový výskum: Umožňuje skúmať jazykové javy, ako sú frekvencia slov, gramatické štruktúry a štylistické vlastnosti textov.
Výučba slovenčiny: Poskytuje autentické jazykové materiály pre výučbu gramatiky, slovnej zásoby a štylistiky. Publikácia umožňuje predstaviť možnosti využitia korpusov v školskej praxi pri príprave konkrétnych úloh alebo ukážok preberaného učiva.
Prekladateľstvo: Pomáha prekladateľom nájsť správne ekvivalenty slov a fráz v cieľovom jazyku. Paralelný korpus je najviac využívaný prekladateľmi, spisovateľmi a publicistami, ale tiež pedagógmi a študentmi.

Slovenský národný korpus je vedecko-výskumný projekt budovania elektronického korpusu textov, v prvej fáze so zameraním na písané texty súčasného slovenského jazyka (1955 - 2005). V druhej a tretej fáze sa rozšíril o texty z ďalších období (spred roka 1955 až do začiatkov spisovného obdobia a do predspisovného obdobia, ako aj po roku 2005) a sfér používania slovenského jazyka (hovorená slovenčina, podľa možností výberovo aj dialekty). Náplňou štvrtej fázy bolo vydanie kolokačných a frekvenčných slovníkov, dobudovanie špecializovaných korpusov, napríklad korpusu nárečí, historického korpusu slovenčiny či sprístupňovanie nových verzií vybraných korpusov.

V súčasnosti prebieha už piata fáza budovania korpusových databáz, ktorá sa zameriava na rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu. V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.

Príklad cvičenia:

Nájdite vety, v ktorých sa nachádza spojka keby a sloveso v prítomnom čase.

Keby sa však nájde nejaký 12- - 14-ročný chlapec, ktorý má o box záujem, tak ho budem trénovať aj zadarmo. (MY Žilinské noviny. Bratislava: Petit Press 2010, roč. 11, č.
Keby máme 20 rokov, tak by sme určite nerozmýšľali a išli by sme do toho. (MY týždeň na Pohroní. Bratislava: Petit Press 2016, roč. 25, č. 3.

Dôležitosť korpusu pre jazykovedný výskum

Ak má byť jazykoveda empirickou disciplínou postavenou na veľkom množstve autentického materiálu a nemá byť len modelom jazyka skonštruovaným na vybraných jazykových javoch, potom stojí pred úlohou zbierať a spracúvať veľké množstvo jazykových dát. Závery robené na vybraných a obmedzených dátach majú primerane obmedzenú hodnotu. Takže súčasná jazykoveda nemá inú alternatívu ako elektronizáciu materiálovej základne slovníkov, gramatík a iných príručiek. A práve korpus ako rozsiahly súbor textov uložených na pamäťových médiách predstavuje obrovskú viacúčelovú elektronickú kartotéku.

V klasickej excerpčnej kartotéke sa uchováva záznam obsahujúci vybrané slovo v určitom jazykovom kontexte (1 - 3 vety) a hoci text na excerpčnom lístku obsahuje desiatky slov, vyhľadávanie je možné len podľa kľúčového slova, pretože podľa neho je kartotékový lístok zaradený. V korpuse, na rozdiel od kartotéky, sa spravidla uchovávajú úplné texty a vhodný vyhľadávací program nám umožňuje rýchlo vyhľadať výskyty akýchkoľvek zadaných slov a slovných spojení a umožňuje automatizovať ich následné vyhodnocovanie a spracovanie podľa rozličných aspektov.

Využitie korpusu v lexikografii a tvorbe slovníkov

Moderný výkladový a prekladový slovník je výsledkom jazykovednej analýzy korpusu ako špecifickej databázy plniacej úlohu elektronickej kartotéky. Ale elektronicky uložený text slovníka takisto predstavuje databázu svojho druhu a zdroj informácií na ďalší jazykovedný výskum. Elektronický slovník nemusí byť len pendantom papierovej verzie. Môže to byť aj samostatný lexikografický produkt. Ďalším zaujímavým výstupom elektronizácie jazykovedy sú lexikálne, prípadne terminologické databázy. Lexikálne databázy majú vysoko štruktúrovanú podobu, údaje sú spoľahlivo uložené, klasifikované, dá sa nimi manipulovať a dajú sa ľahko vyhľadať. Heslo databázy obsahuje oveľa viac parametrov ako obyčajný slovník.

Nie je technickým problémom vybudovať korpusy obsahujúce desiatky a stovky miliónov textových slov. Limitujúcim faktorom sú len finančné prostriedky. Zahraničné skúsenosti ukazujú, že jednozväzkový výkladový slovník obsahujúci 50 tisíc hesiel sa dá urobiť na základe 25 miliónov textových slov. Slovník stredného typu obsahujúci od 120 do 180 tisíc slov potrebuje minimálne 100 miliónový korpus. Je to preto, aby sa dosiahlo primerané množstvo výskytov (a teda dokladov použitia) na zriedkavé slová. Pri ručne vyhotovených kartotékach niekedy stačili na zaradenie do slovníka 2 - 3 doklady, aj od toho istého autora.

Lingvistická anotácia korpusu

Aby programové nástroje mohli extrahovať informáciu z korpusu na úrovni gramatických tried slov a morfologických/syntaktických kategórií, je potrebné celý korpus takýmto typom informácie opatriť. Dodávanie lingvistickej informácie do korpusu sa volá lingvistická anotácia alebo značkovanie. V rámci automatickej morfologickej analýzy bola každému slovesnému tvaru priradená informácia o slovnom druhu a hodnotách príslušných morfologických kategórií, ktorá má podobu kombinácie čísel a písmen. Takéto priradenie značky, ako sme videli pri tvare mier, však nebýva jednoznačné. Výstupom morfologickej analýzy je reťazec všetkých možných značiek pre daný tvar.

Väčšina počítačových aplikácií však vyžaduje, aby slovný tvar mal priradenú len jednu značku, tú, ktorá je v danom kontexte jedine správna. Proces selekcie správnej značky je možné uskutočniť ručne alebo automaticky. Pod ručným značkovaním sa chápe proces, v priebehu ktorého anotátor identifikuje v zozname navrhnutých značiek práve jednu značku správnu pre daný jazykový kontext. Automatické značkovanie znamená, že program na základe určitej metódy pridelí tvaru jednoznačnú značku bez zásahu anotátora.

Projekt Národného korpusu slovenského jazyka

Vláda Slovenskej republiky schválila 13. 2. 2002 uznesením č. 137 projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu. Predkladateľmi návrhu boli minister školstva SR, predseda Slovenskej akadémie vied a minister kultúry SR. Predmetom navrhovaného projektu je vybudovať pracovisko Národného korpusu slovenského jazyka a organizačne, materiálno-technicky a personálne ho zabezpečiť v rokoch 2002 - 2006. Národný korpus by mal byť svojím poslaním celonárodnou inštitúciou, ktorá by prostredníctvom internetu slúžila celej kultúrnej verejnosti Slovenskej republiky.

Tvorba národného korpusu slovenského jazyka je aj súčasťou Koncepcie starostlivosti o štátny jazyk, ktorej garantom je Ministerstvo kultúry SR. Ide o to, že tento dokument sa zaoberá aj otázkami podpory štátu pri budovaní materiálno-technického vybavenia vedeckého pracoviska s kodifikačnou pôsobnosťou v oblasti spisovného jazyka.

Keďže projekt Národného korpusu slovenského jazyka súvisí s realizáciou Koncepcie starostlivosti o štátny jazyk Slovenskej republiky, ktorej viaceré úlohy zabezpečuje Jazykovedný ústav Ľ. Štúra SAV, ako aj vzhľadom na fakt, že Jazykovedný ústav Ľ. Štúra už určité skúsenosti s budovaním textovej databázy má, utvorili sa predpoklady, aby pracovisko budujúce Národný korpus bolo samostatným oddelením v rámci tohto ústavu. Za toto riešenie hovoria aj ekonomicko-organizačné dôvody (usporené finančné prostriedky na obslužné činnosti). Národný korpus sa bude budovať 5 rokov a jeho plánovaná veľkosť je 200 mil. textových slov.

Cieľom budovania plánovaného Národného korpusu je zachytiť jazyk v celej jeho šírke (novinové texty, beletria, odborné publikácie, hovorený jazyk a pod.) na základe lingvisticky zdôvodnených kritérií a tým vytvoriť objektívny a autentický zdroj jazykovej informácie, ktorý by bol materiálovým východiskom na všestranný jazykovedný výskum, tvorbu základných akademických diel (viaczväzkového slovníka súčasnej slovenčiny, ortoepického slovníka, retrográdneho slovníka, akademickej gramatiky a lexikológie slovenského jazyka), ako aj aktualizáciu.

tags: #korpus #slovenského #jazyka #čo #to #je