Česko-slovenský korpus: Nástroj pre skúmanie slovenského jazyka

Slovenský národný korpus (SNK) je rozsiahla databáza textov v slovenskom jazyku, ktorá slúži ako neoceniteľný nástroj pre výskumníkov, lingvistov, študentov a všetkých, ktorí sa zaoberajú štúdiom a analýzou slovenského jazyka. SNK predstavuje rozsiahly súbor textov rôzneho charakteru, od beletrie cez publicistiku až po odborné texty. Jeho cieľom je zachytiť jazykovú realitu v celej jej šírke a poskytnúť reprezentatívny vzorku slovenského jazyka v písomnej podobe.

Slovenský národný korpus ako oddelenie Jazykovedného ústavu Ľ. Štúra SAV v Bratislave i elektronická databáza vnútorne štruktúrovaného a uceleného súboru jazykových dát vznikol v roku 2002 v rámci projektu Budovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu na Slovensku. V roku 2001 ministerstvo kultúry v spolupráci s ministerstvom školstva a Slovenskou akadémiou vied pripravilo návrh projektu vybudovania Slovenského národného korpusu a projektu elektronizácie jazykovedného výskumu v rokoch 2002 - 2006, ktorý schválila vláda SR uznesením č. 137 z 13. februára 2002. Na základe tohto projektu sa v Jazykovednom ústave Ľudovíta Štúra SAV 22. novembra 2002 otvorilo pracovisko Slovenského národného korpusu s cieľom vybudovať do roku 2006 korpus s kapacitou 200 miliónov tokenov - základných textových jednotiek používaných v korpusoch (napr. V súčasnosti sa realizuje už 5. etapa tohto projektu (2022 - 2026).

Čo je Slovenský národný korpus?

Je to databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste. Spracúvajú sa jednotným spôsobom a sú obohatené o jazykové informácie, my im hovoríme anotácie. V tejto databáze sa dá vyhľadávať a používať rôzne nástroje na prácu s vyhľadaným materiálom. Je to jazykový zdroj, pomocou ktorého možno skúmať slovenský jazyk v rôznych jeho podobách, nielen v písanej, ale aj v hovorenej, nárečovej, historickej...

Prečo vôbec vzniklo niečo ako národný korpus? Aký je jeho účel?

Je zdrojom materiálu na lingvistický výskum. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.

Jeden z praktických výstupov korpusu je frekvenčný slovník. Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál. Je to pripravená materiálová báza a vedci ju používajú nato, aby mohli v jazyku objavovať. Nikto z nás nie je schopný zhromaždiť si sám také množstvo textov. Preto sa texty zhromažďujú centrálne v niečom takom, ako je Slovenský národný korpus.

Z viacerých druhov korpusov (napr. písaný - hovorený, jednojazyčný - viacjazyčný, všeobecný - špeciálny, synchrónny - diachrónny) vyhovoval aktuálnym potrebám lingvistického výskumu na Slovensku všeobecný korpus súčasných písaných textov a ako taký sa Slovenský národný korpus (SNK) aj začal budovať.

Obsah SNK

SNK obsahuje rôzne typy korpusov, ktoré sa líšia zameraním, veľkosťou a spôsobom spracovania:

Hlavný korpus písaných textov: Aktuálna verzia prim-11.0 (vytvorená 26. 2. 2025 a sprístupnená 11. 4. 2025) obsahuje vyše 1,85 miliardy tokenov. K dispozícii je aj predchádzajúca verzia prim-10.0 s vyše 1,68 miliardy tokenov. Na požiadanie je možný prístup aj k starším verziám. Hlavný korpus písaných textov Slovenského národného korpusu, jeho aktuálna verzia prim-8.0, bola sprístupnená 31. januára 2018 v rozsahu takmer 1,5 miliardy tokenov. Posledná aktualizácia: 3.
Ručne morfologicky anotovaný korpus: Verzie r-mak.
Ďalšie korpusy súčasných písaných textov.
Paralelné korpusy: V rámci SNK sa budujú aj paralelné korpusy - spárované rovnaké texty v origináli a v preklade alebo dva preklady toho istého textu. V súčasnosti sú verejne prístupné tri: slovensko-ruský, slovensko-francúzsky, slovensko-český paralelný korpus.
Webový korpus.
Korpusy textov z Wikipédie (a Necyklopédie).
Špecializované korpusy.
Súbor korpusov Omnia.
Časovo vymedzené korpusy:
- Korpus textov z obdobia 864 - 1843.
- Korpus textov z obdobia 1843 - 1954.
- Korpus textov denníka SME z určitého roku.

Ako to celé vzniklo?

Na Slovensku vzniklo oddelenie Slovenského národného korpusu v roku 2002. Patrili sme k posledným trom slovanským krajinám, ktorým v tom čase korpus „chýbal“. Preto sa ministerstvo školstva, ministerstvo kultúry a Slovenská akadémia vied dohodli, že podporia vznik oddelenia Slovenského národného korpusu, v ktorom sa bude takáto databáza pripravovať. Ide o národný projekt a budujeme primárne korpus národného jazyka. S korpusmi sa môžete stretnúť aj na iných pracoviskách, Slovenský národný korpus je špecifický napríklad aj tým, že je dostupný bezplatne. Stačí len registrácia.

Primárny korpus, ktorý zahŕňa súčasný slovenský jazyk, sa buduje z textov od roku 1955. V päťdesiatom treťom roku bola posledná jazyková reforma, a kým sa začala reálne uplatňovať, mohli uplynúť aj dva roky. V našej ponuke používateľ nájde viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup. Novú verziu korpusu vydávame v dvojročných intervaloch. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.

Získavanie textov do korpusu

Systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úzov zo všetkých regiónov Slovenska prebieha na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom (teda aj s prípadnými preklepmi a chybami). V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu. Aby sa k nám texty dostali, museli sme podpísať licenčnú zmluvu s majiteľmi autorských práv, čo je niekedy veľmi prácna záležitosť.

Texty prechádzajú nasledujúcimi fázami spracovania:

Odstránenie znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia.
V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova - lema), vetám jazykové informácie na úrovni viet a pod.
Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie (spravidla max. konkrétny tvar slova alebo slov: napr. slovenskými knižnicami - zobrazia sa všetky kontexty v rozsahu max. 100 znakov okolo vyhľadaného spojenia (tzv. konkrétnu morfologickú kategóriu pomocou značky - tagu: SSfp7 - zobrazia sa kontexty substantív [S] so substantívnou paradigmou [S] ženského rodu [f] v množnom čísle [p] v 7.

Prístup k SNK

Prístup k SNK je možný dvoma spôsobmi:

Jednoduché vyhľadávanie: Dostupné aj bez registrácie prostredníctvom webového rozhrania, ale s obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné) a bez možnosti vytvárania podkorpusov.
Plný prístup: Vyžaduje registráciu prostredníctvom webového formulára. Po vyplnení a odoslaní formulára sa vygeneruje dokument "Podmienky používania SNK", ktorý je potrebné podpísať a doručiť poštou alebo osobne na adresu Jazykovedného ústavu Ľ. Štúra SAV, v. v. i.

Podmienky používania SNK

Pred začatím používania webového rozhrania je potrebné prečítať si a odsúhlasiť podmienky používania. Dôležité je citovať všetky údaje získané zo SNK (kontexty, frekvencie a iné údaje) podľa príslušnej verzie a časti SNK. Pri citovaní konkrétneho diela sa SNK uvádza ako hlavný zdroj spolu s bibliografickou citáciou daného textu.

Súhlas s podmienkami používania a záväzok korektného prístupu k dátam sa potvrdzuje vlastnoručným podpisom. Registrovaný používateľ sa zaväzuje, že sa nebude usilovať o znefunkčnenie infraštruktúry SNK a ani o neoprávnené získavanie dát nad rámec poskytovaného rozsahu.

Problémy s registráciou

Ak ste zaslali požadované údaje a prihlasovacie údaje vám doteraz neprišli, odporúča sa kontaktovať priamo Jazykovedný ústav Ľ. Štúra SAV, v. v. i.

Využitie SNK

SNK ponúka široké možnosti využitia pre rôzne účely:

Výskum jazyka: Analýza frekvencie slov, slovných spojení, gramatických konštrukcií a iných jazykových javov.
Lexikografia: Tvorba slovníkov a encyklopédií.
Didaktika: Výučba slovenského jazyka, tvorba učebníc a cvičebníc.
Prekladateľstvo: Hľadanie ekvivalentov v cieľovom jazyku, overovanie správnosti prekladu.
Štýlistika: Analýza štýlu rôznych textov, identifikácia charakteristických znakov autora.
Automatické spracovanie jazyka: Trénovanie algoritmov na rozpoznávanie a generovanie slovenského jazyka.

Na špeciálnejšie výskumy slúžia podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu. Vyhľadané slová sa dajú usporadúvať podľa frekvencie, podľa spoluvýskytov s inými slovami a pod.

Frekvenčné zoznamy

SNK poskytuje frekvenčné zoznamy lem, tvarov slov a slovných druhov z dostupných korpusov. Tieto zoznamy sú užitočné pre identifikáciu najčastejšie používaných slov a gramatických konštrukcií v slovenskom jazyku.

Licenčná zmluva a ochrana autorských práv

Texty sa do SNK zaraďujú na základe licenčnej zmluvy, v ktorej sa Jazykovedný ústav Ľ. Štúra SAV, v. v. i.

Mapka

Nedávno ste predstavili novinku. O čo ide? Je to aplikácia Mapka, ktorú sme spustili v tomto roku. Ide o zobrazenie nárečových ukážok na mape. Používateľ má k dispozícii názov obce, ukážku a nárečovú charakteristiku. Napríklad z Párnice na Orave máme dva rozdielne nárečové zdroje zo šesťdesiatych a osemdesiatych rokov. Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček pri tých slovách, ktoré môžu byť pre čitateľa problematické. Okrem toho je tu odborná charakteristika nárečia z príslušnej publikácie. V tejto chvíli máme na mape viac ako tridsať ukážok z rôznych lokalít a plánujeme ich ďalej rozširovať. Za zmienku stojí aj členenie nárečí podľa Atlasu slovenského jazyka. Mapa je interaktívna, mení sa podľa voľby používateľa a možno v nej vyhľadať aj lokality, z ktorých aktuálne nemáme zdroje. Radi by sme Mapku obohatili tak, aby bolo Slovensko pokryté rovnomerne.

tags: #Česko-slovenský #korpus