Slovenský národný korpus: Registrácia a prístup

Slovenský národný korpus (SNK) predstavuje rozsiahlu databázu textov v slovenskom jazyku, ktorá slúži ako cenný zdroj pre lingvistický výskum, výučbu a ďalšie nekomerčné účely. Je to jazykový zdroj, pomocou ktorého možno skúmať slovenský jazyk v jeho rôznych podobách, nielen v písanej, ale aj v hovorenej, nárečovej, historickej podobe. Tento článok poskytuje komplexný prehľad o registrácii do SNK, podmienkach používania a možnostiach, ktoré táto databáza ponúka.

RNDr. Radovan Garabík pracuje v Slovenskom národnom korpuse na oddelení Jazykovedného ústavu Ľudovíta Štúra SAV.

Vznik a vývoj SNK

Oddelenie Slovenského národného korpusu vzniklo v roku 2002. Patrili sme k posledným trom slovanským krajinám, ktorým v tom čase korpus „chýbal“. Preto sa ministerstvo školstva, ministerstvo kultúry a Slovenská akadémia vied dohodli, že podporia vznik oddelenia Slovenského národného korpusu, v ktorom sa bude takáto databáza pripravovať. Ide o národný projekt a budujeme primárne korpus národného jazyka. Stačí len registrácia a SNK je dostupný bezplatne.

Účel a využitie korpusu

Prečo vôbec vzniklo niečo ako národný korpus? Aký je jeho účel? Je zdrojom materiálu na lingvistický výskum. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.

Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál. Slovenský národný korpus je pripravená materiálová báza a vedci ju používajú nato, aby mohli v jazyku objavovať. Nikto z nás nie je schopný zhromaždiť si sám také množstvo textov.

Rozsah a obsah korpusu

Koľko zdrojov ho v súčasnosti tvorí? V súčasnej desiatej verzii písaného korpusu je viac ako 1,6 miliardy textových jednotiek. V najbližších dňoch zverejníme jedenástu verziu, v nej ich bude viac ako 1,8 miliardy. Takže 1,6 miliardy slov vrátane čiarok, bodiek a podobne.

Primárny korpus, ktorý zahŕňa súčasný slovenský jazyk, sa buduje z textov od roku 1955. Okrem neho máme rôzne iné typy korpusov. Napríklad časovo vymedzené - historický korpus, kde sa nachádzajú texty predspisovného obdobia. Takisto u nás nájdete webový korpus, ktorý obsahuje texty zo slovenskej internetovej domény. V našej ponuke používateľ nájde viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup.

V komunikácii s poskytovateľmi sme neustále, texty k nám prichádzajú denne. Novú verziu korpusu vydávame v dvojročných intervaloch. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.

Ľudia sa nás zvyknú pýtať, či predtým, ako text zaradíme do korpusu, ho opravíme, ak je chybný. Nerobíme to, pretože korpus odráža reálny jazyk, aký v súčasnosti je.

Registrácia do SNK: Kľúč k plnému prístupu

Na získanie plného prístupu do databáz Slovenského národného korpusu je potrebná registrácia. Registrácia prebieha prostredníctvom vyplnenia webového registračného formulára. Po jeho vyplnení a odoslaní je potrebné počkať niekoľko sekúnd, kým bude vygenerovaný dokument "Podmienky používania SNK".

Podmienky používania: Dôležitý krok k prístupu do SNK

Dokument "Podmienky používania SNK" je potrebné podpísať a doručiť poštou alebo osobne na adresu: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV, v. v. i.

Prečo je potrebný vlastnoručný podpis?

Vlastnoručný podpis je vyžadovaný z dôvodu zabezpečenia práv autorov a majiteľov autorských práv. Ich zaradenie do korpusových databáz je možné len na základe licenčnej zmluvy, v ktorej sa Jazykovedný ústav Ľ. Štúra SAV, v. v. i.

Podmienky používania webového rozhrania

Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť nasledujúce podmienky:

  • Ako používateľ sa zaväzujem, že texty budem používať len na vedecké, výskumné, učebné alebo iné nekomerčné ciele.
  • Budem citovať všetky údaje získané zo Slovenského národného korpusu (kontexty, frekvencie a iné údaje zo všetkých alebo z vybraných textov) podľa príslušnej verzie a časti SNK.
  • Pri citovaní konkrétneho diela (novín, časopisu, knihy, článku atď.) uvediem SNK ako hlavný zdroj, takisto uvediem citáciu daného textu podľa bibliografickej normy.

Získavanie textov do SNK

Texty sa do Slovenského národného korpusu (SNK) získavajú priamo od autorov alebo vlastníkov autorských či distribučných práv na základe zmluvy o inom, t. j. nekomerčnom použití v súlade so zákonom o autorských právach.

Používanie korpusu

Na hlavnej stránke Slovenského národného korpusu používatelia nájdu informácie o korpusoch a ich štruktúre. Okrem primárneho korpusu tam nájdu informácie napríklad aj o paralelných, teda dvojjazyčných slovensko-inojazyčných korpusoch. Najväčší z nich je slovensko-anglický. Na začiatku všetkého je teda výber korpusu, v ktorom budeme hľadať.

Vyhľadávať môžeme rôznymi spôsobmi, začiatočníkom poslúži najlepšie jednoduché hľadanie, kam možno zapísať slovo alebo slovné spojenie. Ukáže sa nám výpis vyhľadaného slova, v ktorom jeden riadok zodpovedá jednému výskytu slova v konkrétnom texte. Keď nás zaujíma širší kontext okolo slova, rozšíriť ho môžeme do istého rozsahu.

Každému textu je priradená vonkajšia anotácia: čo je to za text, kto je jeho autorom, aký má názov, kedy vyšiel. V prípade prekladov aj kto ho prekladal, z akého jazyka a ďalej podrobná štýlovo-žánrová notácia. Na základe parametrov o texte si používateľ vie vyfiltrovať len tie vo vybraných typoch textov.

Základné funkcie a nástroje

  • Frekvencia: Zobrazí, ktorý tvar slova je najčastejší.
  • Tvary KWIC: (Kľúčové slovo v kontexte) - ukáže graf, kde je vidieť najčastejší tvar slova.
  • Kolokácie: Ponúkne jazykové jednotky, s ktorými sa hľadané slovo spája v kontextoch.
  • Filter: Umožňuje zistiť, s akými predložkami sa spája nejaké sloveso.
  • Trendy: Zobrazí texty v korpuse na časovej osi.

Používateľov môže zaujať nástroj Kolokácie, ktorý na základe štatistických mier ponúkne kolokáty so slovom postoj. Jazyková jednotka, s ktorou sa naše kľúčové vyhľadané slovo spája v kontextoch a to spojenie nie je náhodné. Kolokácie sú zoradené podľa štatistickej miery logDice, ktorá sa v súčasnosti asi najviac používa na vyhodnocovanie kolokácií - vzťahov medzi dvoma slovami. Je to číselný údaj vyrátaný na základe vzorca.

Anotácie v korpuse

Na začiatku som hovorila o obohatení textov o jazykové informácie - anotácie. Jednou je priradenie základného tvaru slova, my mu hovoríme lema, každému tvaru slova v texte. Tomuto procesu sa hovorí lematizácia. A deje sa automatizovane.

Ďalším typom anotácie je morfologická a slovnodruhová anotácia. Ľudia ručne označkovali isté množstvo textov, teda prešli vetu za vetou a určili, že toto je predložka spájajúca sa s nejakým pádom, toto je sloveso v minulom čase v dokonavom vide, v tretej osobe a tak ďalej. Ručne sme takto označkovali 1,2 milióna slov. Potom sme naučili nástroje, aby to robili vo veľkých korpusoch samy.

Ako sa naučiť používať korpus?

Máme na to dva spôsoby. Jednak organizujeme pre používateľov korpusu semináre. Tie sú buď adresné, teda pozývajú nás inštitúcie, aby sme naučili ich zamestnancov pracovať s korpusom. Máme tiež otvorené semináre väčšinou raz do roka, kam sa môže prihlásiť ktokoľvek. Stačí len sledovať stránku Slovenského národného korpusu, kde zverejňujeme pozvánky na semináre.

No a druhá cesta je náš youtubový kanál, kde máme videonávody. Vlani sme začali vytvárať samostatnú sériu videí Korpus a školská prax pre učiteľov. Javí sa ako veľmi úspešná. V budúcom školskom roku chceme reagovať aj na žiadosti učiteľov a poskytnúť v Slovenskom národnom korpuse inovačné vzdelávanie, kde ich naučíme používať korpus.

Mapka - nová aplikácia SNK

Je to aplikácia Mapka, ktorú sme spustili v tomto roku. Ide o zobrazenie nárečových ukážok na mape. Používateľ má k dispozícii názov obce, ukážku a nárečovú charakteristiku. Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček pri tých slovách, ktoré môžu byť pre čitateľa problematické. Okrem toho je tu odborná charakteristika nárečia z príslušnej publikácie. V tejto chvíli máme na mape viac ako tridsať ukážok z rôznych lokalít a plánujeme ich ďalej rozširovať.

Mapa je interaktívna, mení sa podľa voľby používateľa a možno v nej vyhľadať aj lokality, z ktorých aktuálne nemáme zdroje. Radi by sme Mapku obohatili tak, aby bolo Slovensko pokryté rovnomerne. Veríme, že Mapka je užitočná aplikácia pre každého, kto má vzťah k nárečiam, a osobitne ju ocenia školy.

Aplikácia Mapka SNK

Kolokácie a projekt VEGA

Podstatou projektu VEGA je prispieť k rozšíreniu poznatkov o spájateľnosti prísloviek v slovenskom jazyku jednak hĺbkovou korpusovo-lingvistickou analýzou týchto jazykových jednotiek a jednak vytvorením kolokačného slovníka prísloviek na báze dát Slovenského národného korpusu. V prvej fáze projektu bude vytvorený špecializovaný korpus, ktorý sa použije na tvorbu štatistických zoznamov, základného heslára, ako aj na extrakciu kolokácií vybraných prísloviek. Slovník bude obsahovať viac ako 700 kolokačných profilov najfrekventovanejších prísloviek v slovenskom jazyku a štatistickú časť, ktorá bude pozostávať z frekvenčných zoznamov týkajúcich sa spájateľnosti vybraných prísloviek. V záverečnej fáze projektu bude slovník odovzdaný do tlače.

Výstupy:

  • PIATKOVÁ, Kristína - STANKOVÁ, Mária: Adverbs and Particles: Part-of-speech Homonymy in Corpus Data and Media Discourse. In: Jazykovedný časopis, 2025, roč. 76, č. 1, s. 63 - 74. ISSN 0021-5597. PDF
  • Majchráková Daniela: Compiling the Slovak Dictionary of Adverbial Collocations. In: 1st International Conference on Lexicology and Lexicography. Book of abstracts (Budapešť, 29. 9 - 1. 10. 2025). Ed. Júlia Ballagó - Veronika Lipp. Budapest: ELTE Research Centre for Linguistics 2025, s. 39.

Nástroj KOLOKAT

KOLOKAT je nástroj na vizualizáciu kolokácií.

Vedecká cukráreň

Vedecká cukráreň je pravidelná séria stretnutí žiakov stredných škôl s osobnosťami slovenskej vedy, výskumu a techniky.

tags: #slovenský #národný #korpus #registrácia #a #prístup

Populárne príspevky: