Katarína Gajdošová a Slovenský národný korpus: Informácie a využitie

Mgr. Katarína Gajdošová, Ph.D., je významnou vedeckou pracovníčkou Oddelenia Slovenského národného korpusu (SNK) v Jazykovednom ústave Ľ. Štúra SAV, v. v. i. Už viac ako dvadsať rokov sa venuje výskumu a budovaniu tohto unikátneho nástroja na skúmanie slovenského jazyka. Okrem toho sa angažuje v sprevádzaní, koučingu a osobnostnom rozvoji akademických pracovníkov. Jej práca má široký dosah, od lingvistického výskumu až po praktické aplikácie v oblasti vzdelávania a jazykových technológií.

Rozprávali sme sa spolu o Slovenskom národnom korpuse - nástroji, pomocou ktorého odborníci i bežní ľudia môžu skúmať slovenský jazyk. Ukázali sme si, ako sa dá v tejto databáze vyhľadávať, aké základné operácie v nej vieme robiť a čo treba spraviť, aby sme mohli korpus používať.

Na Katedre slovakistiky, slovanských filológií a komunikácie Filozofickej fakulty UPJŠ v Košiciach sa 6. a 8. novembra 2019 v rámci projektu KEGA č. 008UPJŠ-4/2017 Veda bez bariér (Interdisciplinárne inšpirácie súčasnej literárnej vedy a jazykovedy v edukačnej praxi na VŠ) uskutočnila interaktívna prednáška a seminár s názvom Slovenský národný korpus - vyhľadávacie nástroje a práca s korpusovými databázami. Počas workshopu vedúca projektu Slovenského národného korpusu PhDr. Mária Šimková, Ph.D., a Mgr. Katarína Gajdošová, Ph.D. PhDr.

Čo je Slovenský národný korpus?

Slovenský národný korpus (SNK) je rozsiahla databáza textov, ktorá slúži na skúmanie slovenského jazyka v jeho rôznych podobách. Ako uviedla Dr. Gajdošová, je to "databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste". Tieto texty sú spracované jednotným spôsobom a obohatené o jazykové informácie, tzv. anotácie.

SNK je špecifický aj tým, že je dostupný bezplatne, stačí len registrácia. Ide o národný projekt, ktorý buduje korpus národného jazyka.

V tejto databáze sa dá vyhľadávať a používať rôzne nástroje na prácu s vyhľadaným materiálom. Je to jazykový zdroj, pomocou ktorého možno skúmať slovenský jazyk v rôznych jeho podobách, nielen v písanej, ale aj v hovorenej, nárečovej, historickej...

Slovenský národný korpus

História a vývoj SNK

Na Slovensku vzniklo oddelenie Slovenského národného korpusu v roku 2002. Patrili sme k posledným trom slovanským krajinám, ktorým v tom čase korpus „chýbal“. Preto sa ministerstvo školstva, ministerstvo kultúry a Slovenská akadémia vied dohodli, že podporia vznik oddelenia Slovenského národného korpusu, v ktorom sa bude takáto databáza pripravovať.

Oddelenie SNK vzniklo v roku 2002, čím sa Slovensko zaradilo medzi posledné slovanské krajiny, ktoré takýto korpus nemali. Vznik SNK bol podporený Ministerstvom školstva, Ministerstvom kultúry a Slovenskou akadémiou vied. Od svojho vzniku sa SNK neustále rozvíja a rozširuje.

Účel a využitie SNK

Hlavným účelom SNK je poskytovať rozsiahly jazykový zdroj pre lingvistický výskum. Je zdrojom materiálu na lingvistický výskum. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.

Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál.

Niekedy používam príklad tortového korpusu, ktorý kúpite hotový a už ho len niečím doplníte. Presne tak funguje aj Slovenský národný korpus. Je to pripravená materiálová báza a vedci ju používajú nato, aby mohli v jazyku objavovať. Nikto z nás nie je schopný zhromaždiť si sám také množstvo textov. Preto sa texty zhromažďujú centrálne v niečom takom, ako je Slovenský národný korpus.

Jedným z praktických výstupov korpusu je frekvenčný slovník. Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Pacientov nebudú učiť napríklad slovo krokodíl, ktoré nepatrí k vysoko frekventovaným, ale budú ich učiť také slová, ktoré sú častejšie a možno s nimi veľmi ľahko tvoriť základné vetné konštrukcie, napríklad byť, mať, a, sa.

Obsah a štruktúra korpusu

Súčasná, desiata verzia písaného korpusu obsahuje viac ako 1,6 miliardy textových jednotiek (slov vrátane interpunkcie). Najnovšia, jedenásta verzia, ktorá bola zverejnená v blízkej budúcnosti, by mala obsahovať viac ako 1,8 miliardy textových jednotiek.

Koľko zdrojov ho v súčasnosti tvorí? Sú to desiatky tisícov a poviem vám aj číslo, koľko textových jednotiek má posledná verzia korpusu. To znamená, koľko slov vrátane interpunkcie v ňom nájdeme.

Takže 1,6 miliardy slov vrátane čiarok, bodiek a podobne. Presne tak, rovnako tam patria aj číslice či špeciálne znaky. Takže napríklad veta Mama varí obed. - to sú štyri textové jednotky: tri slová a jedna bodka.

Typy textov v SNK

SNK obsahuje rôznorodé texty, vrátane:

  • odborných textov,
  • publicistických textov,
  • beletristických textov,
  • textov zo slovenskej internetovej domény (webový korpus),
  • textov z historického obdobia (historický korpus).

Okrem primárneho korpusu existujú aj iné typy korpusov, ako napríklad historický korpus, webový korpus a paralelné (dvojjazyčné) korpusy. Používatelia majú k dispozícii viac ako sto korpusov, ku ktorým získajú plný prístup po bezplatnej registrácii.

V našej ponuke používateľ nájde viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup. Okrem primárneho korpusu tam nájdu informácie napríklad aj o paralelných, teda dvojjazyčných slovensko-inojazyčných korpusoch. Najväčší z nich je slovensko-anglický. Niektoré z paralelných korpusov obsahujú aj texty z Európskej únie, iné sú zložené len z beletrie. Na začiatku všetkého je teda výber korpusu, v ktorom budeme hľadať.

Aktualizácia a rozširovanie korpusu

SNK je neustále aktualizovaný a rozširovaný o nové texty. Nová verzia korpusu je vydávaná v dvojročných intervaloch. V komunikácii s poskytovateľmi sme neustále, texty k nám prichádzajú denne. Novú verziu korpusu vydávame v dvojročných intervaloch. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.

Aby sa k nám texty dostali, museli sme podpísať licenčnú zmluvu s majiteľmi autorských práv, čo je niekedy veľmi prácna záležitosť.

V dňoch 7. a 8. októbra 2025 predstavila naša kolegyňa Mgr. Katarína Gajdošová, Ph.D., PKcS (SAKO) (Oddelenie Slovenského národného korpusu, Jazykovedný ústav Ľ. Štúra SAV, v. v. i.), textové korpusy a ich využitie študentkám prekladateľstva na Katedre romanistiky a Katedre slovenského jazyka a komunikácie Filozofickej fakulty Univerzity Mateja Bela v Banskej Bystrici.

Ako používať SNK?

Prístup k SNK je bezplatný, vyžaduje sa len registrácia. Po registrácii získajú používatelia prístup k všetkým korpusom a nástrojom.

Na hlavnej stránke Slovenského národného korpusu používatelia nájdu informácie o korpusoch a ich štruktúre. Okrem primárneho korpusu tam nájdu informácie napríklad aj o paralelných, teda dvojjazyčných slovensko-inojazyčných korpusoch.

Jednoduché vyhľadávanie

Pre začiatočníkov je najvhodnejšie jednoduché hľadanie, do ktorého možno zadať slovo alebo slovné spojenie. Po zadaní hľadaného výrazu sa zobrazí výpis všetkých výskytov daného slova alebo slovného spojenia v korpuse.

Vyhľadávať môžeme rôznymi spôsobmi, začiatočníkom poslúži najlepšie jednoduché hľadanie, kam možno zapísať slovo alebo slovné spojenie. Keď sme v Postoji, skúsme slovo postoj.

Ukáže sa nám výpis vyhľadaného slova, v ktorom jeden riadok zodpovedá jednému výskytu slova v konkrétnom texte. Vidíme, že hľadané kľúčové slovo sa našlo v rôznych tvaroch. Keď nás zaujíma širší kontext okolo slova, rozšíriť ho môžeme do istého rozsahu.

Tu je dôležitá aj informácia, že korpus nie je elektronická knižnica, takže my môžeme ten kontext rozširovať, ale len do rozsahu päťdesiat textových jednotiek vpravo a vľavo okolo hľadaného slova.

Koncový používateľ nikdy nemá k dispozícii celý text. Niekedy sa toho obávajú najmä vydavatelia, no vždy ich ubezpečujeme, že texty ako celky sa k používateľom nedostanú a zverené texty chránime.

Rozšírené vyhľadávanie a nástroje

SNK ponúka množstvo nástrojov a funkcií na rozšírené vyhľadávanie a analýzu textov:

  • Frekvencia: Zobrazuje frekvenciu výskytu jednotlivých tvarov slova.
  • Tvary KWIC: Zobrazuje graf s najčastejšími tvarmi slova v kontexte.
  • Kolokácie: Ponúka jazykové jednotky, ktoré sa s hľadaným slovom spájajú v kontexte.
  • Filter: Umožňuje filtrovať výsledky vyhľadávania podľa rôznych kritérií, napríklad podľa slovného druhu.
  • Trendy: Zobrazuje výskyt slova v textoch na časovej osi.

Je tu niekoľko nástrojov. Prostredníctvom nástroja Frekvencia si môžeme pozrieť, ktorý tvar slova postoj je najčastejší. Po kliknutí na Tvary KWIC, kde KWIC znamená kľúčové slovo v kontexte, sa ukáže graf, kde hneď odhalíme, že najčastejším tvarom z paradigmy postoj je samotné toto slovo v prvom páde, teda postoj. Nasledujú ho tvary postoje, postoja a tak ďalej, ale ich frekvencia je nižšia.

Používateľov môže zaujať nástroj Kolokácie, ktorý na základe štatistických mier ponúkne kolokáty so slovom postoj. Jazyková jednotka, s ktorou sa naše kľúčové vyhľadané slovo spája v kontextoch a to spojenie nie je náhodné. Postoj a bodka sú štatisticky iste vysoko frekventované, ale nie je to spojenie ako triedna kniha. Cítite ten rozdiel?

Vidíme, že najčastejším kolokátom slova postoj v tomto korpuse je slovo zaujať. Kolokácie sú zoradené podľa štatistickej miery logDice, ktorá sa v súčasnosti asi najviac používa na vyhodnocovanie kolokácií - vzťahov medzi dvoma slovami. Je to číselný údaj vyrátaný na základe vzorca.

Vidíme kolokáty ako zaujať alebo odmietavý a potom vidíme počet súvýskytov, teda že slová odmietavý a postoj sa v tomto korpuse nachádzajú spolu tritisícdvestokrát v rozpätí päť pozícií vľavo a vpravo okolo slova postoj.

Áno. A samotné slovo odmietavý sa v tomto korpuse nachádza 7 181-krát.

Na to, aby sme to zistili, použijeme funkciu filtra. Nástroju povieme, že za slovom písať sa na prvej pozícii musí nachádzať predložka.

Výskytov slova písať bolo v korpuse viac ako 285-tisíc, ale je len niečo cez 54-tisíc takých, kde sa hneď za slovesom písať nachádza predložka. Na toto zistenie sme prišli vďaka funkcii Filter.

Teraz by nás mohlo zaujímať, ktoré všetky predložky tam sú. Na prvý pohľad vidíme o, v, z, pred, ale aké ďalšie sú ešte v tomto postavení za slovesom písať? Na to poslúži funkcia Frekvencia.

V zozname vidíme, že najfrekventovanejšie je spojenie písať o, potom písať v. Predložiek je tu kvantum, ale frekvencie idú rýchlo dole a niekde na konci budú iste aj nejaké preklepy.

Anotácie a jazykové informácie

Texty v SNK sú obohatené o jazykové informácie, tzv. anotácie. Medzi najdôležitejšie anotácie patria:

  • Lematizácia: Priradenie základného tvaru slova (lemy) každému tvaru slova v texte.
  • Morfologická a slovnodruhová anotácia: Určenie slovného druhu a morfologických vlastností každého slova v texte.
  • Vonkajšia anotácia: Informácie o texte, ako napríklad autor, názov, dátum vydania, štýlovo-žánrová notácia.

Jednou je priradenie základného tvaru slova, my mu hovoríme lema, každému tvaru slova v texte. Aby nástroj mohol ukázať všetky tvary určitého slova, musí vedieť, k akému základnému slovu ten-ktorý tvar patrí. Tomuto procesu sa hovorí lematizácia. A deje sa automatizovane.

Ľudia ručne označkovali isté množstvo textov, teda prešli vetu za vetou a určili, že toto je predložka spájajúca sa s nejakým pádom, toto je sloveso v minulom čase v dokonavom vide, v tretej osobe a tak ďalej. Ručne sme takto označkovali 1,2 milióna slov. Potom sme naučili nástroje, aby to robili vo veľkých korpusoch samy.

V korpuse sa v pozadí za každým slovom nachádza aj táto informácia.

Každému textu je priradená vonkajšia anotácia: čo je to za text, kto je jeho autorom, aký má názov, kedy vyšiel. V prípade prekladov aj kto ho prekladal, z akého jazyka a ďalej podrobná štýlovo-žánrová notácia. Na základe parametrov o texte si používateľ vie vyfiltrovať len tie vo vybraných typoch textov.

Morfologická anotácia obsahuje slovnodruhové a tvarové charakteristiky slov v kontexte. V SNK sa nachádzajú dva druhy morfologickej anotácie a lematizácie: ručná a automatizovaná.

Tabuľka 1: Slovnodruhové značky v SNK

Slovný druhZnačka
Substantívum (podstatné meno)S
Adjektívum (prídavné meno)A
Pronominum (zámeno)P
Numerále (číslovka)N
Verbum (sloveso)V
Particípium (príčastie)G
Adverbium (príslovka)D
Prepozícia (predložka)E
Konjunkcia (spojka)O
Partikula (častica)T
Interjekcia (citoslovce)J
Reflexívum (zvratné zámeno)R
Kondicionálová morfémaY
Abreviácia, značkaW
InterpunkciaZ
Neurčiteľný slovný druhQ
Neslovný element#
Citátový výraz%
Vlastné meno:r
Číslica0
Chybný zápis:q

Grafické znázornenie frekvencie slov

Semináre a videonávody

Pre používateľov, ktorí sa chcú naučiť efektívne využívať SNK, sú k dispozícii semináre a videonávody. Semináre sú organizované pre rôzne skupiny používateľov, vrátane študentov, učiteľov a odborníkov z praxe.

Máme na to dva spôsoby. Jednak organizujeme pre používateľov korpusu semináre. Tie sú buď adresné, teda pozývajú nás inštitúcie, aby sme naučili ich zamestnancov pracovať s korpusom. Ide zväčša o homogénne skupiny - vysoké, stredné či základné školy. V každom roku máme sériu takýchto seminárov, záleží nám, aby študenti končiaci slovakistiku odchádzali do praxe s praktickou zručnosťou práce s korpusom.

Máme tiež otvorené semináre väčšinou raz do roka, kam sa môže prihlásiť ktokoľvek. Stačí len sledovať stránku Slovenského národného korpusu, kde zverejňujeme pozvánky na semináre.

No a druhá cesta je náš youtubový kanál, kde máme videonávody. Vlani sme začali vytvárať samostatnú sériu videí Korpus a školská prax pre učiteľov. Javí sa ako veľmi úspešná. V budúcom školskom roku chceme reagovať aj na žiadosti učiteľov a poskytnúť v Slovenskom národnom korpuse inovačné vzdelávanie, kde ich naučíme používať korpus.

Mapka - interaktívna vizualizácia nárečovej rozmanitosti Slovenska

Jednou z noviniek, ktoré Slovenský národný korpus ponúka, je aplikácia Mapka. Ide o interaktívnu mapu, ktorá zobrazuje nárečové ukážky z rôznych lokalít Slovenska. Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček a odbornú charakteristiku nárečia.

Je to aplikácia Mapka, ktorú sme spustili v tomto roku. Ide o zobrazenie nárečových ukážok na mape. Používateľ má k dispozícii názov obce, ukážku a nárečovú charakteristiku. Napríklad z Párnice na Orave máme dva rozdielne nárečové zdroje zo šesťdesiatych a osemdesiatych rokov.

Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček pri tých slovách, ktoré môžu byť pre čitateľa problematické. Okrem toho je tu odborná charakteristika nárečia z príslušnej publikácie. V tejto chvíli máme na mape viac ako tridsať ukážok z rôznych lokalít a plánujeme ich ďalej rozširovať.

Za zmienku stojí aj členenie nárečí podľa Atlasu slovenského jazyka. Mapa je interaktívna, mení sa podľa voľby používateľa a možno v nej vyhľadať aj lokality, z ktorých aktuálne nemáme zdroje. Radi by sme Mapku obohatili tak, aby bolo Slovensko pokryté rovnomerne.

Aplikácia Mapka

Táto aplikácia tiež spadá pod korpus? Áno, je to samostatná aplikácia. Mapku sa nám v korpusovom oddelení podarilo spustiť vďaka spolupráci s kolegami z Ústavu Českého národného korpusu, kolegami z dialektologického oddelenia a ďalšími odborníkmi na nárečia, ktorí nám poskytli svoje zdroje. Veríme, že Mapka je užitočná aplikácia pre každého, kto má vzťah k nárečiam, a osobitne ju ocenia školy.

Cieľ a využitie Mapky

Cieľom Mapky je sprístupniť slovenské nárečia širokej verejnosti zaujímavým a interaktívnym spôsobom. Aplikácia je užitočná pre každého, kto má vzťah k nárečiam, a osobitne ju ocenia školy.

Aplikácia Mapka zobrazuje nárečové ukážky na mape Slovenska. Každý záznam obsahuje zvukovú stopu, nárečový prepis, slovníček a odbornú charakteristiku nárečia. Táto aplikácia je užitočná pre každého, kto má vzťah k nárečiam, a osobitne ju ocenia školy.

Dňa 9. októbra 2025 predniesla Dr. Gajdošová v rámci banskobystrickej pobočky Slovenskej jazykovednej spoločnosti pri Jazykovednom ústave Ľ. Štúra SAV prednášku Mapka - interaktívna vizualizácia nárečovej rozmanitosti Slovenska, počas ktorej porozprávala prítomným o aplikácii, v ktorej Slovenský národný korpus sprístupňuje slovenské nárečia zaujímavým spôsobom širokej verejnosti.

Katarína Gajdošová a jej prínos pre SNK

Katarína Gajdošová zohráva kľúčovú úlohu v budovaní a rozvoji Slovenského národného korpusu. Jej odborné znalosti a dlhoročné skúsenosti sú neoceniteľné pre:

  • koordináciu tvorby korpusu pomenovaných entít,
  • koordináciu prípravy inštruktážnych videí SNK,
  • koordináciu tvorby korpusu prekladov Biblie,
  • vedenie praktických seminárov na prácu so SNK,
  • komunikáciu s verejnosťou.

Venuje sa tiež sprevádzaniu, koučingu a profesijnému aj osobnostnému rozvoju akademických pracovníkov.

Medzinárodné a národné projekty

Dr. Gajdošová sa aktívne zapája do medzinárodných a národných projektov zameraných na rozvoj jazykových technológií a korpusovej lingvistiky. Medzi najvýznamnejšie projekty patria:

  • Počítačová podpora lexikografie pri tvorbe slovenských a bulharských slovníkov a referenčné zdroje,
  • Kontakty maďarskej a slovenskej lingvistiky (zamerané na vybudovanie maďarsko-slovenského paralelného korpusu),
  • Slovenský národný korpus,
  • Jazykové chyby v slovenčine ako cudzom jazyku na báze akvizičného korpusu.

Publikácie a prezentácie

Katarína Gajdošová je autorkou mnohých publikácií a prezentácií z oblasti korpusovej lingvistiky a slovenského jazyka.

Viac o zdrojoch Slovenského národného korpusu sa dozviete na tomto odkaze. Obsah a rozsah korpusu môžete skúmať po bezplatnej registrácii.

tags: #katarina #gajdosova #slovensky #narodny #korpus #informacie

Populárne príspevky: