Slovenský národný korpus: Definícia a význam

Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný súbor textov v slovenskom jazyku. Ide o cenný zdroj pre jazykovedný výskum, vývoj jazykových technológií a pre širokú kultúrnu verejnosť. Katarína Gajdošová pracuje viac ako dvadsať rokov ako vedecká pracovníčka v oddelení Slovenského národného korpusu v Jazykovednom ústave Ľudovíta Štúra SAV. Venuje sa tiež sprevádzaniu, koučingu a profesijnému aj osobnostnému rozvoju akademických pracovníkov.

Vláda Slovenskej republiky schválila projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu v roku 2002. Cieľom projektu bolo vybudovať pracovisko Národného korpusu slovenského jazyka a zabezpečiť jeho fungovanie v rokoch 2002 - 2006.

Čo je Slovenský národný korpus? Je to databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste. Spracúvajú sa jednotným spôsobom a sú obohatené o jazykové informácie, my im hovoríme anotácie. V tejto databáze sa dá vyhľadávať a používať rôzne nástroje na prácu s vyhľadaným materiálom.

Je to jazykový zdroj, pomocou ktorého možno skúmať slovenský jazyk v rôznych jeho podobách, nielen v písanej, ale aj v hovorenej, nárečovej, historickej...

Rozprávali sme sa spolu o Slovenskom národnom korpuse - nástroji, pomocou ktorého odborníci i bežní ľudia môžu skúmať slovenský jazyk. Ukázali sme si, ako sa dá v tejto databáze vyhľadávať, aké základné operácie v nej vieme robiť a čo treba spraviť, aby sme mohli korpus používať.

Význam a účel národného korpusu

Prečo vôbec vzniklo niečo ako národný korpus? Aký je jeho účel? Korpus je zdrojom materiálu na lingvistický výskum. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.

Korpus je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál.

Niekedy používam príklad tortového korpusu, ktorý kúpite hotový a už ho len niečím doplníte. Presne tak funguje aj Slovenský národný korpus. Je to pripravená materiálová báza a vedci ju používajú nato, aby mohli v jazyku objavovať.

Nikto z nás nie je schopný zhromaždiť si sám také množstvo textov. Preto sa texty zhromažďujú centrálne v niečom takom, ako je Slovenský národný korpus.

Jeden z praktických výstupov korpusu je frekvenčný slovník. Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Pacientov nebudú učiť napríklad slovo krokodíl, ktoré nepatrí k vysoko frekventovaným, ale budú ich učiť také slová, ktoré sú častejšie a možno s nimi veľmi ľahko tvoriť základné vetné konštrukcie, napríklad byť, mať, a, sa.

S korpusmi sa môžete stretnúť aj na iných pracoviskách, Slovenský národný korpus je špecifický napríklad aj tým, že je dostupný bezplatne. Stačí len registrácia.

Vznik a vývoj

Na Slovensku vzniklo oddelenie Slovenského národného korpusu v roku 2002. Patrili sme k posledným trom slovanským krajinám, ktorým v tom čase korpus „chýbal“. Preto sa ministerstvo školstva, ministerstvo kultúry a Slovenská akadémia vied dohodli, že podporia vznik oddelenia Slovenského národného korpusu, v ktorom sa bude takáto databáza pripravovať.

Ide o národný projekt a budujeme primárne korpus národného jazyka.

V komunikácii s poskytovateľmi sme neustále, texty k nám prichádzajú denne. Novú verziu korpusu vydávame v dvojročných intervaloch. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.

Aby sa k nám texty dostali, museli sme podpísať licenčnú zmluvu s majiteľmi autorských práv, čo je niekedy veľmi prácna záležitosť.

Denník Postoj a jeho vydavateľstvo s vami takúto zmluvu uzavrel, budú teda naše texty súčasťou jedenástej verzie? Niektoré azda áno. Nie som si istá, či sme stihli spracovať všetky. S denníkom Postoj sa nám však podarila aj ďalšia veľmi prospešná vec: zaradiť texty z vybraných stránok denníka do korpusu pomenovaných entít.

Ide o špecializovaný typ korpusu, v ktorom sú v textoch identifikované pomenované entity - vlastné mená. Naše nástroje sa učia rozpoznávať takéto miesta v texte a potom samy identifikujú, že nejaké slovo je meno, iné je priezvisko, toto je adresa, toto je číslo, toto je zas geografická lokalita.

V súčasnosti prebieha už piata fáza budovania korpusových databáz, ktorá sa zameriava na rozširovanie a skvalitňovanie zdrojov Slovenského národného korpusu prostredníctvom prípravy a sprístupnenia nových verzií korpusov, a to predovšetkým novej verzie hlavného korpusu písaných textov, korpusu pomenovaných entít, webového korpusu, vybraných paralelných korpusov či akvizičného korpusu.

V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.

Rozsah a obsah korpusu

Koľko zdrojov ho v súčasnosti tvorí? Sú to desiatky tisícov a poviem vám aj číslo, koľko textových jednotiek má posledná verzia korpusu. To znamená, koľko slov vrátane interpunkcie v ňom nájdeme. V súčasnej desiatej verzii písaného korpusu je viac ako 1,6 miliardy textových jednotiek. V najbližších dňoch zverejníme jedenástu verziu, v nej ich bude viac ako 1,8 miliardy.

Takže 1,6 miliardy slov vrátane čiarok, bodiek a podobne. Presne tak, rovnako tam patria aj číslice či špeciálne znaky. Takže napríklad veta Mama varí obed. - to sú štyri textové jednotky: tri slová a jedna bodka.

Primárny korpus, ktorý zahŕňa súčasný slovenský jazyk, sa buduje z textov od roku 1955. V päťdesiatom treťom roku bola posledná jazyková reforma, a kým sa začala reálne uplatňovať, mohli uplynúť aj dva roky.

Okrem neho máme rôzne iné typy korpusov. Napríklad časovo vymedzené - historický korpus, kde sa nachádzajú texty predspisovného obdobia. Takisto u nás nájdete webový korpus, ktorý obsahuje texty zo slovenskej internetovej domény. Toto všetko sú samostatné korpusy v rámci celku Slovenského národného korpusu. V našej ponuke používateľ nájde viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup.

Použitie korpusu

Bežným používateľom je pre nás vždy niekto, kto má záujem o jazyk. Ak ktosi pracuje v úplne inej oblasti, korpus preňho asi nebude zaujímavý.

Ktokoľvek však môže použiť korpus napríklad na zistenie predložkových väzieb, tvarov alebo frekvencie slov, ak si nie je niečím istý. Tu by som však upozornila, že korpus nenahrádza kodifikačné príručky.

Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný súbor textov v slovenskom jazyku, ktorý slúži ako cenný zdroj pre jazykovedný výskum, vývoj jazykových technológií a pre širokú kultúrnu verejnosť.

Na hlavnej stránke Slovenského národného korpusu používatelia nájdu informácie o korpusoch a ich štruktúre. Okrem primárneho korpusu tam nájdu informácie napríklad aj o paralelných, teda dvojjazyčných slovensko-inojazyčných korpusoch. Najväčší z nich je slovensko-anglický. Niektoré z paralelných korpusov obsahujú aj texty z Európskej únie, iné sú zložené len z beletrie.

Na začiatku všetkého je teda výber korpusu, v ktorom budeme hľadať.

Vyhľadávať môžeme rôznymi spôsobmi, začiatočníkom poslúži najlepšie jednoduché hľadanie, kam možno zapísať slovo alebo slovné spojenie. Keď sme v Postoji, skúsme slovo postoj.

Ukáže sa nám výpis vyhľadaného slova, v ktorom jeden riadok zodpovedá jednému výskytu slova v konkrétnom texte. Vidíme, že hľadané kľúčové slovo sa našlo v rôznych tvaroch. Keď nás zaujíma širší kontext okolo slova, rozšíriť ho môžeme do istého rozsahu.

Tu je dôležitá aj informácia, že korpus nie je elektronická knižnica, takže my môžeme ten kontext rozširovať, ale len do rozsahu päťdesiat textových jednotiek vpravo a vľavo okolo hľadaného slova.

Koncový používateľ nikdy nemá k dispozícii celý text. Niekedy sa toho obávajú najmä vydavatelia, no vždy ich ubezpečujeme, že texty ako celky sa k používateľom nedostanú a zverené texty chránime.

Každému textu je priradená vonkajšia anotácia: čo je to za text, kto je jeho autorom, aký má názov, kedy vyšiel. V prípade prekladov aj kto ho prekladal, z akého jazyka a ďalej podrobná štýlovo-žánrová notácia. Na základe parametrov o texte si používateľ vie vyfiltrovať len tie vo vybraných typoch textov.

V ľavom stĺpci vidíme rôzne možnosti ako triedenie, filter, frekvencia... Čo to znamená? Je tu niekoľko nástrojov. Prostredníctvom nástroja Frekvencia si môžeme pozrieť, ktorý tvar slova postoj je najčastejší. Po kliknutí na Tvary KWIC, kde KWIC znamená kľúčové slovo v kontexte, sa ukáže graf, kde hneď odhalíme, že najčastejším tvarom z paradigmy postoj je samotné toto slovo v prvom páde, teda postoj. Nasledujú ho tvary postoje, postoja a tak ďalej, ale ich frekvencia je nižšia.

Používateľov môže zaujať nástroj Kolokácie, ktorý na základe štatistických mier ponúkne kolokáty so slovom postoj.

Vidíme, že najčastejším kolokátom slova postoj v tomto korpuse je slovo zaujať. Kolokácie sú zoradené podľa štatistickej miery logDice, ktorá sa v súčasnosti asi najviac používa na vyhodnocovanie kolokácií - vzťahov medzi dvoma slovami. Je to číselný údaj vyrátaný na základe vzorca.

Vidíme kolokáty ako zaujať alebo odmietavý a potom vidíme počet súvýskytov, teda že slová odmietavý a postoj sa v tomto korpuse nachádzajú spolu tritisícdvestokrát v rozpätí päť pozícií vľavo a vpravo okolo slova postoj.

Možno by niekoho mohlo zaujímať, s akými predložkami sa spája nejaké sloveso. Napríklad slovo písať. Na to, aby sme to zistili, použijeme funkciu filtra. Nástroju povieme, že za slovom písať sa na prvej pozícii musí nachádzať predložka.

Výskytov slova písať bolo v korpuse viac ako 285-tisíc, ale je len niečo cez 54-tisíc takých, kde sa hneď za slovesom písať nachádza predložka. Na toto zistenie sme prišli vďaka funkcii Filter. Teraz by nás mohlo zaujímať, ktoré všetky predložky tam sú. Na prvý pohľad vidíme o, v, z, pred, ale aké ďalšie sú ešte v tomto postavení za slovesom písať? Na to poslúži funkcia Frekvencia.

V zozname vidíme, že najfrekventovanejšie je spojenie písať o, potom písať v. Predložiek je tu kvantum, ale frekvencie idú rýchlo dole a niekde na konci budú iste aj nejaké preklepy.

Máme na to dva spôsoby. Jednak organizujeme pre používateľov korpusu semináre. Tie sú buď adresné, teda pozývajú nás inštitúcie, aby sme naučili ich zamestnancov pracovať s korpusom. Ide zväčša o homogénne skupiny - vysoké, stredné či základné školy. V každom roku máme sériu takýchto seminárov, záleží nám, aby študenti končiaci slovakistiku odchádzali do praxe s praktickou zručnosťou práce s korpusom.

Máme tiež otvorené semináre väčšinou raz do roka, kam sa môže prihlásiť ktokoľvek. Stačí len sledovať stránku Slovenského národného korpusu, kde zverejňujeme pozvánky na semináre.

No a druhá cesta je náš youtubový kanál, kde máme videonávody. Vlani sme začali vytvárať samostatnú sériu videí Korpus a školská prax pre učiteľov. Javí sa ako veľmi úspešná. V budúcom školskom roku chceme reagovať aj na žiadosti učiteľov a poskytnúť v Slovenskom národnom korpuse inovačné vzdelávanie, kde ich naučíme používať korpus.

Mapka

Nedávno ste predstavili novinku. O čo ide? Je to aplikácia Mapka, ktorú sme spustili v tomto roku. Ide o zobrazenie nárečových ukážok na mape. Používateľ má k dispozícii názov obce, ukážku a nárečovú charakteristiku. Napríklad z Párnice na Orave máme dva rozdielne nárečové zdroje zo šesťdesiatych a osemdesiatych rokov.

Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček pri tých slovách, ktoré môžu byť pre čitateľa problematické. Okrem toho je tu odborná charakteristika nárečia z príslušnej publikácie. V tejto chvíli máme na mape viac ako tridsať ukážok z rôznych lokalít a plánujeme ich ďalej rozširovať.

Za zmienku stojí aj členenie nárečí podľa Atlasu slovenského jazyka. Mapa je interaktívna, mení sa podľa voľby používateľa a možno v nej vyhľadať aj lokality, z ktorých aktuálne nemáme zdroje. Radi by sme Mapku obohatili tak, aby bolo Slovensko pokryté rovnomerne.

Áno, je to samostatná aplikácia. Mapku sa nám v korpusovom oddelení podarilo spustiť vďaka spolupráci s kolegami z Ústavu Českého národného korpusu, kolegami z dialektologického oddelenia a ďalšími odborníkmi na nárečia, ktorí nám poskytli svoje zdroje. Veríme, že Mapka je užitočná aplikácia pre každého, kto má vzťah k nárečiam, a osobitne ju ocenia školy.

V rámci nástrojov je po vyhľadaní slova v korpuse k dispozícii aj funkcia Trendy. Tá zobrazí texty v korpuse na časovej osi. Ako vidíme, prvýkrát sa objavilo slovo hoax v roku 1955. Bolo to v texte Karla Čapka Vojna s mlokmi.

Potom sa hoax ďalej objavuje až v roku 2005 v blogových článkoch denníka Sme.

Na stránke je zoznam poskytovateľov textov, ktorý sa neustále aktualizuje. V súčasnosti je ich viac ako 850. Od každého z nich je v korpuse rôzne množstvo textov. Niekto vydal svoje dve vlastné knihy, niekde máme všetky texty z veľkého vydavateľstva.

Korpus môžeme nájsť ako zdroj vo viacerých aplikáciách. V našom jazykovednom ústave napríklad kolega Radovan Garabík pripravil viaceré takéto nástroje. Známe je zobrazenie časovej závislosti výskytu slov. Ukáže nám napríklad, či sa skôr začalo vyskytovať slovo mobi...

Príklady metaznakov používaných pri vyhľadávaní v Slovenskom národnom korpuse
MetaznakVýznam metaznakuPríklad použitiaOčakávaný výsledok vyhľadávania
BODKAnahrádza jeden ľubovoľný znakdom..domov, domec
HVIEZDIČKAurčuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát)hm*h, hm, hmm, hmmm
PLUSurčuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackráthm+hm, hmm, hmmm
ZVISLÁ ČIARAmá funkciu operátora ALEBOdom|domadom, doma

Morfologická anotácia a lematizácia v SNK

Morfologická anotácia je proces priraďovania slovnodruhových a tvarových charakteristík slovám v kontexte. Lematizácia je priradenie základného (slovníkového) tvaru každému slovu. V SNK existujú dva druhy:

  • Ručná anotácia: Nachádza sa v podkorpuse r-mak, ktorá je založená na presných pravidlách a značkách.
  • Automatizovaná anotácia: Používa sa pre ostatné korpusy a podkorpusy, pričom využíva tager MorphoDiTa, ktorý bol natrénovaný na podkorpuse r-mak.

Všetky textové jednotky (tokeny) podliehajú morfologickej anotácii. Tokeny sú reťazce znakov medzi medzerami, vrátane interpunkcie, pred ktorú sa medzery pridávajú. Každému tokenu sa priraďujú atribúty lema a tag.

Lema

Lema je základný, slovníkový tvar tokenu. Do verzie r-mak-4.0 sa nerozlišovalo medzi malými a veľkými písmenami, lemy mali vždy malé začiatočné písmeno a propriálnosť sa označovala písmenom "r" na konci tagu. Negované tvary slovies a iných slovných druhov sa lematizujú negovaným tvarom, pričom pri slovesách sa afirmácia a negácia označuje aj na úrovni tagu.

Tag

Tag vyjadruje hodnoty formálnych kategórií relevantných pre daný token. V SNK sa používajú tagy s variabilným počtom znakov, pričom poradie znakov v tagu je záväzné. Na prvom mieste je informácia o slovnom druhu.

Zoznam slovných druhov a značiek

V Slovenskom národnom korpuse sa používajú nasledujúce značky pre slovné druhy:

  • Substantívum (S)
  • Adjektívum (A)
  • Pronominum (P)
  • Numerále (N)
  • Verbum (V)
  • Particípium (G)
  • Adverbium (D)
  • Prepozícia (E)
  • Konjunkcia (O)
  • Partikula (T)
  • Interjekcia (J)
  • Neurčiteľný slovný druh (Q)
  • Reflexívum (R)
  • Interpunkcia (Z)
  • Neslovný element (#)
  • Citátový výraz (%)
  • Číslica (0)
  • Kondicionálová morféma (Y)
  • Vlastné meno (:r)
  • Abreviácia, značka (W)
  • Chybný zápis (:q)

Praktické využitie SNK

SNK je neoceniteľným nástrojom pre:

  • Jazykovedcov: Na analýzu jazykových štruktúr, frekvencie slov a slovných spojení, a na štúdium vývoja jazyka.
  • Lexikografov: Na tvorbu slovníkov a encyklopédií, kde korpus slúži ako zdroj autentických príkladov použitia slov.
  • Prekladateľov: Na overovanie správnosti prekladov a na hľadanie vhodných ekvivalentov v cieľovom jazyku.
  • Učiteľov: Na prípravu učebných materiálov a na ilustráciu gramatických a lexikálnych javov.
  • Študentov: Na písanie seminárnych a diplomových prác, kde môžu využiť rozsiahle dáta z korpusu na podporu svojich argumentov.

Vývoj SNK

Vláda Slovenskej republiky schválila projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu v roku 2002. Cieľom projektu bolo vybudovať pracovisko Národného korpusu slovenského jazyka a zabezpečiť jeho fungovanie v rokoch 2002 - 2006.

Princípy budovania korpusu

  • Reprezentatívnosť: Zabezpečenie vyváženého zastúpenia rôznych typov textov a komunikačných oblastí.
  • Bibliografická anotácia: Detailné informácie o zdroji textu (autor, vydavateľstvo, rok vydania, žáner).
  • Lingvistická anotácia: Označovanie gramatických kategórií každého slova pomocou značiek SGML.

Softvér a nástroje pre prácu s SNK

Na efektívnu prácu s korpusom je potrebný špecializovaný softvér, ktorý umožňuje rýchle vyhľadávanie slov a slovných spojení, automatické vyhodnocovanie a spracovanie dát. Národný korpus slovenského jazyka predstavuje rozsiahly a systematicky budovaný zdroj jazykových dát, ktorý má zásadný význam pre jazykovedný výskum, vývoj jazykových technológií a kultúrne dedičstvo Slovenska.

Vyhľadávanie v Slovenskom národnom korpuse

  1. NoSketch Engine s dátami SNK

    V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne. Aby ste ho mohli používať, je nevyhnutné sa najprv zaregistrovať.

  2. Jednoduché vyhľadávanie bez registrácie

    Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov. Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť podmienky používania SNK.

Ako citovať korpus

Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.

tags: #slovenský #národný #korpus #definícia

Populárne príspevky: