Slovenský národný korpus: Definícia, význam a využitie

Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný zdroj jazykových dát, ktorý má zásadný význam pre jazykovedný výskum, vývoj jazykových technológií a kultúrne dedičstvo Slovenska. V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.

Čo je Slovenský národný korpus?

Slovenský národný korpus vznikol ako elektronická databáza, v ktorej sú archivované texty v slovenčine, obohatené o jazykové informácie. Je to databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste, ktoré sa spracúvajú jednotným spôsobom a sú obohatené o jazykové informácie, tzv. anotácie.

Archivované texty pochádzajú predovšetkým z oblasti beletrie, odbornej literatúry a žurnalistiky. Ďalej korpus obsahuje nárečové a historické databázy slov, ako aj slovníkové databázy, ktoré umožňujú skúmať slovenský jazyk, a tiež význam slov a ich využitie v jednotlivých časových obdobiach.

V Slovenskom národnom korpuse si takisto môžeme nájsť pôvod našich súčasných slov, zistiť z akého jazyka pochádzajú alebo ako často sa v našom písanom prejave vyskytujú.

História a vývoj

Na Slovensku vzniklo oddelenie Slovenského národného korpusu v roku 2002. Patrili sme k posledným trom slovanským krajinám, ktorým v tom čase korpus „chýbal“. Preto sa ministerstvo školstva, ministerstvo kultúry a Slovenská akadémia vied dohodli, že podporia vznik oddelenia Slovenského národného korpusu, v ktorom sa bude takáto databáza pripravovať. Samotné budovanie Slovenského národného korpusu trvalo od počiatočnej myšlienky až po jeho finálnu podobu takmer štrnásť rokov - od roku 2002 až do roku 2016 a jeho elektronický archív sa neustále dopĺňa.

Pri zrode tejto idey stála nielen skutočnosť, že okolité európske krajiny už v dobe jeho vzniku podobnými korpusmi disponovali, ale aj skutočnosť, že slovenčina je neustále vyvíjajúci sa jazyk, ktorý počas svojho vývoja ovplyvnilo veľké množstvo iných jazykových faktorov.

RNDr. Radovan Garabík je spoluriešiteľom projektu Budovanie Slovenského národného korpusu a elektronizácia jazykovedného výskumu na Slovensku, II. a III. Tvrdí, že ako absolvent matematicko - fyzikálnej fakulty UK v Bratislave si nájde široké spektrum uplatnenia, aj vo sfére jazykovedného výskumu, napríklad ako jeden z programátorov a konštruktérov systému Slovenského korpusu.

Katarína Gajdošová pracuje viac ako dvadsať rokov ako vedecká pracovníčka v oddelení Slovenského národného korpusu v Jazykovednom ústave Ľudovíta Štúra SAV. Venuje sa tiež sprevádzaniu, koučingu a profesijnému aj osobnostnému rozvoju akademických pracovníkov.

Štruktúra a obsah

V súčasnosti elektronická podoba SNK obsahuje:

  • Hlavný korpus písaných textov
  • Ručne morfologicky anotovaný korpus
  • Morfologickú databázu
  • Korpusy textov spred roku 1955
  • Hovorené korpusy
  • Korpus nárečí
  • Historický korpus slovenčiny
  • Slovenskú terminologickú databázu
  • Slovenský word net
  • Korpus krymsko - tatárskeho jazyka
  • Ďalšie korpusy súčasných písaných textov SNK

V súčasnej desiatej verzii písaného korpusu je viac ako 1,6 miliardy textových jednotiek. V najbližších dňoch zverejníme jedenástu verziu, v nej ich bude viac ako 1,8 miliardy. Takže 1,6 miliardy slov vrátane čiarok, bodiek a podobne. Presne tak, rovnako tam patria aj číslice či špeciálne znaky. Takže napríklad veta Mama varí obed. - to sú štyri textové jednotky: tri slová a jedna bodka.

Používateľ nájde v ponuke viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup. Do korpusu pribúdajú aj nové texty. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.

Využitie Slovenského národného korpusu

Je zdrojom materiálu na lingvistický výskum. Funkcie a databázy korpusu vyhľadávajú predovšetkým lingvisti, jazykovedci, autori rôznych slovníkov, ale napríklad aj tvorcovia, alebo lúštitelia krížoviek. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.

Jedným z praktických výstupov korpusu je frekvenčný slovník. Je cenným zdrojom informácií napríklad pre tých, ktorí pracujú s pacientmi po mozgových príhodách, keď stratili schopnosť reči a učia sa nanovo hovoriť. Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch. Pre nich slúži korpus ako testovací a trénovací materiál.

V Slovenskom národnom korpuse si takisto môžeme nájsť pôvod našich súčasných slov, zistiť z akého jazyka pochádzajú alebo ako často sa v našom písanom prejave vyskytujú. Väčšina funkcií Slovenského národného korpusu je dostupná až po bezplatnom prihlásení sa užívateľa, a v jeho elektronickej databáze môžu užívatelia tiež hľadať najdlhšie, alebo najkratšie slová v slovenskom jazyku, prípadne využiť prekladač s názvom Ludevít, ktorý preloží súčasný slovenský text do pôvodnej štúrovčiny.

Ako používať korpus?

Na hlavnej stránke Slovenského národného korpusu používatelia nájdu informácie o korpusoch a ich štruktúre. Na začiatku všetkého je teda výber korpusu, v ktorom budeme hľadať. Vyhľadávať môžeme rôznymi spôsobmi, začiatočníkom poslúži najlepšie jednoduché hľadanie, kam možno zapísať slovo alebo slovné spojenie.

Funkcia Popis
Jednoduché hľadanie Základné vyhľadávanie slov alebo slovných spojení
Frekvencia Zobrazuje najčastejšie tvary slova
Kolokácie Ponúka jazykové jednotky, s ktorými sa hľadané slovo spája v kontextoch
Filter Umožňuje zistiť, s akými predložkami sa spája nejaké sloveso
Trendy Zobrazuje texty v korpuse na časovej osi

Ak sa chcete naučiť využívať všetky tieto funkcionality, SNK organizuje pre používateľov korpusu semináre. Tie sú buď adresné, teda pozývajú nás inštitúcie, aby sme naučili ich zamestnancov pracovať s korpusom. Má tiež otvorené semináre väčšinou raz do roka, kam sa môže prihlásiť ktokoľvek. Stačí len sledovať stránku Slovenského národného korpusu, kde zverejňujeme pozvánky na semináre. No a druhá cesta je youtubový kanál, kde sú videonávody. Vlani začali vytvárať samostatnú sériu videí Korpus a školská prax pre učiteľov.

Mapka

Nedávno bola predstavená novinka - aplikácia Mapka, ktorá zobrazuje nárečové ukážky na mape. Používateľ má k dispozícii názov obce, ukážku a nárečovú charakteristiku. Každý záznam na mape obsahuje zvukovú stopu, nárečový prepis, slovníček pri tých slovách, ktoré môžu byť pre čitateľa problematické. Okrem toho je tu odborná charakteristika nárečia z príslušnej publikácie. V tejto chvíli máme na mape viac ako tridsať ukážok z rôznych lokalít a plánujeme ich ďalej rozširovať.

Mapku sa v korpusovom oddelení podarilo spustiť vďaka spolupráci s kolegami z Ústavu Českého národného korpusu, kolegami z dialektologického oddelenia a ďalšími odborníkmi na nárečia, ktorí nám poskytli svoje zdroje. Veríme, že Mapka je užitočná aplikácia pre každého, kto má vzťah k nárečiam, a osobitne ju ocenia školy.

tags: #slovenský #národný #korpus #definícia

Populárne príspevky: