Slovenský národný korpus: Nástroj na skúmanie slovenského jazyka

Slovenský národný korpus (SNK) je rozsiahla databáza publikovaných textov, ktorá predstavuje cenný nástroj na skúmanie slovenského jazyka. Táto databáza, zhromaždená na jednom mieste, obsahuje odborné, publicistické a beletristické texty, ktoré sú spracované jednotným spôsobom a obohatené o jazykové informácie, nazývané anotácie.

Aplikácia Mapka zobrazuje nárečové ukážky na mape Slovenska.

Čo je Slovenský národný korpus?

Ide o národný projekt, ktorý buduje korpus národného jazyka. SNK je špecifický aj tým, že je dostupný bezplatne, stačí len registrácia.

Katarína Gajdošová, vedecká pracovníčka v oddelení SNK v Jazykovednom ústave Ľudovíta Štúra SAV, vysvetľuje: „Je to databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste. Spracúvajú sa jednotným spôsobom a sú obohatené o jazykové informácie, my im hovoríme anotácie. V tejto databáze sa dá vyhľadávať a používať rôzne nástroje na prácu s vyhľadaným materiálom.“

Ako vznikol SNK?

Oddelenie SNK vzniklo v roku 2002. Slovensko patrilo k posledným slovanským krajinám, ktorým takýto korpus chýbal. Ministerstvo školstva, ministerstvo kultúry a Slovenská akadémia vied sa dohodli, že podporia vznik oddelenia, ktoré bude túto databázu pripravovať.

Prečo vznikol národný korpus?

SNK slúži ako zdroj materiálu na lingvistický výskum. Využívajú ho korektori, redaktori, editori, prekladatelia, učitelia, ale aj odborníci z iných oblastí, ako napríklad neurológie. Je užitočný aj pre tých, ktorí vyvíjajú aplikácie pracujúce s textom, napríklad na kontrolu gramatiky v textových editoroch.

Korpus je pripravená materiálová báza, ktorú vedci používajú na objavovanie v jazyku. Zhromažďuje texty centrálne, čo umožňuje vedcom pracovať s rozsiahlym množstvom dát, ktoré by inak nemohli sami zhromaždiť.

Štruktúra a obsah SNK

Súčasná desiata verzia písaného korpusu obsahuje viac ako 1,6 miliardy textových jednotiek (slov vrátane interpunkcie). V jedenástej verzii ich bude viac ako 1,8 miliardy.

Adresa obsahuje názov obce, názov ulice, číslo domu a poštové smerovacie číslo.

Okrem primárneho korpusu existujú aj iné typy korpusov, ako napríklad historický korpus, webový korpus a paralelné (dvojjazyčné) korpusy. Používatelia majú k dispozícii viac ako sto korpusov po registrácii.

Anotácie v SNK

Texty v SNK sú obohatené o jazykové informácie - anotácie. Medzi ne patrí priradenie základného tvaru slova (lema), morfologická a slovnodruhová anotácia. Morfologická anotácia obsahuje slovnodruhové a tvarové charakteristiky slov v kontexte. V SNK sa nachádzajú dva druhy morfologickej anotácie a lematizácie: ručná a automatizovaná.

Tabuľka 1: Slovnodruhové značky v SNK

Slovný druhZnačka
Substantívum (podstatné meno)S
Adjektívum (prídavné meno)A
Pronominum (zámeno)P
Numerále (číslovka)N
Verbum (sloveso)V
Particípium (príčastie)G
Adverbium (príslovka)D
Prepozícia (predložka)E
Konjunkcia (spojka)O
Partikula (častica)T
Interjekcia (citoslovce)J
Reflexívum (zvratné zámeno)R
Kondicionálová morfémaY
Abreviácia, značkaW
InterpunkciaZ
Neurčiteľný slovný druhQ
Neslovný element#
Citátový výraz%
Vlastné meno :r
Číslica 0
Chybný zápis :q

Využitie SNK

SNK je užitočný pre bežných ľudí, ktorí majú záujem o jazyk. Môžu ho použiť na zistenie predložkových väzieb, tvarov alebo frekvencie slov. Je však dôležité poznamenať, že korpus nenahrádza kodifikačné príručky.

Ako používať SNK?

Na hlavnej stránke SNK nájdu používatelia informácie o korpusoch a ich štruktúre. Vyhľadávať možno rôznymi spôsobmi, napríklad jednoduchým hľadaním slova alebo slovného spojenia. Výpis vyhľadaného slova zobrazuje jeho výskyty v konkrétnych textoch. Kontext okolo slova je možné rozšíriť do určitého rozsahu.

Korpus nie je elektronická knižnica, takže používateľ nemá k dispozícii celý text. Každému textu je priradená vonkajšia anotácia, ktorá obsahuje informácie o texte, autorovi, názve a roku vydania. Používateľ si môže vyfiltrovať texty podľa týchto parametrov.

Funkcionality SNK

  • Frekvencia: Zobrazuje, ktorý tvar slova je najčastejší.
  • Tvary KWIC (kľúčové slovo v kontexte): Ukazuje graf s najčastejšími tvarmi hľadaného slova.
  • Kolokácie: Ponúka jazykové jednotky, s ktorými sa hľadané slovo spája v kontextoch.
  • Filter: Umožňuje filtrovať výskyty slova podľa rôznych kritérií, napríklad podľa slovného druhu.

Mapka

Mapka je aplikácia, ktorá zobrazuje nárečové ukážky na mape Slovenska. Každý záznam obsahuje zvukovú stopu, nárečový prepis, slovníček a odbornú charakteristiku nárečia. Táto aplikácia je užitočná pre každého, kto má vzťah k nárečiam, a osobitne ju ocenia školy.

Ako sa naučiť používať SNK?

SNK organizuje semináre pre používateľov korpusu. Taktiež existuje youtubový kanál s videonávodmi. Vlani začali vytvárať samostatnú sériu videí "Korpus a školská prax" pre učiteľov.

Slovenský národný korpus je rozsiahly a komplexný nástroj, ktorý ponúka množstvo možností pre skúmanie slovenského jazyka. Jeho bezplatná dostupnosť a rozsiahle funkcionality z neho robia neoceniteľný zdroj pre jazykovedcov, učiteľov, prekladateľov a všetkých, ktorí sa zaujímajú o slovenský jazyk.

tags: #viac #prípadov #v #korpuse

Populárne príspevky: