Slovenský národný korpus Bonito: Čo to je a ako ho používať?

Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný súbor textov v slovenskom jazyku, ktorý slúži ako cenný zdroj pre jazykovedný výskum, vývoj jazykových technológií a pre širokú kultúrnu verejnosť.

Tento článok poskytuje návod na jeho používanie, s dôrazom na morfologickú anotáciu a lematizáciu, ktoré sú kľúčové pre efektívnu prácu s korpusom.

Korpus predstavuje rozsiahly súbor elektronicky zaznamenaných textov, ktoré pochádzajú z rozličných zdrojov a oblastí. Tieto texty sú reprezentatívnou vzorkou jazyka, ktorá sa využíva na jazykovedný výskum, tvorbu slovníkov a gramatík. Vďaka digitalizácii je možné s textami pracovať efektívne pomocou špecializovaných programov.

Význam korpusu

  • Jazykovedný výskum: Korpus je základom pre empirický jazykovedný výskum, poskytuje rozsiahle dáta pre analýzu jazykových javov.
  • Informačné technológie: Zohráva dôležitú úlohu vo vývoji informačných technológií, ako sú systémy vyhľadávania textu, automatická analýza jazyka a ďalšie.
  • Kultúrny fenomén: Má status kultúrneho fenoménu, pretože predstavuje bohatý zdroj informácií o národnom jazyku.

Ak má byť jazykoveda empirickou disciplínou postavenou na veľkom množstve autentického materiálu a nemá byť len modelom jazyka skonštruovaným na vybraných jazykových javoch, potom stojí pred úlohou zbierať a spracúvať veľké množstvo jazykových dát. Závery robené na vybraných a obmedzených dátach majú primerane obmedzenú hodnotu.

Súčasná jazykoveda nemá inú alternatívu ako elektronizáciu materiálovej základne slovníkov, gramatík a iných príručiek. Korpus ako rozsiahly súbor textov uložených na pamäťových médiách predstavuje obrovskú viacúčelovú elektronickú kartotéku. V klasickej excerpčnej kartotéke sa uchováva záznam obsahujúci vybrané slovo v určitom jazykovom kontexte (1 - 3 vety) a hoci text na excerpčnom lístku obsahuje desiatky slov, vyhľadávanie je možné len podľa kľúčového slova, pretože podľa neho je kartotékový lístok zaradený.

V korpuse, na rozdiel od kartotéky, sa spravidla uchovávajú úplné texty a vhodný vyhľadávací program nám umožňuje rýchlo vyhľadať výskyty akýchkoľvek zadaných slov a slovných spojení a umožňuje automatizovať ich následné vyhodnocovanie a spracovanie podľa rozličných aspektov. Najčastejším formátom, v ktorom používateľ dostáva informáciu z korpusu, je tzv. konkordancia hľadaného slova alebo slovného spojenia. Konkordancia slova má podobu súhrnu jeho výskytov v kontexte, ktorého povahu aj rozsah je možné voliť. Najčastejšie ide o jednoriadkový kontext (od začiatku do konca obrazovky), v ktorého strede je kľúčové slovo.

Korpusový manažér Bonito - ukážka konkordancie s heslovým slovom internet

Morfologická anotácia a lematizácia v SNK

Morfologická anotácia je proces priraďovania slovnodruhových a tvarových charakteristík slovám v kontexte. Lematizácia je priradenie základného (slovníkového) tvaru každému slovu. V SNK existujú dva druhy:

  • Ručná anotácia: Nachádza sa v podkorpuse r-mak, ktorá je založená na presných pravidlách a značkách.
  • Automatizovaná anotácia: Používa sa pre ostatné korpusy a podkorpusy, pričom využíva tager MorphoDiTa, ktorý bol natrénovaný na podkorpuse r-mak.

Všetky textové jednotky (tokeny) podliehajú morfologickej anotácii. Tokeny sú reťazce znakov medzi medzerami, vrátane interpunkcie, pred ktorú sa medzery pridávajú. Každému tokenu sa priraďujú atribúty lema a tag.

Lema

Lema je základný, slovníkový tvar tokenu. Do verzie r-mak-4.0 sa nerozlišovalo medzi malými a veľkými písmenami, lemy mali vždy malé začiatočné písmeno a propriálnosť sa označovala písmenom "r" na konci tagu. Negované tvary slovies a iných slovných druhov sa lematizujú negovaným tvarom, pričom pri slovesách sa afirmácia a negácia označuje aj na úrovni tagu.

Tag

Tag vyjadruje hodnoty formálnych kategórií relevantných pre daný token. V SNK sa používajú tagy s variabilným počtom znakov, pričom poradie znakov v tagu je záväzné. Na prvom mieste je informácia o slovnom druhu.

Zoznam slovných druhov a značiek

V Slovenskom národnom korpuse sa používajú nasledujúce značky pre slovné druhy:

  • Substantívum (S)
  • Adjektívum (A)
  • Pronominum (P)
  • Numerále (N)
  • Verbum (V)
  • Particípium (G)
  • Adverbium (D)
  • Prepozícia (E)
  • Konjunkcia (O)
  • Partikula (T)
  • Interjekcia (J)
  • Neurčiteľný slovný druh (Q)
  • Reflexívum (R)
  • Interpunkcia (Z)
  • Neslovný element (#)
  • Citátový výraz (%)
  • Číslica (0)
  • Kondicionálová morféma (Y)
  • Vlastné meno (:r)
  • Abreviácia, značka (W)
  • Chybný zápis (:q)

Praktické využitie SNK

SNK je neoceniteľným nástrojom pre:

  • Jazykovedcov: Na analýzu jazykových štruktúr, frekvencie slov a slovných spojení, a na štúdium vývoja jazyka.
  • Lexikografov: Na tvorbu slovníkov a encyklopédií, kde korpus slúži ako zdroj autentických príkladov použitia slov.
  • Prekladateľov: Na overovanie správnosti prekladov a na hľadanie vhodných ekvivalentov v cieľovom jazyku.
  • Učiteľov: Na prípravu učebných materiálov a na ilustráciu gramatických a lexikálnych javov.
  • Študentov: Na písanie seminárnych a diplomových prác, kde môžu využiť rozsiahle dáta z korpusu na podporu svojich argumentov.

Ako citovať SNK

Pri použití citácie z korpusových databáz alebo výsledkov hľadania z jednotlivých zdrojov SNK, je potrebné odkazovať na konkrétnu verziu a/alebo podkorpus SNK (napr. prim-10.0-public-sane, s-hovor-7.0, r-mak-6.0, par-sken-all-4.0). Verzia prim-10.0 a jej podkorpusy: Slovenský národný korpus - prim-10.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2022.

Prednášky a workshopy SNK

Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV ponúka prednášky a praktické workshopy zamerané na používanie databáz SNK. Workshopy sa konajú nepravidelne po dohode so záujemcami. Účastníci by mali mať vlastné prihlasovacie meno a heslo na prácu s databázami SNK, ktoré je možné bezplatne získať registráciou.

Vývoj SNK

Vláda Slovenskej republiky schválila projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu v roku 2002. Cieľom projektu bolo vybudovať pracovisko Národného korpusu slovenského jazyka a zabezpečiť jeho fungovanie v rokoch 2002 - 2006.

Princípy budovania korpusu

  • Reprezentatívnosť: Zabezpečenie vyváženého zastúpenia rôznych typov textov a komunikačných oblastí.
  • Bibliografická anotácia: Detailné informácie o zdroji textu (autor, vydavateľstvo, rok vydania, žáner).
  • Lingvistická anotácia: Označovanie gramatických kategórií každého slova pomocou značiek SGML.

Softvér a nástroje pre prácu s SNK

Na efektívnu prácu s korpusom je potrebný špecializovaný softvér, ktorý umožňuje rýchle vyhľadávanie slov a slovných spojení, automatické vyhodnocovanie a spracovanie dát.

Vyhľadávanie v Slovenskom národnom korpuse

1. NoSketch Engine s dátami SNK

V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne. Aby ste ho mohli používať, je nevyhnutné sa najprv zaregistrovať.

Používatelia vyhľadávajú v korpuse jazykové informácie pomocou korpusového manažéra Manatee a klienta Bonito z Fakulty informatiky Masarykovej univerzity v Brne. Môžu pracovať s veľkým korpusom v rozsahu okolo 350 miliónov slov, ktorý obsahuje všetky texty, alebo si môžu vybrať menší štýlovo vyvážený korpus či osobitné korpusy iba umeleckej, iba publicistickej alebo iba odbornej literatúry.

K dispozícii je aj ručne morfologicky anotovaný korpus a paralelné korpusy, zatiaľ rusko-slovenský a francúzsko-slovenský, ale pripravujú sa už ďalšie: najbližšie chorvátsko-slovenský, česko-slovenský, nemecko-slovenský a anglicko-slovenský paralelný korpus. Osobitnou, ale veľmi často navštevovanou položkou sú lingvistické zdroje a slovníky: tu sú používateľom bezplatne k dispozícii najnovšie kodifikačné príručky a rôzne publikácie z produkcie Jazykovedného ústavu Ľ. Štúra SAV alebo klasických autorov.

2. Jednoduché vyhľadávanie bez registrácie

Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov. Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť podmienky používania SNK.

Ako citovať korpus

Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.

Typy a značky anotácií textov SNK

  • Bibliografická a štýlovo-žánrová anotácia
  • Morfologická anotácia
  • Nástroj na tvorbu morfologických značiek
  • Nástroj na rekonštrukciu morfologických značiek

Výber najčastejšie používaných metaznakov na vyhľadávanie

Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút=“hľadaný_token“], napr. [lemma=“hlava“]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=“.*ací“ & tag!=“A.*“] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami).

Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.

Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.

Metaznak Význam metaznaku Príklad použitia Očakávaný výsledok vyhľadávania
BODKA nahrádza jeden ľubovoľný znak. dom.. domov, domec
HVIEZDIČKA určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). hm* h, hm, hmm, hmmm
PLUS určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. hm+ hm, hmm, hmmm…
{ } ZLOŽENÉ ZÁTVORKY V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. hm{2} hm, hmm, hmmm, hmmmm
| ZVISLÁ ČIARA má funkciu operátora ALEBO. dom|doma dom, doma
[ ] HRANATÉ ZÁTVORKY definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. [rstu]ám rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú)
( ) JEDNODUCHÉ ZÁTVORKY slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. (?i)Kam Kam, kam, Tam, tam
(?i) Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen. (?i)dom Dom, dom
\ Obrátený znak LOMENÉ pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. napr\. napr. (a nie napri, napre, naprd…)
? OTÁZNIK predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. i?šlo išlo, šlo
^ STRIEŠKA spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. SSfs^2 ka nesmie byť za „s“, teda sú to všetky feminína v singulári okrem genitívnych tvarov, t.j. SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7, ale teoreticky, ak by také značky existovali, može to byť aj napr. SSfsA, SSfsaBBBB,…
& AMPERSAND vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. [tag=“SAms4″ & lemma=“.*ci“] všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci, napr.
.* Kombinácia metaznakov Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. .*istá Výsledkom vyhľadávania zápisu .*istá budú slová zakončené sufixom -istá, ale aj samotné slovo istá. Napr. istá, sebaistá, neistá, hmlistá,….
.+ Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. za.+ Výsledok vyhľadávania zápisu za.+ zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za). Pri zápise vyhľadávaného výrazu môže byť regulárny výraz použitý na ľubovoľnom mieste. Napríklad pomocou zápisu za.+ík možno nájsť všetky slová začínajúce sa písmenami za- a končiace sa na -ík (okrem zaík). Naopak, zápisom .*koreň.* možno nájsť všetky slová s bázou koreň. Dodatočnou úpravou tohto zápisu na .*kore(ň|n).* sa vo výsledku vyhľadávania nájdu i slová obsahujúce alternáciu v danej báze (napríklad i slová koreniny, vykorenený).

2. Podmienky používané pri vyhľadávaní v korpuse

2.1. within

Príklad Význam Očakávaný výsledok
[tag=“S.*“]{2} within [tag=“V.*“] []* [tag=“V.*“] Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami. … že to všetko je vlastne vecou histórie, spoločenského poriadku, nanovo sa vo mne ozvali…
[lemma="zelený"] within <doc auth="Vincent Šikula"/> Všetky lemy „zelený“ v dielach Vincenta Šikulu. napr. Aký je zelený, - divili sa chlapci.
[lemma=“hlava“] [lemma=“deravý“] within <s/> []* </s> Zobrazenie spojení dvom lem hlava a deravý v rámci vety, (farebne zvýraznené sú len hľadané tokeny). E.g. Každý má na hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym. Veru tak, hlava opitá, hlava deravá!

2.2. containing

Príklad Význam Očakávaný výsledok
containing [lemma=“hlava“] [lemma=“deravý“] Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý. napr. Sňal si z hlavy deravý slamený širák, zotrel z čela pot.
[tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3} Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami. napr. vybral z vrecka balíček cigariet a podal

2.3. meet

Príklad Význam
(meet [tag=“S.*“] [tag=“VL.*“] -3 3) Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3.

2.4. union

Príklad Význam
(union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4)) Funkcia ALEBO pri vyhľadáaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť.

3. Všeobecné podmienky používané v SketchEngine

Príklad Význam Očakávaný výsledok
1:[] 2:[] & 1.tag = 2.tag Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné. napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne
1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000 Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse. napr.

tags: #slovenský #národný #korpus #Bonito #čo #to

Populárne príspevky: