Slovenský národný korpus Bonito: Čo to je a ako ho používať?
Slovenský národný korpus (SNK) je rozsiahly a systematicky budovaný súbor textov v slovenskom jazyku, ktorý slúži ako cenný zdroj pre jazykovedný výskum, vývoj jazykových technológií a pre širokú kultúrnu verejnosť.
Tento článok poskytuje návod na jeho používanie, s dôrazom na morfologickú anotáciu a lematizáciu, ktoré sú kľúčové pre efektívnu prácu s korpusom.
Korpus predstavuje rozsiahly súbor elektronicky zaznamenaných textov, ktoré pochádzajú z rozličných zdrojov a oblastí. Tieto texty sú reprezentatívnou vzorkou jazyka, ktorá sa využíva na jazykovedný výskum, tvorbu slovníkov a gramatík. Vďaka digitalizácii je možné s textami pracovať efektívne pomocou špecializovaných programov.
Význam korpusu
- Jazykovedný výskum: Korpus je základom pre empirický jazykovedný výskum, poskytuje rozsiahle dáta pre analýzu jazykových javov.
- Informačné technológie: Zohráva dôležitú úlohu vo vývoji informačných technológií, ako sú systémy vyhľadávania textu, automatická analýza jazyka a ďalšie.
- Kultúrny fenomén: Má status kultúrneho fenoménu, pretože predstavuje bohatý zdroj informácií o národnom jazyku.
Ak má byť jazykoveda empirickou disciplínou postavenou na veľkom množstve autentického materiálu a nemá byť len modelom jazyka skonštruovaným na vybraných jazykových javoch, potom stojí pred úlohou zbierať a spracúvať veľké množstvo jazykových dát. Závery robené na vybraných a obmedzených dátach majú primerane obmedzenú hodnotu.
Súčasná jazykoveda nemá inú alternatívu ako elektronizáciu materiálovej základne slovníkov, gramatík a iných príručiek. Korpus ako rozsiahly súbor textov uložených na pamäťových médiách predstavuje obrovskú viacúčelovú elektronickú kartotéku. V klasickej excerpčnej kartotéke sa uchováva záznam obsahujúci vybrané slovo v určitom jazykovom kontexte (1 - 3 vety) a hoci text na excerpčnom lístku obsahuje desiatky slov, vyhľadávanie je možné len podľa kľúčového slova, pretože podľa neho je kartotékový lístok zaradený.
V korpuse, na rozdiel od kartotéky, sa spravidla uchovávajú úplné texty a vhodný vyhľadávací program nám umožňuje rýchlo vyhľadať výskyty akýchkoľvek zadaných slov a slovných spojení a umožňuje automatizovať ich následné vyhodnocovanie a spracovanie podľa rozličných aspektov. Najčastejším formátom, v ktorom používateľ dostáva informáciu z korpusu, je tzv. konkordancia hľadaného slova alebo slovného spojenia. Konkordancia slova má podobu súhrnu jeho výskytov v kontexte, ktorého povahu aj rozsah je možné voliť. Najčastejšie ide o jednoriadkový kontext (od začiatku do konca obrazovky), v ktorého strede je kľúčové slovo.
Korpusový manažér Bonito - ukážka konkordancie s heslovým slovom internet
Morfologická anotácia a lematizácia v SNK
Morfologická anotácia je proces priraďovania slovnodruhových a tvarových charakteristík slovám v kontexte. Lematizácia je priradenie základného (slovníkového) tvaru každému slovu. V SNK existujú dva druhy:
- Ručná anotácia: Nachádza sa v podkorpuse r-mak, ktorá je založená na presných pravidlách a značkách.
- Automatizovaná anotácia: Používa sa pre ostatné korpusy a podkorpusy, pričom využíva tager MorphoDiTa, ktorý bol natrénovaný na podkorpuse r-mak.
Všetky textové jednotky (tokeny) podliehajú morfologickej anotácii. Tokeny sú reťazce znakov medzi medzerami, vrátane interpunkcie, pred ktorú sa medzery pridávajú. Každému tokenu sa priraďujú atribúty lema a tag.
Lema
Lema je základný, slovníkový tvar tokenu. Do verzie r-mak-4.0 sa nerozlišovalo medzi malými a veľkými písmenami, lemy mali vždy malé začiatočné písmeno a propriálnosť sa označovala písmenom "r" na konci tagu. Negované tvary slovies a iných slovných druhov sa lematizujú negovaným tvarom, pričom pri slovesách sa afirmácia a negácia označuje aj na úrovni tagu.
Tag
Tag vyjadruje hodnoty formálnych kategórií relevantných pre daný token. V SNK sa používajú tagy s variabilným počtom znakov, pričom poradie znakov v tagu je záväzné. Na prvom mieste je informácia o slovnom druhu.
Zoznam slovných druhov a značiek
V Slovenskom národnom korpuse sa používajú nasledujúce značky pre slovné druhy:
- Substantívum (S)
- Adjektívum (A)
- Pronominum (P)
- Numerále (N)
- Verbum (V)
- Particípium (G)
- Adverbium (D)
- Prepozícia (E)
- Konjunkcia (O)
- Partikula (T)
- Interjekcia (J)
- Neurčiteľný slovný druh (Q)
- Reflexívum (R)
- Interpunkcia (Z)
- Neslovný element (#)
- Citátový výraz (%)
- Číslica (0)
- Kondicionálová morféma (Y)
- Vlastné meno (:r)
- Abreviácia, značka (W)
- Chybný zápis (:q)
Praktické využitie SNK
SNK je neoceniteľným nástrojom pre:
- Jazykovedcov: Na analýzu jazykových štruktúr, frekvencie slov a slovných spojení, a na štúdium vývoja jazyka.
- Lexikografov: Na tvorbu slovníkov a encyklopédií, kde korpus slúži ako zdroj autentických príkladov použitia slov.
- Prekladateľov: Na overovanie správnosti prekladov a na hľadanie vhodných ekvivalentov v cieľovom jazyku.
- Učiteľov: Na prípravu učebných materiálov a na ilustráciu gramatických a lexikálnych javov.
- Študentov: Na písanie seminárnych a diplomových prác, kde môžu využiť rozsiahle dáta z korpusu na podporu svojich argumentov.
Ako citovať SNK
Pri použití citácie z korpusových databáz alebo výsledkov hľadania z jednotlivých zdrojov SNK, je potrebné odkazovať na konkrétnu verziu a/alebo podkorpus SNK (napr. prim-10.0-public-sane, s-hovor-7.0, r-mak-6.0, par-sken-all-4.0). Verzia prim-10.0 a jej podkorpusy: Slovenský národný korpus - prim-10.0-public-all. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 2022.
Prednášky a workshopy SNK
Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV ponúka prednášky a praktické workshopy zamerané na používanie databáz SNK. Workshopy sa konajú nepravidelne po dohode so záujemcami. Účastníci by mali mať vlastné prihlasovacie meno a heslo na prácu s databázami SNK, ktoré je možné bezplatne získať registráciou.
Vývoj SNK
Vláda Slovenskej republiky schválila projekt vybudovania Národného korpusu slovenského jazyka a elektronizácie jazykovedného výskumu v roku 2002. Cieľom projektu bolo vybudovať pracovisko Národného korpusu slovenského jazyka a zabezpečiť jeho fungovanie v rokoch 2002 - 2006.
Princípy budovania korpusu
- Reprezentatívnosť: Zabezpečenie vyváženého zastúpenia rôznych typov textov a komunikačných oblastí.
- Bibliografická anotácia: Detailné informácie o zdroji textu (autor, vydavateľstvo, rok vydania, žáner).
- Lingvistická anotácia: Označovanie gramatických kategórií každého slova pomocou značiek SGML.
Softvér a nástroje pre prácu s SNK
Na efektívnu prácu s korpusom je potrebný špecializovaný softvér, ktorý umožňuje rýchle vyhľadávanie slov a slovných spojení, automatické vyhodnocovanie a spracovanie dát.
Vyhľadávanie v Slovenskom národnom korpuse
1. NoSketch Engine s dátami SNK
V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne. Aby ste ho mohli používať, je nevyhnutné sa najprv zaregistrovať.
Používatelia vyhľadávajú v korpuse jazykové informácie pomocou korpusového manažéra Manatee a klienta Bonito z Fakulty informatiky Masarykovej univerzity v Brne. Môžu pracovať s veľkým korpusom v rozsahu okolo 350 miliónov slov, ktorý obsahuje všetky texty, alebo si môžu vybrať menší štýlovo vyvážený korpus či osobitné korpusy iba umeleckej, iba publicistickej alebo iba odbornej literatúry.
K dispozícii je aj ručne morfologicky anotovaný korpus a paralelné korpusy, zatiaľ rusko-slovenský a francúzsko-slovenský, ale pripravujú sa už ďalšie: najbližšie chorvátsko-slovenský, česko-slovenský, nemecko-slovenský a anglicko-slovenský paralelný korpus. Osobitnou, ale veľmi často navštevovanou položkou sú lingvistické zdroje a slovníky: tu sú používateľom bezplatne k dispozícii najnovšie kodifikačné príručky a rôzne publikácie z produkcie Jazykovedného ústavu Ľ. Štúra SAV alebo klasických autorov.
2. Jednoduché vyhľadávanie bez registrácie
Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov. Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť podmienky používania SNK.
Ako citovať korpus
Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.
Typy a značky anotácií textov SNK
- Bibliografická a štýlovo-žánrová anotácia
- Morfologická anotácia
- Nástroj na tvorbu morfologických značiek
- Nástroj na rekonštrukciu morfologických značiek
Výber najčastejšie používaných metaznakov na vyhľadávanie
Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút=“hľadaný_token“], napr. [lemma=“hlava“]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=“.*ací“ & tag!=“A.*“] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami).
Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.
Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.
| Metaznak | Význam metaznaku | Príklad použitia | Očakávaný výsledok vyhľadávania |
|---|---|---|---|
| BODKA | nahrádza jeden ľubovoľný znak. | dom.. | domov, domec |
| HVIEZDIČKA | určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). | hm* | h, hm, hmm, hmmm |
| PLUS | určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. | hm+ | hm, hmm, hmmm… |
| { } ZLOŽENÉ ZÁTVORKY | V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. | hm{2} | hm, hmm, hmmm, hmmmm |
| | ZVISLÁ ČIARA | má funkciu operátora ALEBO. | dom|doma | dom, doma |
| [ ] HRANATÉ ZÁTVORKY | definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. | [rstu]ám | rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú) |
| ( ) JEDNODUCHÉ ZÁTVORKY | slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. | (?i)Kam | Kam, kam, Tam, tam |
| (?i) | Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen. | (?i)dom | Dom, dom |
| \ Obrátený znak LOMENÉ | pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. | napr\. | napr. (a nie napri, napre, naprd…) |
| ? OTÁZNIK | predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. | i?šlo | išlo, šlo |
| ^ STRIEŠKA | spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. | SSfs^2 | ka nesmie byť za „s“, teda sú to všetky feminína v singulári okrem genitívnych tvarov, t.j. SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7, ale teoreticky, ak by také značky existovali, može to byť aj napr. SSfsA, SSfsaBBBB,… |
| & AMPERSAND | vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. | [tag=“SAms4″ & lemma=“.*ci“] | všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci, napr. |
| .* Kombinácia metaznakov | Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. | .*istá | Výsledkom vyhľadávania zápisu .*istá budú slová zakončené sufixom -istá, ale aj samotné slovo istá. Napr. istá, sebaistá, neistá, hmlistá,…. |
| .+ Kombinácia BODKA PLUS | sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. | za.+ | Výsledok vyhľadávania zápisu za.+ zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za). Pri zápise vyhľadávaného výrazu môže byť regulárny výraz použitý na ľubovoľnom mieste. Napríklad pomocou zápisu za.+ík možno nájsť všetky slová začínajúce sa písmenami za- a končiace sa na -ík (okrem zaík). Naopak, zápisom .*koreň.* možno nájsť všetky slová s bázou koreň. Dodatočnou úpravou tohto zápisu na .*kore(ň|n).* sa vo výsledku vyhľadávania nájdu i slová obsahujúce alternáciu v danej báze (napríklad i slová koreniny, vykorenený). |
2. Podmienky používané pri vyhľadávaní v korpuse
2.1. within
| Príklad | Význam | Očakávaný výsledok |
|---|---|---|
| [tag=“S.*“]{2} within [tag=“V.*“] []* [tag=“V.*“] | Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami. | … že to všetko je vlastne vecou histórie, spoločenského poriadku, nanovo sa vo mne ozvali… |
| [lemma="zelený"] within <doc auth="Vincent Šikula"/> | Všetky lemy „zelený“ v dielach Vincenta Šikulu. | napr. Aký je zelený, - divili sa chlapci. |
| [lemma=“hlava“] [lemma=“deravý“] within <s/> []* </s> | Zobrazenie spojení dvom lem hlava a deravý v rámci vety, (farebne zvýraznené sú len hľadané tokeny). | E.g. Každý má na hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym. Veru tak, hlava opitá, hlava deravá! |
2.2. containing
| Príklad | Význam | Očakávaný výsledok |
|---|---|---|
| containing [lemma=“hlava“] [lemma=“deravý“] | Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý. | napr. Sňal si z hlavy deravý slamený širák, zotrel z čela pot. |
| [tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3} | Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami. | napr. vybral z vrecka balíček cigariet a podal |
2.3. meet
| Príklad | Význam |
|---|---|
| (meet [tag=“S.*“] [tag=“VL.*“] -3 3) | Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3. |
2.4. union
| Príklad | Význam |
|---|---|
| (union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4)) | Funkcia ALEBO pri vyhľadáaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť. |
3. Všeobecné podmienky používané v SketchEngine
| Príklad | Význam | Očakávaný výsledok |
|---|---|---|
| 1:[] 2:[] & 1.tag = 2.tag | Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné. | napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne |
| 1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000 | Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse. | napr. |
tags: #slovenský #národný #korpus #Bonito #čo #to


