Skratky a metaznaky používané v Slovenskom národnom korpuse

Slovenský národný korpus (SNK) je rozsiahly zdroj textových dát, ktorý umožňuje hĺbkovú analýzu slovenského jazyka. Na vyhľadávanie v korpuse sa používajú rôzne nástroje a metódy, ktoré využívajú špecifické skratky a metaznaky.

Vyhľadávanie v Slovenskom národnom korpuse

V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne.

Registrácia

Aby ste mohli používať NoSketch Engine, je nevyhnutné sa najprv zaregistrovať.

Jednoduché vyhľadávanie

Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov. Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť podmienky používania SNK.

Citovanie korpusu

Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.

Typy a značky anotácií textov SNK

  • Bibliografická a štýlovo-žánrová anotácia
  • Morfologická anotácia
  • Nástroj na tvorbu morfologických značiek
  • Nástroj na rekonštrukciu morfologických značiek

Metaznaky na vyhľadávanie

Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút=“hľadaný_token“], napr. [lemma=“hlava“]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=“.*ací“ & tag!=“A.*“] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami).

Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.

Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.

Tabuľka metaznakov a ich použitie:

Metaznak Význam metaznaku Príklad použitia Očakávaný výsledok vyhľadávania
. (BODKA) Nahrádza jeden ľubovoľný znak. dom.. domov, domec
* (HVIEZDIČKA) Určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). hm* h, hm, hmm, hmmm
+ (PLUS) Určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. hm+ hm, hmm, hmmm…
{ } (ZLOŽENÉ ZÁTVORKY) V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz opakovať. hm{4} hm, hmm, hmmm, hmmmm
| (ZVISLÁ ČIARA) Má funkciu operátora ALEBO. dom|doma dom, doma
[ ] (HRANATÉ ZÁTVORKY) Definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. [r,s,t,u,v]ám rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú)
( ) (JEDNODUCHÉ ZÁTVORKY) Slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu. (?i)(Kam|tam) Kam, kam, Tam, tam (ignoruje rozlišovanie veľkých a malých písmen)
\ (OBRÁTENÝ LOMENÉ) Pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. napr\. napr. (a nie napri, napre, naprd…)
? (OTÁZNIK) Predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. i?šlo išlo, šlo
^ (STRIEŠKA) Spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. SSfs^2 SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7 (nesmie byť 2 za "s")
& (AMPERSAND) Vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. [tag=“SAms4“ & lemma=“.*ci“] Všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) - ktorých lema sa končí na -ci, napr.
.* (Kombinácia BODKA HVIEZDIČKA) Nahrádza ľubovoľný znak ľubovoľný početkrát. .*istá istá, sebaistá, neistá, hmlistá,…
.+ (Kombinácia BODKA PLUS) Používa sa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. za.+ Všetky slová začínajúce sa písmenami za- (okrem slova za).

Pri zápise vyhľadávaného výrazu môže byť regulárny výraz použitý na ľubovoľnom mieste. Napríklad pomocou zápisu za.+ík možno nájsť všetky slová začínajúce sa písmenami za- a končiace sa na -ík (okrem zaík). Naopak, zápisom .*koreň.* možno nájsť všetky slová s bázou koreň. Dodatočnou úpravou tohto zápisu na .*kore(ň|n).* sa vo výsledku vyhľadávania nájdu i slová obsahujúce alternáciu v danej báze (napríklad i slová koreniny, vykorenený).

Podmienky používané pri vyhľadávaní v korpuse

within

Táto podmienka sa používa na vyhľadávanie výrazov v rámci určitej štruktúry.

Príklad Význam Očakávaný výsledok
[tag=“S.*“]{2} within [tag=“V.*“][]*[tag=“V.*“] Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami. … že to všetko je vlastne vecou histórie, spoločenského poriadku, nanovo sa vo mne ozvali…
[lemma="zelený"] within <doc auth="Vincent Šikula"/> Všetky lemy „zelený“ v dielach Vincenta Šikulu. napr. Aký je zelený, - divili sa chlapci.
[lemma=“hlava“][lemma=“deravý“] within <s/>[]*</s> Zobrazenie spojení dvoch lem hlava a deravý v rámci vety. E.g. Každý má na hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym. Veru tak, hlava opitá, hlava deravá!

containing

Táto podmienka sa používa na vyhľadávanie viet, ktoré obsahujú určité lemy alebo značky.

Príklad Význam Očakávaný výsledok
containing [lemma=“hlava“] [lemma=“deravý“] Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý. napr. Sňal si z hlavy deravý slamený širák, zotrel z čela pot.
[tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3} Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami. napr. vybral z vrecka balíček cigariet a podal

meet

Táto podmienka sa používa na vyhľadávanie kolokácií v určitom rozsahu pozícií.

Príklad Význam
(meet [tag=“S.*“] [tag=“VL.*“] -3 3) Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3.

union

Táto podmienka sa používa na kombinovanie výsledkov vyhľadávania pomocou operátora ALEBO.

Príklad Význam
(union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4)) Funkcia ALEBO pri vyhľadávaní kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť.

Všeobecné podmienky používané v SketchEngine

Tieto podmienky sa používajú na definovanie vzťahov medzi slovami a ich morfologickými kategóriami.

Príklad Význam Očakávaný výsledok
1:[] 2:[] & 1.tag = 2.tag Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné. napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne
1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000 Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse. napr. Táto knižnica sa najčastejšie používa v kombinácii s jazykom **Python**, avšak je možné ju použiť aj s jazykom C++.

tags: #skratky #používané #v #slovenskom #národnom #korpuse

Populárne príspevky: