Slovenský národný korpus: Návod na vyhľadávanie v písaných korpusoch

Korpus textov predstavuje špecifický súbor jazykových dát, ktorý sa buduje v elektronickej podobe. Jeho základom sú texty zvyčajne rôznych štýlov a žánrov, ku ktorým sa pridávajú lingvistické informácie na úrovni slova (textovej jednotky), vety aj celého textu. Výkonné vyhľadávacie nástroje umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií.

Lingvisti na základe autentického jazykového materiálu opisujú významy a funkcie slov i ďalších jazykových javov, ich štatistiky, spájateľnosti a pod. Bežným používateľom jazyka môže korpus poslúžiť ako zdroj praktického poznania systému jazyka a overenia či doplnenia jednotlivých poznatkov o reálnom fungovaní jazykových prostriedkov v praxi. Korpus nie je elektronickou knižnicou (texty v ňom sa nedajú čítať ako jeden celok), ani nenahrádza kodifikačné či gramatické príručky.

Slovenský národný korpus (SNK) je vedecko-výskumný projekt budovania elektronického korpusu textov. V Jazykovednom ústave Ľ. Štúra Slovenskej akadémie vied, kde sa SNK začal v r. 2002 budovať s podporou Ministerstva kultúry SR a Ministerstva školstva, vedy, výskumu a športu SR, sa tak systematicky a komplexne spracúva slovenský jazyk a realizuje sa elektronizácia jazykovedného výskumu na Slovensku.

Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV v Bratislave ponúka záujemcom prednášky o Slovenskom národnom korpuse a o jeho častiach, ako aj praktické workshopy zamerané na používanie konkrétnych databáz Slovenského národného korpusu. Prednášky a praktické workshopy sú prispôsobené jednotlivým skupinám používateľov, realizujú sa po dohode v oddelení Slovenského národného korpusu alebo v prostredí záujemcov (napr. školy, akademické pracoviská, vydavateľstvá). Workshopy sa konajú nepravidelne po dohode s konkrétnymi záujemcami v SNK.

Účastníci workshopu budú na stretnutí aktívne pracovať s vybranými korpusmi, preto je potrebné, aby mali vlastné prihlasovacie meno a heslo na prácu s databázami SNK. Zaregistrovať sa možno bezplatne na tejto stránke. Účastníci workshopu si môžu priniesť svoj vlastný počítač alebo môžu využiť počítať v oddelení SNK. V prípade väčšej skupiny záujemcov z jednej inštitúcie je možné po dohode s pracovníkmi Slovenského národného korpusu usporiadať workshop priamo v konkrétnej inštitúcii.

Prehľad dostupných korpusov SNK

Slovenský národný korpus ponúka široké spektrum korpusov, ktoré sa líšia jazykom, zaznamenanou formou, veľkosťou, typom textov, spôsobom uloženia a obdobím, z ktorého texty pochádzajú. Medzi dostupné korpusy patria:

  • Frekvenčné zoznamy lem, tvarov slov a slovných druhov z dostupných korpusov SNK
  • Hlavný korpus písaných textov SNK
  • Ručne morfologicky anotovaný korpus SNK
  • Ďalšie korpusy súčasných písaných textov SNK
  • Paralelné korpusy SNK
  • Webový korpus SNK
  • Korpusy textov z Wikipédie (a Necyklopédie)
  • Špecializované korpusy SNK
  • Súbor korpusov Omnia
  • Časovo vymedzené korpusy
    • Korpus textov z r. 864 - 1843
    • Korpus textov z r. 1843 - 1954
    • Korpus textov denníka SME z r.

Schéma korpusov Slovenského národného korpusu

Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť alebo vyváženosť. Reprezentatívne korpusy sa zameriavajú na prezentáciu národného jazyka v celom rozsahu, pri ich budovaní sa kladie veľký dôraz na zastúpenie rozličných jazykových variet, typov a žánrov textov z rozličných časových období a od rozličných autorov v presne (na základe sociolingvistických výskumov) stanovených rozsahoch.

Písané korpusy

Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Hlavný korpus, označený ako prim, obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Aktuálna verzia korpusu prim-11.0 bola vytvorená 26. 2. 2025 a sprístupnená 11. 4. 2025 v rozsahu vyše 1,85 mld. tokenov. Používateľom ostáva k dispozícii aj predchádzajúca verzia korpusu prim-10.0 v rozsahu vyše 1,68 mld. tokenov.

Nevyhnutnou podmienkou zaradenia textu do korpusu je získanie súhlasu jeho autora alebo držiteľa autorských práv, ktorý je zakotvený v licenčnej zmluve. Rovnako to platí aj o špecializovaných korpusoch (napr. o korpuse ekonomických textov), nie však o korpusoch obsahujúcich texty právnych predpisov, úradných či súdnych rozhodnutí, keďže na ne sa slovenský autorský zákon nevzťahuje. Všetkým poskytovateľom patrí veľká vďaka za ochotu spolupracovať na projekte Slovenského národného korpusu a poskytnúť texty na (nielen) lingvistický výskum.

Ďalšie typy písaných korpusov:

  • Nárečový korpus: Zaraďujú sa existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte.
  • Historické korpusy: Oddelenie SNK ponúka tri korpusy obsahujúce texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
  • Webový korpus: Jednotlivé verzie webového korpusu obsahujú slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované.
  • Paralelné korpusy: Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady, alebo preklady z tretieho jazyka.

Ako získať prístup ku korpusom?

Využitie na vedecko-výskumné ciele je bezplatné, prístup na vyhľadávanie dostane používateľ po zaregistrovaní. Na požiadanie je možné povoliť prístup aj k starším verziám.

Hovorené korpusy

Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky. Tieto nahrávky buď vytvorili pracovníci Slovenského národného korpusu priamo „v teréne“, alebo ich do projektu SNK poskytli zo svojich archívov viaceré inštitúcie.

Okrem základného prepisu výpovedí, ktoré sa zapisujú v súlade s pravidlami spisovnej slovenčiny rovnako ako pri písanom texte (napr. divadelné a filmové scenáre, dialógy v beletrii, prepisy interview v novinách), sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod. Zároveň sa zaznamenávajú veľmi výrazné odchýlky hovoriacich od bežného štandardu v prípade ne/mäkčenia, ne/dĺženia, ne/spodobovania, pričom sa berie do úvahy profil respondenta.

Publikácie a štúdie na báze korpusov slovenčiny

Slovenský národný korpus slúži ako základ pre rozsiahly výskum v oblasti jazykovedy. Tu je prehľad niektorých publikácií a štúdií, ktoré využívajú dáta z korpusov slovenčiny:

  • Prídavné mená v slovenčine. Štúdie a štatistiky na báze korpusov slovenčiny (2025)
  • Jazykovedný časopis, 2025, roč. 76, č. 1 - SLOVKO 2025
  • Jazyk slovenských súdnych rozhodnutí (2024)
  • Jazykovedný časopis, 2023, roč. 74, č. 1 - SLOVKO 2023
  • Časovanie slovies v slovenčine (2022)
  • Jazykovedný časopis, 2021, roč. 72, č. 2 - SLOVKO 2021
  • Slovenský národný korpus. Používanie, príklady, postupy (2020)
  • Filozofické aspekty korpusovej lingvistiky (2020)
  • Človek a jeho jazyk 4. Terminologické inšpirácie profesora Jána Horeckého/Man and His Language 4. Selected Terminological Papers of J. Horecký (2019)
  • Jazykovedný časopis, 2019, roč. 70, č. 2 - SLOVKO 2019
  • Dynamické javy v súčasnej slovenčine a jej výskume (2018)
  • Retrográdny slovník súčasnej slovenčiny. Slovné tvary na báze Slovenského národného korpusu (2018)
  • Frekvenčný slovník hovorenej slovenčiny na báze Slovenského hovoreného korpusu (2018)
  • Slovenský národný korpus. Texty, anotácie, vyhľadávania (2017)
  • Slovník kolokácií prídavných mien v slovenčine (2017)
  • Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu
  • Slovník slovných spojení. Podstatné mená. 2. vyd.
  • Jazykovedný časopis, 2017, roč. 68, č. 2 - SLOVKO 2017
  • Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi
  • SLOVKO 2015. Natural Language Processing, Corpus Linguistics, Lexicography. Počítačové spracovanie prirodzeného jazyka, korpusová lingvistika, lexikografia
  • Jazykovedné štúdie XXXI. Rozvoj jazykových technológií a zdrojov na Slovensku a vo svete (10 rokov Slovenského národného korpusu)
  • Aktuálne otázky terminológie marketingu
  • SLOVKO 2013. Natural Language Processing, Corpus Linguistics, E-learning. Počítačové spracovanie prirodzeného jazyka, korpusová lingvistika, e-learning
  • Slovenský jazyk v digitálnom veku - The Slovak Language in the Digital Age
  • Neologizmy v terminológii marketingu
  • SLOVKO 2011. Natural Language Processing, Multilinguality. Počítačové spracovanie prirodzeného jazyka, multilingválnosť
  • SLOVKO 2009. NLP, Corpus Linguistics, Corpus Based Grammar Research. Počítačové spracovanie prirodzeného jazyka, korpusová lingvistika a gramatický výskum
  • Mondilex
  • SLOVKO 2007. Computer Treatment of Slavic and East European Languages. Slovanské a východoeurópske jazyky v počítačovom spracovaní
  • Insight into the Slovak and Czech Corpus Linguistics
  • SLOVKO 2005. Computer Treatment of Slavic and East European Languages. Slovanské a východoeurópske jazyky v počítačovom spracovaní

tags: #slovenský #národný #korpus #vyhľadávanie #v #písaných

Populárne príspevky: