Česko-Slovenský Paralelný Korpus: Nástroj pre Jazykový Výskum

Slovenský národný korpus (SNK) je rozsiahly vedecko-výskumný projekt, ktorý sa zameriava na budovanie elektronickej základnej slovnej zásoby. Jeho základom sú texty rôznych štýlov, žánrov a vecných oblastí, doplnené o lingvistické informácie na úrovni slova, vety aj celého textu.

V rámci SNK existuje niekoľko typov korpusov, vrátane paralelného korpusu. Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady, alebo preklady z tretieho jazyka. V tomto článku sa zameriame na česko-slovenský paralelný korpus, jeho charakteristiky a využitie.

Korpus nie je elektronická knižnica, ani nenahrádza kodifikačné príručky. Na základe autentického jazykového materiálu lingvisti opisujú významy a funkcie slov i ďalších jazykových javov.

Získavanie a Spracovanie Dát

Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, sporadickejšie technickým spracovaním vydaného tlačeného diela. Následne prebiehajú technické fázy, napríklad odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu, konverzia do jednotného formátu, segmentácia textu na najmenšie jednotky atď.

Takto segmentovaný text sa môže ďalej značkovať podľa typu korpusu - pridajú sa dodatočné informácie, ako sú bibliografické údaje, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova - lema) alebo na úrovni viet (funkcia vo vete, sémantika) a pod.

Slovenské texty, v prevažnej väčšine preklady, sú do týchto korpusov zaraďované na základe licenčnej zmluvy, cudzojazyčné texty sa pre tento účel získavajú z internetových zdrojov. Na časť zaradených textov do anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu sa autorské práva nevzťahujú, keďže ide o texty európskej legislatívy.

Charakteristika Česko-Slovenského Paralelného Korpusu

Texty v paralelných korpusoch SNK sú spárované na úrovni viet. Hoci každý paralelný korpus oddelenia SNK ponúka obojstranné vyhľadávanie, neznamená to, že v smere zo slovenčiny do cudzieho jazyka ide vždy o originálne slovenské texty a v opačnom smere o originálne cudzojazyčné texty.

Pomer pôvodného a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny - napríklad pri slovensko-českom paralelnom korpuse tvoria vyše 53 % texty, ktorých pôvodný jazyk je slovenčina, kým čeština je pôvodným jazykom len vyše 20 % textov.

V prípade veľkých jazykov, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk.

Využitie Paralelných Korpusov

Paralelné korpusy majú široké využitie v rôznych oblastiach lingvistiky a spracovania jazykov. Medzi hlavné využitia patria:

  • Prekladateľstvo: Paralelné korpusy sú neoceniteľným zdrojom pre prekladateľov, ktorí môžu analyzovať existujúce preklady a hľadať vhodné ekvivalenty pre rôzne slová a frázy.
  • Porovnávacia lingvistika: Umožňujú porovnávať jazykové štruktúry a štylistické preferencie medzi dvoma jazykmi.
  • Strojový preklad: Paralelné korpusy sa používajú na trénovanie systémov strojového prekladu, ktoré sa učia prekladať texty z jedného jazyka do druhého na základe existujúcich prekladov.
  • Výučba jazykov: Korpus býva dobrým zdrojom príkladov potrebných pri výučbe slovenčiny ako cudzieho, ale aj materinského jazyka. Učebný počítačový program môže napríklad obsahovať klasický slovník spolu s menším korpusom, v ktorom sa dajú jednotlivé slová prezerať v kontexte, v akom sa reálne vyskytujú.
  • Lexikografia: Najvýznamnejšou jazykovednou aplikačnou zložkou je lexikografické využitie: veľa korpusov sa budovalo a buduje na podporu tvorby slovníkov a lexikografi sú v súčasnosti azda najčastejšími používateľmi korpusov.

Niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné výskyty slov, frekvencia slov atď., sa používajú aj v nelingvistických aplikáciách. Sem patria napríklad systémy na spracovanie textov (automatická kontrola pravopisu či gramatiky, strojový preklad textov) alebo systémy na rozpoznávanie reči.

Typy Korpusov v SNK

Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Hlavný korpus, označený ako prim, obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955.

Oddelenie SNK ponúka tri korpusy obsahujúce texty v slovenskom jazyku, ktoré vznikli pred rokom 1955. Pre Historický korpus slovenčiny sa vyberali a korpusovo spracovali pramenné materiály v pôvodnom pravopise, vydané predovšetkým v publikáciách Pramene k dejinám slovenčiny, v menšom meradle sa v rámci projektu Slovenského národného korpusu prepisujú dosiaľ nepublikované historické texty.

Jednotlivé verzie webového korpusu obsahujú slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované. Základom prvej verzie webového korpusu z roku 2010 boli dáta poskytnuté na základe spolupráce s Fakultou informatiky MU v Brne. Od tretej verzie webového korpusu majú pracovníci SNK neoceniteľnú možnosť využívať dáta projektu Araneum.

Okrem písaných textov existuje aj hovorený korpus. Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky. Tieto nahrávky buď vytvorili pracovníci Slovenského národného korpusu priamo „v teréne“, alebo ich do projektu SNK poskytli zo svojich archívov viaceré inštitúcie.

Okrem základného prepisu výpovedí, ktoré sa zapisujú v súlade s pravidlami spisovnej slovenčiny rovnako ako pri písanom texte (napr. divadelné a filmové scenáre, dialógy v beletrii, prepisy interview v novinách), sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod.

Dostupnosť a Používanie Korpusu

A hoci sa korpus ako celok sprostredkúva používateľom cez internet, nemajú prístup k celým textom, ako je to v prípade elektronickej knižnice. Korpusový manažér im vždy poskytne iba určitý kontext (spravidla 100 slov), v ktorom sa nachádza hľadaný jazykový prostriedok. Takýchto kontextov môže byť niekoľko tisíc z rôznych diel.

Používatelia vyhľadávajú v korpuse jazykové informácie pomocou korpusového manažéra Manatee a klienta Bonito z Fakulty informatiky Masarykovej univerzity v Brne. Môžu pracovať s veľkým korpusom v rozsahu okolo 350 miliónov slov, ktorý obsahuje všetky texty, alebo si môžu vybrať menší štýlovo vyvážený korpus či osobitné korpusy iba umeleckej, iba publicistickej alebo iba odbornej literatúry.

K dispozícii je aj ručne morfologicky anotovaný korpus a paralelné korpusy, zatiaľ rusko-slovenský a francúzsko-slovenský, ale pripravujú sa už ďalšie: najbližšie chorvátsko-slovenský, česko-slovenský, nemecko-slovenský a anglicko-slovenský paralelný korpus.

Osobitnou, ale veľmi často navštevovanou položkou sú lingvistické zdroje a slovníky: tu sú používateľom bezplatne k dispozícii najnovšie kodifikačné príručky a rôzne publikácie z produkcie Jazykovedného ústavu Ľ. Štúra SAV alebo klasických autorov, napr.

Všetkým poskytovateľom patrí veľká vďaka za ochotu spolupracovať na projekte Slovenského národného korpusu a poskytnúť texty na (nielen) lingvistický výskum.

Tabuľka: Prehľad Korpusov SNK

Typ korpusu Obsah Časové obdobie Charakteristika
Hlavný korpus (prim) Písané texty Po roku 1955 Rôzne štýly, žánre a vecné oblasti
Historický korpus Písané texty Pred rokom 1955 Pôvodný pravopis
Webový korpus Texty z webových stránok Rôzne roky Automaticky stiahnuté a spracované texty
Hovorený korpus Zvukové nahrávky s prepismi Súčasnosť Sociolingvistické informácie o respondentoch
Paralelný korpus Texty v dvoch jazykoch Rôzne Preklady alebo pôvodné texty v dvoch jazykoch

tags: #česko #slovenský #paralelný #korpus

Populárne príspevky: