Anglicko-Slovenský Paralelný Korpus: Nástroj pre Jazykový Výskum

Slovenský národný korpus (SNK) je vedecko-výskumný projekt budovania elektronickej základnej slovnej zásoby, ktorý predstavuje špecifický súbor jazykových dát. Jeho základom sú texty zvyčajne rôznych štýlov, žánrov a vecných oblastí, ku ktorým sa pridávajú lingvistické informácie na úrovni slova, vety aj celého textu. Výkonné vyhľadávacie nástroje potom umožňujú vyhľadávanie a triedenie skúmaných jazykových prostriedkov a informácií. Na základe tohto autentického jazykového materiálu lingvisti opisujú významy a funkcie slov i ďalších jazykových javov.

V prvom rade je to budovanie korpusu písaných textov a tvorba s tým súvisiacich počítačových nástrojov. Texty sa získavajú na báze licenčnej zmluvy s autormi alebo majiteľmi autorských či distribučných práv, v ktorej sa zaväzujeme využívať korpus výlučne na vedecko-výskumné a učebné ciele.

Používatelia vyhľadávajú v korpuse jazykové informácie pomocou korpusového manažéra Manatee a klienta Bonito z Fakulty informatiky Masarykovej univerzity v Brne. Môžu pracovať s veľkým korpusom v rozsahu okolo 350 miliónov slov, ktorý obsahuje všetky texty, alebo si môžu vybrať menší štýlovo vyvážený korpus či osobitné korpusy iba umeleckej, iba publicistickej alebo iba odbornej literatúry. K dispozícii je aj ručne morfologicky anotovaný korpus a paralelné korpusy, zatiaľ rusko-slovenský a francúzsko-slovenský, ale pripravujú sa už ďalšie: najbližšie chorvátsko-slovenský, česko-slovenský, nemecko-slovenský a anglicko-slovenský paralelný korpus.

V oblasti počítačového spracovania jazyka sa pozorne sleduje každý nový projekt, každý nový partner. Možno je to až neuveriteľné, ale nejde o likvidačnú konkurenciu - ide o spoluprácu, o spracovanie čo najväčšieho počtu jazykov, a každý jazyk si najlepšie spracujú domáci vedci. Kolegovia v Česku prejavujú o rozvoj Slovenského národného korpusu naozaj veľký záujem - čiže už naša existencia, existencia serióznej elektronickej databázy slovenského jazyka a systematická práca v oblasti korpusovej lingvistiky sa dostatočne oceňuje. A čo nám všetci úprimne závidia, to je sprístupňovanie slovníkov a ďalších lingvistických zdrojov širokej verejnosti na internete - to nemá ani jedna z okolitých krajín. Máme dobrú metodiku získavania textov s dôrazom na dodržiavanie autorských práv. Nezahanbíme sa ani v rovine morfologického značkovania textov. Aj paralelné korpusy poskytujú dostatok materiálu na výskum.

Slovenská terminologická databáza predstavuje jeden z našich najnovších príspevkov, hoci to nie je primárne korpusová záležitosť. No z odborných textov v korpuse sa postupne plánuje automatizovaný výber pojmov a súvislostí. Týmto projektom odpovedá Jazykovedný ústav Ľudovíta Štúra na požiadavku odborných kruhov a širokej verejnosti koordinovať vývoj jednotlivých terminológií a celkovú odbornú komunikáciu v slovenčine. Skúšobná verzia databázy v súčasnosti obsahuje vyše 3 000 terminologických záznamov z 11 oblastí.

Typy Korpusov v SNK

Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Hlavný korpus, označený ako prim, obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Nevyhnutnou podmienkou zaradenia textu do korpusu je získanie súhlasu jeho autora alebo držiteľa autorských práv, ktorý je zakotvený v licenčnej zmluve. Rovnako to platí aj o špecializovaných korpusoch (napr. o korpuse ekonomických textov), nie však o korpusoch obsahujúcich texty právnych predpisov, úradných či súdnych rozhodnutí, keďže na ne sa slovenský autorský zákon nevzťahuje.

Do korpusu nárečí SNK sa zaraďujú existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte. Ich jednotné spracovanie korpusovou metodikou a nástrojmi, obohatenie textov o sociolingvistické údaje o informátoroch a explorátoroch, ako aj informácie o pôvode a obsahu nahrávky umožňujú komplexný nárečový výskum.

Oddelenie SNK ponúka tri korpusy obsahujúce texty v slovenskom jazyku, ktoré vznikli pred rokom 1955. Do prvých dvoch korpusov r864az1843-1.0 a r1843az1954-1.0 boli zaradené korpusovo spracované texty z publikácií dostupných v Zlatom fonde SME vďaka spolupráci so spoločnosťou Petit Press, a. s. Významným rozdielom oproti tretiemu korpusu historických textov je fakt, že obsahujú texty v prepise podľa gramatických zásad spisovnej slovenčiny v čase vydania a podľa zásad editorov, resp. vydavateľstiev.

Pre Historický korpus slovenčiny sa vyberali a korpusovo spracovali pramenné materiály v pôvodnom pravopise, vydané predovšetkým v publikáciách Pramene k dejinám slovenčiny, v menšom meradle sa v rámci projektu Slovenského národného korpusu prepisujú dosiaľ nepublikované historické texty.

Jednotlivé verzie webového korpusu obsahujú slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované. Základom prvej verzie webového korpusu z roku 2010 boli dáta poskytnuté na základe spolupráce s Fakultou informatiky MU v Brne. Od tretej verzie webového korpusu majú pracovníci SNK neoceniteľnú možnosť využívať dáta projektu Araneum.

Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky. Tieto nahrávky buď vytvorili pracovníci Slovenského národného korpusu priamo „v teréne“, alebo ich do projektu SNK poskytli zo svojich archívov viaceré inštitúcie.

Okrem základného prepisu výpovedí, ktoré sa zapisujú v súlade s pravidlami spisovnej slovenčiny rovnako ako pri písanom texte (napr. divadelné a filmové scenáre, dialógy v beletrii, prepisy interview v novinách), sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod. Zároveň sa zaznamenávajú veľmi výrazné odchýlky hovoriacich od bežného štandardu v prípade ne/mäkčenia, ne/dĺženia, ne/spodobovania, pričom sa berie do úvahy profil respondenta.

Paralelné korpusy

Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady, alebo preklady z tretieho jazyka. Slovenské texty, v prevažnej väčšine preklady, sú do týchto korpusov zaraďované na základe licenčnej zmluvy, cudzojazyčné texty sa pre tento účel získavajú z internetových zdrojov. Na časť zaradených textov do anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu sa autorské práva nevzťahujú, keďže ide o texty európskej legislatívy.

Texty v paralelných korpusoch SNK sú spárované na úrovni viet. Hoci každý paralelný korpus oddelenia SNK ponúka obojstranné vyhľadávanie, neznamená to, že v smere zo slovenčiny do cudzieho jazyka ide vždy o originálne slovenské texty a v opačnom smere o originálne cudzojazyčné texty. V prípade veľkých jazykov, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk. Pomer pôvodného a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny - napríklad pri slovensko-českom paralelnom korpuse tvoria vyše 53 % texty, ktorých pôvodný jazyk je slovenčina, kým čeština je pôvodným jazykom len vyše 20 % textov.

Medzi paralelné korpusy patrí aj Česko-Slovenský Paralelný Korpus. Aktuálne dáta slovensko-českého paralelného korpusu sú sprístupnené takto:

  • nová verzia podkorpusu beletrie par-skcs-fic-5.0 bola sprístupnená 13. 12. 2018 v rozsahu takmer 31,5 mil. tokenov (15,72 mil. tokenov v slovenskej časti, 15,77 mil. tokenov v českej časti),
  • celý korpus par-skcs-all-4.0, sprístupnený 25. 5. 2016 v rozsahu 418,5 mil. tokenov (209,2 mil. tokenov v slovenskej časti, 209,3 mil. tokenov v českej časti), ostáva k dispozícii v pôvodnej podobe.

Korpus par-skcs-all-4.0 sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov.

  • podkorpus beletrie par-skcs-fic-4.0 (19 mil. tokenov), v ktorom sa nachádza aj populárno-vedecká literatúra, literatúra faktu a pod., obsahuje rovnaké texty ako vo verzii 3.0,
  • podkorpus voľne dostupných textov z par-skcs-all-4.0 obsahuje prevažne preklady právnych textov a správ Európskej únie, počítačových a iných manuálov z tretieho jazyka (angličtiny).

Texty sa dajú stiahnuť tu.

Podkorpus par-skcs-fic-5.0 bol oproti predchádzajúcim verziám rozšírený o vyše 12 mil. tokenov a obsahuje 217 kníh, z toho 116 preložených zo slovenčiny do češtiny, 56 preložených z češtiny do slovenčiny, 3 napísané jedným autorom v slovenčine aj češtine (V. Zamarovský), 28 textov preložených do slovenčiny aj do češtiny z angličtiny, 14 textov preložených do slovenčiny aj do češtiny z iných jazykov.

Všetky texty sú automatizovane zarovnané po vetách. Slovenské texty sú morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, české texty sú anotované tagerom Morče a MorphoDiTa na báze tagsetu použitého v Českom národnom korpuse.

Vyhľadávanie v korpuse je možné viacerými spôsobmi:

  • po zaregistrovaní sa v NoSketch Engine sa dá vyhľadávať v českej časti celej verzie 4.0, v slovenskej časti celej verzie 4.0, resp. v českej časti beletristických textov verzie 5.0, v slovenskej časti beletristických textov verzie 5.0; potrebné sú znalosti práce s NoSketch Engine a CQL,
  • v slovníkovom rozhraní, v ktorom sú dostupné príslušné prekladové ekvivalenty automaticky vybrané z textov v korpuse,
  • v predchádzajúcich verziách je ešte možné vyhľadávať v jednoduchom webovom rozhraní.

Verzia 4.0 Podkorpus par-skcs-fic-4.0 obsahoval rovnaké texty ako vo verzii 3.0.

Verzia 3.0 Korpus par-skcs-all-3.0 bol sprístupnený v januári 2014 v celkovom rozsahu 240 mil. tokenov (119,4 mil. tokenov v slovenskej časti, 119,53 mil. tokenov v českej časti).

Podkorpus beletrie par-skcs-fic-3.0 obsahoval cca 19 mil. tokenov (9,54 mil. tokenov v slovenskej časti, 9,56 mil. tokenov v českej časti).

Celý par-skcs-2.0 z r. 2011 obsahoval 6 433 tisíc párov viet (približne 120 miliónov tokenov v každom jazyku).

Podkorpus beletrie v par-skcs-2.0 obsahoval 740 tisíc párov viet (približne 10 miliónov tokenov v každom jazyku).

Korpus par-skcs-1.0 z r. 2010 obsahoval približne 735 000 párov viet (10 mil. tokenov v každom jazyku). Podkorpus voľne dostupných textov bol vytvorený s podporou grantu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User - Enlarged European Union (EuroMatrixPlus-X).

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ.

Prehľad verzií Česko-Slovenského paralelného korpusu

Verzia Dátum sprístupnenia Celkový rozsah (tokeny) Podkorpus beletrie (tokeny)
par-skcs-fic-5.0 13. 12. 2018 31,5 mil. 31,5 mil.
par-skcs-all-4.0 25. 5. 2016 418,5 mil. 19 mil.
par-skcs-all-3.0 Január 2014 240 mil. 19 mil.
par-skcs-2.0 2011 cca 240 mil. cca 20 mil.
par-skcs-1.0 2010 cca 20 mil.

KORPUS NIE JE ELEKTRONICKÁ KNIŽNICA, ANI NENAHRÁDZA KODIFIKAČNÉ PRÍRUČKY

Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, sporadickejšie technickým spracovaním vydaného tlačeného diela. Následne prebiehajú technické fázy, napríklad odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu, konverzia do jednotného formátu, segmentácia textu na najmenšie jednotky atď. Takto segmentovaný text sa môže ďalej značkovať podľa typu korpusu - pridajú sa dodatočné informácie, ako sú bibliografické údaje, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova - lema) alebo na úrovni viet (funkcia vo vete, sémantika) a pod.

Písané Korpusy:

  • Hlavný korpus prim a špecializované korpusy

Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Hlavný korpus, označený ako prim, obsahuje písané texty súčasného slovenského jazyka z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Nevyhnutnou podmienkou zaradenia textu do korpusu je získanie súhlasu jeho autora alebo držiteľa autorských práv, ktorý je zakotvený v licenčnej zmluve. Rovnako to platí aj o špecializovaných korpusoch (napr. o korpuse ekonomických textov), nie však o korpusoch obsahujúcich texty právnych predpisov, úradných či súdnych rozhodnutí, keďže na ne sa slovenský autorský zákon nevzťahuje.

Všetkým poskytovateľom patrí veľká vďaka za ochotu spolupracovať na projekte Slovenského národného korpusu a poskytnúť texty na (nielen) lingvistický výskum.

tags: #anglicko #slovensky #paralelny #korpus

Populárne príspevky: