Slovensko-nemecký paralelný korpus: Podrobný prehľad

Slovenský nemecký jazykový korpus predstavuje rozsiahly a systematicky usporiadaný súbor textov v slovenskom a nemeckom jazyku. Tieto korpusy sú neoceniteľným zdrojom pre jazykový výskum, prekladateľstvo, výučbu jazykov a ďalšie oblasti. Vďaka nim je možné analyzovať jazykové javy, zisťovať frekvenciu používania slov a slovných spojení, skúmať gramatické štruktúry a sledovať vývoj jazyka v čase.

Slovensko-nemecký paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do nemeckého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a nemčiny. Texty sú v korpuse v takej podobe, ako boli napísané, resp. vydané, v starších beletristických dielach je zachovaný dobový pravopis.

Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, nemecké texty sú anotované tagerom TreeTagger.

V celom slovensko-nemeckom paralelnom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketchEngine v nemeckej časti, v slovenskej časti. Vyžadujú sa znalosti práce s NoSketch Engine a CQL.

Prekladať slovo breathtaking ako dychberúci? Zistite viac v slovensko-anglickom paralelnom korpuse

Verzie korpusu

  • Aktuálna verzia par-skde-3.0 bola sprístupnená 24. 2. 2022 v rozsahu takmer 468 mil. tokenov (229,9 mil. tokenov v slovenskej časti a 238,1 mil. tokenov v nemeckej časti).
  • Verzia 2.0 Korpus par-skde-2.0 bol sprístupnený 25. 5. 2016 v rozsahu takmer 446 mil. tokenov (219,8 mil. tokenov v slovenskej časti, 226,4 mil. tokenov v nemeckej časti).
  • Verzia 1.0 Korpus par-skde-1.0 bol sprístupnený 15. 12. 2014 v rozsahu takmer 263 mil. tokenov (129,5 mil. tokenov v slovenskej časti, 133 mil. tokenov v nemeckej časti).

Korpus sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov (prevažne dokumenty Európskej únie). V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v nemeckej časti, v slovenskej časti.

Podkorpus beletrie obsahoval 7,5 mil. tokenov.

Využitie korpusu

Slovenský nemecký korpus má široké spektrum využitia v rôznych oblastiach jazykového výskumu a aplikácií:

  • Jazykový výskum: Korpus umožňuje skúmať jazykové javy, ako sú frekvencia slov, gramatické štruktúry, kolokácie a ďalšie.
  • Prekladateľstvo: Korpus slúži ako zdroj autentických textov v oboch jazykoch, čo pomáha prekladateľom pri hľadaní správnych ekvivalentov a overovaní prekladateľských rozhodnutí.
  • Výučba jazykov: Korpus sa využíva pri tvorbe učebných materiálov, cvičebníc a slovníkov. Pomáha študentom spoznávať reálny jazyk a zlepšovať si svoje jazykové zručnosti.
  • Lexikografia: Korpus je dôležitým zdrojom informácií pre tvorbu slovníkov a encyklopédií. Umožňuje lexikografom sledovať vývoj slovnej zásoby a zaznamenávať nové slová a významy.
  • Spracovanie prirodzeného jazyka: Korpus sa používa na trénovanie algoritmov pre automatickú analýzu textu, strojový preklad a ďalšie aplikácie.

Didaktické materiály a publikácie založené na korpusových dátach

Na základe dát získaných zo Slovenského národného korpusu vznikajú rôzne didaktické materiály a publikácie, ktoré slúžia na výučbu slovenčiny ako cudzieho jazyka. Medzi ne patria napríklad:

Tieto materiály a publikácie pomáhajú študentom a lektorom slovenčiny ako cudzieho jazyka efektívnejšie sa učiť a vyučovať. Poskytujú im autentické príklady jazykových javov a umožňujú im analyzovať a opravovať chyby.

Prehľad verzií slovensko-nemeckého paralelného korpusu
VerziaDátum sprístupneniaRozsah (tokeny)Slovenská časť (tokeny)Nemecká časť (tokeny)
par-skde-3.024. 2. 2022Takmer 468 mil.229,9 mil.238,1 mil.
par-skde-2.025. 5. 2016Takmer 446 mil.219,8 mil.226,4 mil.
par-skde-1.015. 12. 2014Takmer 263 mil.129,5 mil.133 mil.

tags: #nemecko #slovensky #paralelny #korpus

Populárne príspevky: