Slovensko-nemecký paralelný korpus: Podrobný prehľad

Slovenský nemecký jazykový korpus predstavuje rozsiahly a systematicky usporiadaný súbor textov v slovenskom a nemeckom jazyku. Tieto korpusy sú neoceniteľným zdrojom pre jazykový výskum, prekladateľstvo, výučbu jazykov a ďalšie oblasti. Vďaka nim je možné analyzovať jazykové javy, zisťovať frekvenciu používania slov a slovných spojení, skúmať gramatické štruktúry a sledovať vývoj jazyka v čase.

Slovensko-nemecký paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do nemeckého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a nemčiny. Texty sú v korpuse v takej podobe, ako boli napísané, resp. vydané, v starších beletristických dielach je zachovaný dobový pravopis.

Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, nemecké texty sú anotované tagerom TreeTagger.

V celom slovensko-nemeckom paralelnom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketchEngine v nemeckej časti, v slovenskej časti. Vyžadujú sa znalosti práce s NoSketch Engine a CQL.

Prekladať slovo breathtaking ako dychberúci? Zistite viac v slovensko-anglickom paralelnom korpuse

Verzie korpusu

Aktuálna verzia par-skde-3.0 bola sprístupnená 24. 2. 2022 v rozsahu takmer 468 mil. tokenov (229,9 mil. tokenov v slovenskej časti a 238,1 mil. tokenov v nemeckej časti).
Verzia 2.0 Korpus par-skde-2.0 bol sprístupnený 25. 5. 2016 v rozsahu takmer 446 mil. tokenov (219,8 mil. tokenov v slovenskej časti, 226,4 mil. tokenov v nemeckej časti).
Verzia 1.0 Korpus par-skde-1.0 bol sprístupnený 15. 12. 2014 v rozsahu takmer 263 mil. tokenov (129,5 mil. tokenov v slovenskej časti, 133 mil. tokenov v nemeckej časti).

Korpus sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov (prevažne dokumenty Európskej únie). V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v nemeckej časti, v slovenskej časti.

Podkorpus beletrie obsahoval 7,5 mil. tokenov.

Využitie korpusu

Slovenský nemecký korpus má široké spektrum využitia v rôznych oblastiach jazykového výskumu a aplikácií:

Jazykový výskum: Korpus umožňuje skúmať jazykové javy, ako sú frekvencia slov, gramatické štruktúry, kolokácie a ďalšie.
Prekladateľstvo: Korpus slúži ako zdroj autentických textov v oboch jazykoch, čo pomáha prekladateľom pri hľadaní správnych ekvivalentov a overovaní prekladateľských rozhodnutí.
Výučba jazykov: Korpus sa využíva pri tvorbe učebných materiálov, cvičebníc a slovníkov. Pomáha študentom spoznávať reálny jazyk a zlepšovať si svoje jazykové zručnosti.
Lexikografia: Korpus je dôležitým zdrojom informácií pre tvorbu slovníkov a encyklopédií. Umožňuje lexikografom sledovať vývoj slovnej zásoby a zaznamenávať nové slová a významy.
Spracovanie prirodzeného jazyka: Korpus sa používa na trénovanie algoritmov pre automatickú analýzu textu, strojový preklad a ďalšie aplikácie.

Didaktické materiály a publikácie založené na korpusových dátach

Na základe dát získaných zo Slovenského národného korpusu vznikajú rôzne didaktické materiály a publikácie, ktoré slúžia na výučbu slovenčiny ako cudzieho jazyka. Medzi ne patria napríklad:

Učíme sa na chybách. ERRKORP - akvizičný korpus: Didaktická príručka určená pre vysokoškolských študentov a lektorov slovenčiny ako cudzieho jazyka. Vychádza z dát obsiahnutých v korpuse písaných textov študentov s názvom ERRKORP.
Jazykové chyby v slovenčine ako cudzom jazyku na báze akvizičného korpusu (2024): Editovaná kniha, ktorá prezentuje výsledky analýzy jazykových chýb v slovenčine ako cudzom jazyku na základe akvizičného korpusu ERRKORP 1.0.
Krížom-krážom. Metodická príručka - slovenčina A1: Sprievodný didaktický materiál pre lektorov, ktorí pracujú so sériou učebníc slovenského jazyka ako cudzieho Krížom-krážom.

Tieto materiály a publikácie pomáhajú študentom a lektorom slovenčiny ako cudzieho jazyka efektívnejšie sa učiť a vyučovať. Poskytujú im autentické príklady jazykových javov a umožňujú im analyzovať a opravovať chyby.

Prehľad verzií slovensko-nemeckého paralelného korpusu
Verzia	Dátum sprístupnenia	Rozsah (tokeny)	Slovenská časť (tokeny)	Nemecká časť (tokeny)
par-skde-3.0	24. 2. 2022	Takmer 468 mil.	229,9 mil.	238,1 mil.
par-skde-2.0	25. 5. 2016	Takmer 446 mil.	219,8 mil.	226,4 mil.
par-skde-1.0	15. 12. 2014	Takmer 263 mil.	129,5 mil.	133 mil.

tags: #nemecko #slovensky #paralelny #korpus

Slovensko-nemecký paralelný korpus: Podrobný prehľad

Prekladať slovo breathtaking ako dychberúci? Zistite viac v slovensko-anglickom paralelnom korpuse

Verzie korpusu

Využitie korpusu

Didaktické materiály a publikácie založené na korpusových dátach

Populárne príspevky: