Slovensko-nemecký paralelný korpus: Podrobný prehľad
Slovenský nemecký jazykový korpus predstavuje rozsiahly a systematicky usporiadaný súbor textov v slovenskom a nemeckom jazyku. Tieto korpusy sú neoceniteľným zdrojom pre jazykový výskum, prekladateľstvo, výučbu jazykov a ďalšie oblasti. Vďaka nim je možné analyzovať jazykové javy, zisťovať frekvenciu používania slov a slovných spojení, skúmať gramatické štruktúry a sledovať vývoj jazyka v čase.
Slovensko-nemecký paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do nemeckého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a nemčiny. Texty sú v korpuse v takej podobe, ako boli napísané, resp. vydané, v starších beletristických dielach je zachovaný dobový pravopis.
Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, nemecké texty sú anotované tagerom TreeTagger.
V celom slovensko-nemeckom paralelnom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketchEngine v nemeckej časti, v slovenskej časti. Vyžadujú sa znalosti práce s NoSketch Engine a CQL.
Prekladať slovo breathtaking ako dychberúci? Zistite viac v slovensko-anglickom paralelnom korpuse
Verzie korpusu
- Aktuálna verzia par-skde-3.0 bola sprístupnená 24. 2. 2022 v rozsahu takmer 468 mil. tokenov (229,9 mil. tokenov v slovenskej časti a 238,1 mil. tokenov v nemeckej časti).
- Verzia 2.0 Korpus par-skde-2.0 bol sprístupnený 25. 5. 2016 v rozsahu takmer 446 mil. tokenov (219,8 mil. tokenov v slovenskej časti, 226,4 mil. tokenov v nemeckej časti).
- Verzia 1.0 Korpus par-skde-1.0 bol sprístupnený 15. 12. 2014 v rozsahu takmer 263 mil. tokenov (129,5 mil. tokenov v slovenskej časti, 133 mil. tokenov v nemeckej časti).
Korpus sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov (prevažne dokumenty Európskej únie). V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v nemeckej časti, v slovenskej časti.
Podkorpus beletrie obsahoval 7,5 mil. tokenov.
Využitie korpusu
Slovenský nemecký korpus má široké spektrum využitia v rôznych oblastiach jazykového výskumu a aplikácií:
- Jazykový výskum: Korpus umožňuje skúmať jazykové javy, ako sú frekvencia slov, gramatické štruktúry, kolokácie a ďalšie.
- Prekladateľstvo: Korpus slúži ako zdroj autentických textov v oboch jazykoch, čo pomáha prekladateľom pri hľadaní správnych ekvivalentov a overovaní prekladateľských rozhodnutí.
- Výučba jazykov: Korpus sa využíva pri tvorbe učebných materiálov, cvičebníc a slovníkov. Pomáha študentom spoznávať reálny jazyk a zlepšovať si svoje jazykové zručnosti.
- Lexikografia: Korpus je dôležitým zdrojom informácií pre tvorbu slovníkov a encyklopédií. Umožňuje lexikografom sledovať vývoj slovnej zásoby a zaznamenávať nové slová a významy.
- Spracovanie prirodzeného jazyka: Korpus sa používa na trénovanie algoritmov pre automatickú analýzu textu, strojový preklad a ďalšie aplikácie.
Didaktické materiály a publikácie založené na korpusových dátach
Na základe dát získaných zo Slovenského národného korpusu vznikajú rôzne didaktické materiály a publikácie, ktoré slúžia na výučbu slovenčiny ako cudzieho jazyka. Medzi ne patria napríklad:
- Učíme sa na chybách. ERRKORP - akvizičný korpus: Didaktická príručka určená pre vysokoškolských študentov a lektorov slovenčiny ako cudzieho jazyka. Vychádza z dát obsiahnutých v korpuse písaných textov študentov s názvom ERRKORP.
- Jazykové chyby v slovenčine ako cudzom jazyku na báze akvizičného korpusu (2024): Editovaná kniha, ktorá prezentuje výsledky analýzy jazykových chýb v slovenčine ako cudzom jazyku na základe akvizičného korpusu ERRKORP 1.0.
- Krížom-krážom. Metodická príručka - slovenčina A1: Sprievodný didaktický materiál pre lektorov, ktorí pracujú so sériou učebníc slovenského jazyka ako cudzieho Krížom-krážom.
Tieto materiály a publikácie pomáhajú študentom a lektorom slovenčiny ako cudzieho jazyka efektívnejšie sa učiť a vyučovať. Poskytujú im autentické príklady jazykových javov a umožňujú im analyzovať a opravovať chyby.
| Verzia | Dátum sprístupnenia | Rozsah (tokeny) | Slovenská časť (tokeny) | Nemecká časť (tokeny) |
|---|---|---|---|---|
| par-skde-3.0 | 24. 2. 2022 | Takmer 468 mil. | 229,9 mil. | 238,1 mil. |
| par-skde-2.0 | 25. 5. 2016 | Takmer 446 mil. | 219,8 mil. | 226,4 mil. |
| par-skde-1.0 | 15. 12. 2014 | Takmer 263 mil. | 129,5 mil. | 133 mil. |
tags: #nemecko #slovensky #paralelny #korpus


