Čo je to lingvistický korpus?
V kontexte jazyka a vyhľadávania informácií sa korpusom rozumie štruktúrovaná zbierka textov, ktorá sa často používa na lingvistickú analýzu, modelovanie jazyka a strojové učenie. Slovenský národný korpus ako oddelenie Jazykovedného ústavu Ľ. Štúra SAV v Bratislave i elektronická databáza vnútorne štruktúrovaného a uceleného súboru jazykových dát vznikol v roku 2002 v rámci projektu Budovanie Národného korpusu slovenského jazyka a elektronizácia jazykovedného výskumu na Slovensku.
Z viacerých druhov korpusov (napr. písaný - hovorený, jednojazyčný - viacjazyčný, všeobecný - špeciálny, synchrónny - diachrónny) vyhovoval aktuálnym potrebám lingvistického výskumu na Slovensku všeobecný korpus súčasných písaných textov a ako taký sa Slovenský národný korpus (SNK) aj začal budovať.
Je to databáza publikovaných textov - odborných, publicistických a beletristických - zhromaždených na jednom mieste. Spracúvajú sa jednotným spôsobom a sú obohatené o jazykové informácie, my im hovoríme anotácie. V tejto databáze sa dá vyhľadávať a používať rôzne nástroje na prácu s vyhľadaným materiálom.
Je to jazykový zdroj, pomocou ktorého možno skúmať slovenský jazyk v rôznych jeho podobách, nielen v písanej, ale aj v hovorenej, nárečovej, historickej...
Ide o národný projekt a budujeme primárne korpus národného jazyka. S korpusmi sa môžete stretnúť aj na iných pracoviskách, Slovenský národný korpus je špecifický napríklad aj tým, že je dostupný bezplatne. Stačí len registrácia.
Je zdrojom materiálu na lingvistický výskum. Využívajú ho však aj korektori, redaktori, editori, prekladatelia, všetci tí, ktorí pracujú s jazykom. Učitelia si z korpusových dát pripravujú cvičenia pre svojich študentov, ale máme aj používateľov z iných oblastí, napríklad neurológie.
KORPUS NIE JE ELEKTRONICKÁ KNIŽNICA, ANI NENAHRÁDZA KODIFIKAČNÉ PRÍRUČKY.
Niekedy používam príklad tortového korpusu, ktorý kúpite hotový a už ho len niečím doplníte. Presne tak funguje aj Slovenský národný korpus. Je to pripravená materiálová báza a vedci ju používajú nato, aby mohli v jazyku objavovať. Nikto z nás nie je schopný zhromaždiť si sám také množstvo textov. Preto sa texty zhromažďujú centrálne v niečom takom, ako je Slovenský národný korpus.
V súčasnej desiatej verzii písaného korpusu je viac ako 1,6 miliardy textových jednotiek. V najbližších dňoch zverejníme jedenástu verziu, v nej ich bude viac ako 1,8 miliardy.
Bežným používateľom je pre nás vždy niekto, kto má záujem o jazyk. Ak ktosi pracuje v úplne inej oblasti, korpus preňho asi nebude zaujímavý.
Ktokoľvek však môže použiť korpus napríklad na zistenie predložkových väzieb, tvarov alebo frekvencie slov, ak si nie je niečím istý. Tu by som však upozornila, že korpus nenahrádza kodifikačné príručky.
Ľudia sa nás zvyknú pýtať, či predtým, ako text zaradíme do korpusu, ho opravíme, ak je chybný. Nerobíme to, pretože korpus odráža reálny jazyk, aký v súčasnosti je.
Primárny korpus, ktorý zahŕňa súčasný slovenský jazyk, sa buduje z textov od roku 1955. V päťdesiatom treťom roku bola posledná jazyková reforma, a kým sa začala reálne uplatňovať, mohli uplynúť aj dva roky.
V našej ponuke používateľ nájde viac ako sto korpusov. Keď sa zaregistruje, má k nim plný prístup.
V komunikácii s poskytovateľmi sme neustále, texty k nám prichádzajú denne. Novú verziu korpusu vydávame v dvojročných intervaloch. Koncepcia budovania korpusu je postavená na princípe obohacovania, čiže verzia 11 bude obsahovať všetko, čo obsahovala verzia 10, a aj nové texty, ktoré sa nám od poslednej verzie podarilo zazmluvniť.
Na hlavnej stránke Slovenského národného korpusu používatelia nájdu informácie o korpusoch a ich štruktúre. Okrem primárneho korpusu tam nájdu informácie napríklad aj o paralelných, teda dvojjazyčných slovensko-inojazyčných korpusoch. Najväčší z nich je slovensko-anglický. Niektoré z paralelných korpusov obsahujú aj texty z Európskej únie, iné sú zložené len z beletrie. Na začiatku všetkého je teda výber korpusu, v ktorom budeme hľadať.
Myšlienka vzniku národného korpusu na Slovensku sa začala realizovať v roku 2002, keď bolo v rámci Jazykovedného ústavu Ľ. Štúra SAV zriadené oddelenie Slovenského národného korpusu.
Ako vzniká korpus?
Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, sporadickejšie technickým spracovaním vydaného tlačeného diela. Následne prebiehajú technické fázy, napríklad odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu, konverzia do jednotného formátu, segmentácia textu na najmenšie jednotky atď.
Systematický zber dát najrôznejších štýlov, žánrov, autorských či vydavateľských úzov zo všetkých regiónov Slovenska prebieha na základe licenčnej zmluvy o inom (nekomerčnom) použití textov podľa autorského zákona. Texty sa získavajú v elektronickej verzii, ak v takej nie sú dostupné, skenujú sa, rozpoznávajú a rekonštruujú do elektronickej verzie identickej s tlačeným originálom (teda aj s prípadnými preklepmi a chybami). V archíve sa získané texty uchovávajú v získanej podobe so základnou informáciou o ich pôvode, forme a obsahu.
Po odstránení znakov a symbolov editorov a programov, v ktorých texty vznikli, a grafických súčastí (obrázky, tabuľky a pod.) sa texty prevedú do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Ku každému dokumentu sa doplní vonkajšia (bibliografická a štýlovo-žánrová) anotácia.
V ďalšej fáze sa text rozdelený na základné jednotky (slová, interpunkcia, číslice, symboly) lingvisticky značkuje: textu sa pridajú informácie o jeho štruktúre, slovám sa pridajú morfologické informácie na úrovni slov (slovný druh/trieda, morfologické kategórie tvaru slova, základný tvar slova - lema), vetám jazykové informácie na úrovni viet a pod.
Takto segmentovaný text sa môže ďalej značkovať podľa typu korpusu - pridajú sa dodatočné informácie, ako sú bibliografické údaje, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova - lema) alebo na úrovni viet (funkcia vo vete, sémantika) a pod.
Takto spracované texty, ktoré majú od poskytovateľov licenciu na verejné využívanie, sa ako dáta sprístupňujú na internete na presne vymedzené vyhľadávanie (spravidla max. konkrétny tvar slova alebo slov: napr. slovenskými knižnicami - zobrazia sa všetky kontexty v rozsahu max. 100 znakov okolo vyhľadaného spojenia (tzv. konkrétnu morfologickú kategóriu pomocou značky - tagu: SSfp7 - zobrazia sa kontexty substantív [S] so substantívnou paradigmou [S] ženského rodu [f] v množnom čísle [p] v 7.
Na špeciálnejšie výskumy slúžia podkorpusy vytvorené z hlavného korpusu podľa príslušnosti textov k štýlom (publicistické texty, umelecké texty, odborné texty) a osobitný ručne morfologicky anotovaný korpus, na ktorom sa trénujú nástroje na automatizovanú anotáciu. Vyhľadané slová sa dajú usporadúvať podľa frekvencie, podľa spoluvýskytov s inými slovami a pod.
V rámci SNK sa budujú aj paralelné korpusy - spárované rovnaké texty v origináli a v preklade alebo dva preklady toho istého textu. V súčasnosti sú verejne prístupné tri: slovensko-ruský, slovensko-francúzsky, slovensko-český paralelný korpus.
Vzhľadom na to, že databáza SNK má pokrývať slovnú zásobu od roku 1955 (aj v súvise s potrebami koncipovania nového výkladového Slovníka súčasného slovenského jazyka), veľa textov z predchádzajúcich desaťročí je potrebné digitalizovať.
Napriek tomu môžeme povedať, že SNK okrem svojich hlavných cieľov (jazykovedný výskum, výučba slovenčiny ako materinského i ako cudzieho jazyka, počítačové spracovanie prirodzeného jazyka) prispieva aj k záchrane a uchovávaniu kultúrneho dedičstva. Jednak masívnou digitalizáciou starších textov, a to aj starších ako z r. 1955 (sprístupnili sme napr. Opis dnešného stavu prináša výkladový Slovník súčasného slovenského jazyka, ktorý materiálovo vychádza predovšetkým zo SNK, pripravuje sa frekvenčný slovník súčasnej slovenčiny a v pláne sú autorské slovníky významných slovenských autorov.
Použitie korpusu vo vyhľadávačoch
Korpus slúži ako bohatý zdroj lingvistickej analýzy, ktorý pomáha vyhľadávačom pochopiť jazykové vzorce, sémantické vzťahy a kontextové použitie. Vyhľadávače často používajú na spracovanie prirodzeného jazyka modely strojového učenia. Analýzou rôznorodých korpusov môžu vyhľadávače lepšie porozumieť nuansám používateľských dotazov.
Korpusy používané vo vyhľadávačoch sú starostlivo zostavené zbierky rôznych textov vrátane webových stránok, článkov a iného textového obsahu. Niektoré korpusy sú anotované jazykovými informáciami, ako sú značky častí reči, značky entít a sémantické anotácie. Korpus sa indexuje, čím sa vytvorí databáza s možnosťou vyhľadávania, ktorá priraďuje slová alebo frázy k ich umiestneniu v textoch.
Dobre spracovaný a rôznorodý korpus pomáha vyhľadávačom pochopiť zložitosť jazyka, čo vedie k relevantnejším výsledkom vyhľadávania. Tréningom na základe korpusu môžu vyhľadávače lepšie porozumieť dotazom používateľov vrátane synoným, súvisiacich výrazov a kontextu. Korpusy prispievajú k rozvoju možností sémantického vyhľadávania.
Korpus slúži ako základný súbor údajov na trénovanie jazykových modelov, čo umožňuje vyhľadávačom pochopiť a interpretovať požiadavky používateľov s vysokou presnosťou. Jazyková analýza, ktorú korpusy uľahčujú, prispieva k neustálemu zlepšovaniu vyhľadávacích algoritmov, zvyšovaniu relevancie a celkovo lepšiemu používateľskému zážitku z vyhľadávania.
Typy korpusov Slovenského národného korpusu
Oddelenie SNK ponúka rôzne typy korpusov, ktoré sú zamerané na špecifické aspekty slovenského jazyka:- Hlavný korpus (prim): Obsahuje písané texty súčasného slovenského jazyka od roku 1955 z rôznych štýlov, žánrov a oblastí.
- Špecializované korpusy: Zamerané na konkrétne oblasti, napr. ekonomické texty.
- Nárečový korpus: Obsahuje prepisy nárečových zvukových záznamov.
- Historické korpusy: Obsahujú texty v slovenskom jazyku, ktoré vznikli pred rokom 1955.
- Webový korpus: Obsahuje slovenské texty dostupné na webových stránkach.
- Paralelné korpusy: Obsahujú identické texty v dvoch rôznych jazykoch (preklady).
- Hovorené korpusy: Pozostávajú zo zvukových nahrávok prepojených s prepisom zaznamenaných prehovorov.
Tieto korpusy umožňujú komplexný výskum slovenského jazyka v rôznych jeho formách a obdobiach.
Ako používať Slovenský národný korpus?
Používanie Slovenského národného korpusu je pomerne jednoduché, ale vyžaduje si základné znalosti o jeho štruktúre a funkciách. Tu je niekoľko krokov, ako začať:
- Registrácia: Pre prístup k SNK je potrebná registrácia na jeho webovej stránke. Registrácia je bezplatná.
- Výber korpusu: Po prihlásení si vyberte korpus, ktorý chcete prehľadávať (napr. primárny korpus, historický korpus, atď.).
- Vyhľadávanie: Použite jednoduché alebo rozšírené vyhľadávanie na zadanie slova, slovného spojenia alebo gramatickej konštrukcie, ktorú hľadáte.
- Analýza výsledkov: Prehliadnite si kontexty, v ktorých sa hľadaný výraz nachádza. Využite nástroje na triedenie, filtrovanie a frekvenčnú analýzu.
Príklad použitia: Ak chcete zistiť, s akými predložkami sa používa sloveso "písať", použijete funkciu filtra a zadáte, že za slovom "písať" sa musí nachádzať predložka. Potom môžete použiť funkciu frekvencia na zistenie, ktoré predložky sú najčastejšie.
Ďalšie možnosti:
- Kolokácie: Zistite, ktoré slová sa najčastejšie spájajú s hľadaným slovom.
- Trendy: Pozrite si, ako sa používanie určitého slova menilo v čase.
- Mapka: Preskúmajte nárečové ukážky na interaktívnej mape Slovenska.
Pre lepšie pochopenie a efektívne využívanie SNK odporúčame absolvovať semináre alebo si pozrieť videonávody dostupné na webovej stránke Slovenského národného korpusu a na YouTube kanáli.
Slovenský národný korpus je cenný nástroj pre každého, kto sa zaujíma o slovenský jazyk a jeho výskum. Či už ste študent, učiteľ, jazykovedec alebo len nadšenec, SNK vám ponúka množstvo informácií a možností na objavovanie bohatstva slovenského jazyka.
tags: #čo #je #lingvistický #korpus


