0:00
0:00
Astrounat Brázda
Odvaha nejen číst

Společnost25. 3. 20198 minut

Eurohujera známe od roku 2004

S lingvistou Václavem Cvrčkem z Českého národního korpusu o češtině coby moderním jazyku pro 21. století

Václav Cvrček • Autor: Matěj Stránský

Nejprve pro neznalé: Co vlastně jazykový korpus je?

Jde o elektronický soubor autentických textů, tištěného i mluveného slova, v jednotném formátu, aby byl dobře prohledávatelný. Korpus jazyk systematicky mapuje.

↓ INZERCE
Inzerce Budvar
Inzerce Budvar

Proč se psaný a mluvený jazyk sbírá?

Velký objem takového materiálu reprezentuje to, jak skutečně jazyk používáme. Lze v něm pak vyhledávat jazykové jevy, zejména slova a slovní spojení, srovnávat je, zkoumat jejich okolí, zjišťovat trendy… Korpus je tak schopen – nejen lingvistům, ale i běžným uživatelům – říct něco o užívání jazyka, o jazykových jevech v jejich autentickém kontextu.

Proč je důležitý autentický jazyk?

Pro výzkum je třeba mít data, platí to stejně pro popis jazyka jako pro popis přírody. Zároveň je ale každý soubor textů výpovědí o nás a našem způsobu vnímání reality. To, jaký jazyk používáme, jak strukturujeme chápání světa kolem nás, v tom je každý jazyk jedinečný.

Co přesně se sbírá?

Psaný a mluvený jazyk, a to spontánně mluvený či třeba veřejné projevy. Co se týče tištěného slova, jeho sběr je snadnější, protože materiály jsou snáz dostupné. Povětšinou již existují v elektronické podobě a v korpusu českého jazyka v současnosti představují objem asi čtyř miliard slov. Oproti tomu korpus mluveného slova je chudší, čítá okolo sedmi milionů slov, a je to logické: sběr je náročnější. Audionahrávky se…

Předplaťte si Respekt a nepřicházejte o cenné informace.

Online přístup ke všem článkům a archivu

Články i v audioverzi a mobilní aplikaci
Možnost odemknout články pro blízké
od 150 Kč/měsíc