Zakažte „dokáži“, kontrola levopisu aneb Upravte si kontrolu pravopisu

I když se to možná nezdá, naše překlady utváří i automatická kontrola pravopisu. Nevěříte? Vezměte si mé „oblíbené“ tvary slova dokázat: dokáži a dokáží. Když se podíváte do slovníkové části Internetové jazykové příručky, tyto tvary v ní nenajdete. Podle ní jsou totiž „zastarávající, příp. poněkud knižní“. V textech se s nimi ale setkáváme. A v titulcích a v dabingu! Někdy si říkám, jestli některé české televize od překladatelů tento tvar přímo nevyžadují. Skutečnost je ale spíš taková, že si překladatelé jeho stylistickou hodnotu neuvědomují. A protože kontrola pravopisu slovo nepodvlní, překladatele ani nenapadne, že možná není úplně nejvhodnější. Ve Wordu v tomto směru mnoho nezmůžeme, ale málokdo ví, že druhý nejužívanější systém kontroly pravopisu, Hunspell, si můžeme upravit k obrazu svému. Například z jeho slovníku můžeme vymazat nejen dokáži, ale i obváži nebo dotáži. A naopak můžeme doplnit slova, která ve slovníku chybí. Pojďme se podívat, jaké má Hunspell výhody a nevýhody. Některé vyplývají už z toho, že je to nástroj s otevřeným zdrojovým kódem.

Výhody Hunspellu

Slova můžeme přidávat. Přidáváme buď jednotlivé tvary, nebo základní tvary s kódem, který programu řekne, jaké předpony a přípony slovo přibírá. (Jen pozor: běžně dostupné soubory pro češtinu jsou v kódování ISO-8859-2, takže pokud je nejdřív nepřevedete na UTF-8, musíte se podívat, jak správně zapsat některá česká písmena s diakritikou.)
Slova můžeme odebírat, například už zmíněné tvary dokáži. Musíme ale dát pozor na to, abychom tak nepřímo neodebrali i slova odvozená pomocí předpon a přípon. (Konkrétně u slov jako dokáži to nehrozí, protože v tomto případě odeberete jen dokáži/BN, čímž odeberete i tvar nedokáži, dokáží a další, ale ponecháte dokázat/ATN, ze kterého se odvodí dokážu, dokážeš atd., nedokážu atd., dokázán atd.)
Slova můžeme do určité míry i zakazovat, případně nastavit, aby se nenabízela jako návrhy, např. u vulgarismů.
Můžeme upravovat tabulky s předponami a příponami, čímž ovlivníme skloňování, časování a tvorbu dalších slov a tvarů. To už je ale pro pokročilé.
Můžeme si vytvořit různé verze kontroly pravopisu např. pro různé typy textů nebo pro různé klienty. Když například vím, že Evropská komise preferuje cokoli před cokoliv nebo že u slov s dvojím pravopisem dává přednost variantě uvedené v tzv. Pilipově dodatku na prvním místě, můžu ze slovníku vymazat tvary, které se v Lucemburku nesetkávají s nadšením, např. mechanizmus a archív.
Soubory můžeme sdílet s kolegy. Je to jednoduché, protože jde o dva soubory, slovník (.DIC) a přehled afixů (.AFF), které jen vhodně pojmenujeme a uložíme do správné složky. (Jednoduché je to v kombinaci s programem Notepad++. V případě programů OpenOffice a Libre Office je to složitější: soubory musíme zabalit do balíčku tzv. rozšíření.)
Soubory také můžeme společnými silami doplňovat – můžeme například shromažďovat slova, která ve slovníku chybí, a jednou za čas je přidat (ideálně i s kódy odkazujícími na pravidla skloňování, časování apod.).
Existují programy, v nichž můžeme mít aktivováno víc jazyků najednou, včetně dvou verzí jednoho jazyka. To se může hodit u dvoujazyčných dokumentů. Nebo když budeme mít víc slovníků (a případně i souborů s afixy) pro jeden jazyk, například pro různé varianty španělštiny anebo češtiny.
V Tradosu (a možná i v dalších programech) máme při volbě Hunspellu víc možností, než když aktivujeme kontrolu pravopisu Microsoft Office.
Plug-in s Hunspellem nainstalovaný v Notepadu++ (nazvaný DSpellCheck) nabízí zajímavé možnosti, například uložit do schránky všechna slova, která program považuje za chybně napsaná, a poté je vložit do samostatného dokumentu. Tam je můžeme projít a soustředit se jen na ta, která jsou opravdu chybná.
Hunspell je zdarma a pro každého.

Nevýhody Hunspellu

Standardní verze češtiny pro Hunspell, která je volně ke stažení například tady, není tak propracovaná jako spellcheck Microsoft Office. Nicméně existuje minimálně jedna další verze. Distribuuje se s programem SDL Trados Studio a k dispozici ji dává i memoQ, má větší slovník a řada chyb je v ní opravená. Na první pohled je tato verze zhruba dvojnásobná, ale ve skutečnosti je to hlavně díky vlastním jménům, která zas tak velkou přidanou hodnotu nepředstavují.
Ve standardní verzi jsou chyby. Například jihomoravan, Porůří, obvzláštní, zařící, antikocepce. (Podle nich koneckonců můžete zjistit, kterou verzi českého Hunspellu máte.) Vzhledem k celkovému počtu slov jich je ale naštěstí velmi málo.
Je obdivuhodné, že slovník a morfologie pro češtinu jsou na světě a že jsou poměrně kvalitní. Muselo se na nich podílet velké množství nadšenců. Ale zdá se, že původní verzi už delší dobu nikdo dál nerozvíjí.
Mám rád kombinaci Hunspellu a editoru Notepad++. Klávesovou zkratku pro skok na další nalezenou chybu a pro přijímání návrhů si ale musíte vytvořit sami (Nastavení > Asociace klávesových zkratek > Pluginové povely).
Jak už jsem naznačil, přiřadit nově přidanému slovu správný kód není úplně snadné. U většiny podstatných a přídavných jmen se dá systém najít relativně snadno – kódy koneckonců často odpovídají vzorům známým ze školy, např. vzor hrad má kód H a kost zase K. Ale u sloves jsem všechny detaily systému kódů prozatím neodhalil. Rozhodně však není problém přidávat jednotlivé tvary slova.

Kontrola levopisu

V poslední době pracuji téměř výhradně s filmovými titulky. V nich je ve srovnání s jinými texty zvýšený výskyt nespisovných tvarů a ty, jak známo, standardní kontrola pravopisu podtrhává. A podtrhává i spoustu celkem běžných slov včetně vulgarismů. V titulcích tak často vidíte spoustu podtržených slov a velmi snadno u nich přehlédnete případný překlep, protože si řeknete: „Nojo, to je podtržené, protože tam mám koncovku -ej.“ (Mimochodem i v knihách se zvýšeným výskytem nespisovných tvarů většinou nacházím víc překlepů než v knihách psaných spisovně.) Proto když jsem objevil Hunspell, řekl jsem si, že zkusím vytvořit verzi pro obecnou češtinu, která by mi usnadnila nejen práci s titulky, ale i jejich výzkum. Říkám jí „kontrola levopisu“. V souboru AFF jsem upravil koncovky a do souboru DIC jsem doplnil asi 1600 slov. Čerpal jsem je z velkého korpusu profesionálních titulků, z Českého národního korpusu, z příloh v knize Rejstříky v češtině a ze Slovníku nespisovné češtiny. Když teď aktivuji kontrolu pro spisovnou češtinu a zároveň pro češtinu obecnou, falešných poplachů je výrazně méně. U slov s malým počátečním písmenem kontrola u titulků hlásí o 71 % méně nálezů. Když započítám i slova s velkým počátečním písmenem, je to jen o 44 % méně, ale většinou jde o nejrůznější cizí jména, takže s tím se musí počítat a nevadí to. Pokud všechno půjde dobře, už brzy kontrolu levopisu otestuji a nabídnu ji i ostatním kolegům.

Zaujalo mě, že Hunspell existuje pro celou řadu malých jazyků, například pro hornolužickou i dolnolužickou srbštinu. Některé jazyky mají soubor s afixy prázdný a spoléhají jen na slovník obsahující jednotlivé tvary slova, například makedonština. Jiné mají velmi propracovaný soubor s afixy, například už zmíněná hornolužická srbština nebo baskičtina. (Pokud hledáte kontrolu pravopisu pro některý jazyk a nenašli jste ho ve výše odkazovaném úložišti na Githubu, podívejte se na stránky LibreOffice. Když budete chtít se staženými soubory pracovat v programech, které potřebují „volně ložený“ soubor DIC a AFF, v názvu staženého souboru změňte koncovku .oxt na .zip a pak už soubory snadno rozbalíte.)

Na závěr se vraťme k tvaru dokáži. Až do vydání z roku 1921 byl podle Pravidel českého pravopisu přípustný jen tvar dokáži. Vydání z roku 1941 povolovalo dokáži i dokážu a od verze z roku 1993 Pravidla uvádějí jen tvar dokážu. Podobné to bylo s tvary maži a mažu a s dalšími podobnými slovesy. Pokud tedy někdo v dokumentárních filmech trvá na dokáží nebo otáží, vrací se poměrně hluboko do minulosti.

Hůlová při aktivaci kontroly spisovného pravopisu

Ukázka z knihy Petry Hůlové Přes matný sklo při aktivaci kontroly spisovného pravopisu

Hůlová při aktivaci kontroly nespisovného pravopisu

Ukázka z knihy Petry Hůlové Přes matný sklo při aktivaci kontroly nespisovného pravopisu (experimentální, dosud nezveřejněný nástroj)

Hůlová při aktivaci kontroly spisovného i nespisovného pravopisu

Ukázka z knihy Petry Hůlové Přes matný sklo při aktivaci kontroly spisovného i nespisovného pravopisu

při aktivaci spisovné češtiny	59
při aktivaci nespisovné češtiny	13
při aktivaci obou	3

Tabulka k ukázce z knihy Petry Hůlové Přes matný sklo. Počet hlášených chybných slov (jeden tvar se počítá jen jednou) v ukázce na obrázku. V celé knize to je pak cca 965, 300 a 100 slov.

Výhody Hunspellu

Nevýhody Hunspellu

Kontrola levopisu

Nejnovější příspěvky

Archivy

Zakažte „dokáži“, kontrola levopisu aneb Upravte si kontrolu pravopisu