I když se to možná nezdá, naše překlady utváří i automatická kontrola pravopisu. Nevěříte? Vezměte si mé „oblíbené“ tvary slova dokázat: dokáži a dokáží. Když se podíváte do slovníkové části Internetové jazykové příručky, tyto tvary v ní nenajdete. Podle ní jsou totiž „zastarávající, příp. poněkud knižní“. V textech se s nimi ale setkáváme. A v titulcích a v dabingu! Někdy si říkám, jestli některé české televize od překladatelů tento tvar přímo nevyžadují. Skutečnost je ale spíš taková, že si překladatelé jeho stylistickou hodnotu neuvědomují. A protože kontrola pravopisu slovo nepodvlní, překladatele ani nenapadne, že možná není úplně nejvhodnější. Ve Wordu v tomto směru mnoho nezmůžeme, ale málokdo ví, že druhý nejužívanější systém kontroly pravopisu, Hunspell, si můžeme upravit k obrazu svému. Například z jeho slovníku můžeme vymazat nejen dokáži, ale i obváži nebo dotáži. A naopak můžeme doplnit slova, která ve slovníku chybí. Pojďme se podívat, jaké má Hunspell výhody a nevýhody. Některé vyplývají už z toho, že je to nástroj s otevřeným zdrojovým kódem.
Výhody Hunspellu
- Slova můžeme přidávat. Přidáváme buď jednotlivé tvary, nebo základní tvary s kódem, který programu řekne, jaké předpony a přípony slovo přibírá. (Jen pozor: běžně dostupné soubory pro češtinu jsou v kódování ISO-8859-2, takže pokud je nejdřív nepřevedete na UTF-8, musíte se podívat, jak správně zapsat některá česká písmena s diakritikou.)
- Slova můžeme odebírat, například už zmíněné tvary dokáži. Musíme ale dát pozor na to, abychom tak nepřímo neodebrali i slova odvozená pomocí předpon a přípon. (Konkrétně u slov jako dokáži to nehrozí, protože v tomto případě odeberete jen dokáži/BN, čímž odeberete i tvar nedokáži, dokáží a další, ale ponecháte dokázat/ATN, ze kterého se odvodí dokážu, dokážeš atd., nedokážu atd., dokázán atd.)
- Slova můžeme do určité míry i zakazovat, případně nastavit, aby se nenabízela jako návrhy, např. u vulgarismů.
- Můžeme upravovat tabulky s předponami a příponami, čímž ovlivníme skloňování, časování a tvorbu dalších slov a tvarů. To už je ale pro pokročilé.
- Můžeme si vytvořit různé verze kontroly pravopisu např. pro různé typy textů nebo pro různé klienty. Když například vím, že Evropská komise preferuje cokoli před cokoliv nebo že u slov s dvojím pravopisem dává přednost variantě uvedené v tzv. Pilipově dodatku na prvním místě, můžu ze slovníku vymazat tvary, které se v Lucemburku nesetkávají s nadšením, např. mechanizmus a archív.
- Soubory můžeme sdílet s kolegy. Je to jednoduché, protože jde o dva soubory, slovník (.DIC) a přehled afixů (.AFF), které jen vhodně pojmenujeme a uložíme do správné složky. (Jednoduché je to v kombinaci s programem Notepad++. V případě programů OpenOffice a Libre Office je to složitější: soubory musíme zabalit do balíčku tzv. rozšíření.)
- Soubory také můžeme společnými silami doplňovat – můžeme například shromažďovat slova, která ve slovníku chybí, a jednou za čas je přidat (ideálně i s kódy odkazujícími na pravidla skloňování, časování apod.).
- Existují programy, v nichž můžeme mít aktivováno víc jazyků najednou, včetně dvou verzí jednoho jazyka. To se může hodit u dvoujazyčných dokumentů. Nebo když budeme mít víc slovníků (a případně i souborů s afixy) pro jeden jazyk, například pro různé varianty španělštiny anebo češtiny.
- V Tradosu (a možná i v dalších programech) máme při volbě Hunspellu víc možností, než když aktivujeme kontrolu pravopisu Microsoft Office.
- Plug-in s Hunspellem nainstalovaný v Notepadu++ (nazvaný DSpellCheck) nabízí zajímavé možnosti, například uložit do schránky všechna slova, která program považuje za chybně napsaná, a poté je vložit do samostatného dokumentu. Tam je můžeme projít a soustředit se jen na ta, která jsou opravdu chybná.
- Hunspell je zdarma a pro každého.
Nevýhody Hunspellu
- Standardní verze češtiny pro Hunspell, která je volně ke stažení například tady, není tak propracovaná jako spellcheck Microsoft Office. Nicméně existuje minimálně jedna další verze. Distribuuje se s programem SDL Trados Studio a k dispozici ji dává i memoQ, má větší slovník a řada chyb je v ní opravená. Na první pohled je tato verze zhruba dvojnásobná, ale ve skutečnosti je to hlavně díky vlastním jménům, která zas tak velkou přidanou hodnotu nepředstavují.
- Ve standardní verzi jsou chyby. Například jihomoravan, Porůří, obvzláštní, zařící, antikocepce. (Podle nich koneckonců můžete zjistit, kterou verzi českého Hunspellu máte.) Vzhledem k celkovému počtu slov jich je ale naštěstí velmi málo.
- Je obdivuhodné, že slovník a morfologie pro češtinu jsou na světě a že jsou poměrně kvalitní. Muselo se na nich podílet velké množství nadšenců. Ale zdá se, že původní verzi už delší dobu nikdo dál nerozvíjí.
- Mám rád kombinaci Hunspellu a editoru Notepad++. Klávesovou zkratku pro skok na další nalezenou chybu a pro přijímání návrhů si ale musíte vytvořit sami (Nastavení > Asociace klávesových zkratek > Pluginové povely).
- Jak už jsem naznačil, přiřadit nově přidanému slovu správný kód není úplně snadné. U většiny podstatných a přídavných jmen se dá systém najít relativně snadno – kódy koneckonců často odpovídají vzorům známým ze školy, např. vzor hrad má kód H a kost zase K. Ale u sloves jsem všechny detaily systému kódů prozatím neodhalil. Rozhodně však není problém přidávat jednotlivé tvary slova.
Kontrola levopisu
V poslední době pracuji téměř výhradně s filmovými titulky. V nich je ve srovnání s jinými texty zvýšený výskyt nespisovných tvarů a ty, jak známo, standardní kontrola pravopisu podtrhává. A podtrhává i spoustu celkem běžných slov včetně vulgarismů. V titulcích tak často vidíte spoustu podtržených slov a velmi snadno u nich přehlédnete případný překlep, protože si řeknete: „Nojo, to je podtržené, protože tam mám koncovku -ej.“ (Mimochodem i v knihách se zvýšeným výskytem nespisovných tvarů většinou nacházím víc překlepů než v knihách psaných spisovně.) Proto když jsem objevil Hunspell, řekl jsem si, že zkusím vytvořit verzi pro obecnou češtinu, která by mi usnadnila nejen práci s titulky, ale i jejich výzkum. Říkám jí „kontrola levopisu“. V souboru AFF jsem upravil koncovky a do souboru DIC jsem doplnil asi 1600 slov. Čerpal jsem je z velkého korpusu profesionálních titulků, z Českého národního korpusu, z příloh v knize Rejstříky v češtině a ze Slovníku nespisovné češtiny. Když teď aktivuji kontrolu pro spisovnou češtinu a zároveň pro češtinu obecnou, falešných poplachů je výrazně méně. U slov s malým počátečním písmenem kontrola u titulků hlásí o 71 % méně nálezů. Když započítám i slova s velkým počátečním písmenem, je to jen o 44 % méně, ale většinou jde o nejrůznější cizí jména, takže s tím se musí počítat a nevadí to. Pokud všechno půjde dobře, už brzy kontrolu levopisu otestuji a nabídnu ji i ostatním kolegům.
Zaujalo mě, že Hunspell existuje pro celou řadu malých jazyků, například pro hornolužickou i dolnolužickou srbštinu. Některé jazyky mají soubor s afixy prázdný a spoléhají jen na slovník obsahující jednotlivé tvary slova, například makedonština. Jiné mají velmi propracovaný soubor s afixy, například už zmíněná hornolužická srbština nebo baskičtina. (Pokud hledáte kontrolu pravopisu pro některý jazyk a nenašli jste ho ve výše odkazovaném úložišti na Githubu, podívejte se na stránky LibreOffice. Když budete chtít se staženými soubory pracovat v programech, které potřebují „volně ložený“ soubor DIC a AFF, v názvu staženého souboru změňte koncovku .oxt na .zip a pak už soubory snadno rozbalíte.)
Na závěr se vraťme k tvaru dokáži. Až do vydání z roku 1921 byl podle Pravidel českého pravopisu přípustný jen tvar dokáži. Vydání z roku 1941 povolovalo dokáži i dokážu a od verze z roku 1993 Pravidla uvádějí jen tvar dokážu. Podobné to bylo s tvary maži a mažu a s dalšími podobnými slovesy. Pokud tedy někdo v dokumentárních filmech trvá na dokáží nebo otáží, vrací se poměrně hluboko do minulosti.
při aktivaci spisovné češtiny | 59 |
při aktivaci nespisovné češtiny | 13 |
při aktivaci obou | 3 |
Tabulka k ukázce z knihy Petry Hůlové Přes matný sklo. Počet hlášených chybných slov (jeden tvar se počítá jen jednou) v ukázce na obrázku. V celé knize to je pak cca 965, 300 a 100 slov.