Každý vzdorujeme koronavirové depresi jinak. Já jsem se rozhodl ve volných chvílích opravit a aktualizovat kontrolu pravopisu Hunspell pro spisovnou češtinu. Její systém je vymyšlený velmi důmyslně, ale léta ji nikdo neaktualizoval. Kromě toho dnes máme mnohem víc nástrojů, než měli tvůrci původní verze, a tak ji můžeme celkem snadno opravovat a zdokonalovat. Upravenou verzi kontroly pravopisu dávám k dispozici všem zájemcům na konci článku.
O Hunspellu už jsem jednou psal, ale myslím, že neuškodí, když zopakuji to nejpodstatnější. Jestli si chcete rovnou stáhnout novou verzi Hunspellu, odkaz najdete v posledním odstavci.
Co je to Hunspell
Nejspíš píšete ve Wordu a máte aktivovanou kontrolu pravopisu Windows, ale existuje ještě jeden oblíbený nástroj na kontrolu překlepů. Je to opensourcový nástroj a jmenuje se Hunspell („Hun“ proto, že vznikl v Maďarsku). Jestliže píšete v LibreOffice nebo OpenOffice nebo sázíte v InDesignu a máte v těchto programech nainstalovanou českou kontrolu pravopisu, pravděpodobně vám překlepy hlídá právě Hunspell. Můžete si ho aktivovat i v CAT nástrojích, jako je SDL Trados Studio nebo MemoQ. Anebo v titulkovacích programech, jako je Subtitle Edit nebo SubtitleNEXT. V mnoha programech je to jediná možnost. Hunspell je možná nainstalovaný i v cloudových aplikacích vašich klientů.
Potíž je v tom, že obě nejrozšířenější verze českého Hunspellu dlouho nikdo neaktualizoval a je v nich docela dost chyb. Pokud Hunspell používáte, vyzkoušejte, co řekne na slova jako dipozici, banek, klaceku, tůra, berounsko, jihomoravan, obvzláštní, zařící, antikocepce, ukážka, ponuka, slepíce, nebo vystavě. Nejspíš mnohá z nich bude považovat za správná. (Jistě, mezi těmito příklady jsou i regionální výrazy a tvary přechodníků, ale jsou to slova okrajová, a kdyby ve slovníku zůstala, napáchala by víc škody než užitku.) Naopak spoustu správně napsaných slov vám kontrola pravopisu podtrhne, třeba brzdi, labrador, osmifinále, zbyde, Opavané nebo Instagram.
Výhody Hunspellu
Zatímco do kontroly překlepů Windows můžete doplňovat jen konkrétní tvary slova, do Hunspellu můžete doplnit základní tvar i s kódem, který se postará o jeho vyskloňování (nebo vyčasování či vystupňování) ve všech tvarech. Kdybyste tedy chtěli do kontroly Windows doplnit slovo avokádový ve všech tvarech, museli byste vložit i tvar avokádového, avokádovému, avokádovém atd. Jestli správně počítám, je to dvanáct tvarů. V Hunspellu stačí přidat avokádový/Y. Příznak Y odkazuje do souboru s koncovkami a díky tomu Hunspell pohlídá všechny tvary. Jen je potřeba vědět, jaký kód je ten pravý.
Hledání chyb a doplňování nových slov je trochu jako luštění velké křížovky. Zalíbilo se mi to, a tak jsem si český Hunspell vzal do parády. Snažil jsem se odstranit z jeho slovníku co nejvíc chybně zapsaných slov a co nejvíc zdokonalit soubor s pravidly pro ohýbání slov. Ze slovníku jsem vymazal spoustu zastaralých tvarů (například celulosa) a naopak jsem doplnil více než 6000 nových položek. Některé věci jsem vyřešil úsporněji, takže mnoho tisíc zbytečných řádků ubylo. Ve výsledných souborech zcela jistě zůstávají chyby, které jsem neodhalil. Je to jako hledat mnoho jehel v tunách sena, takže to není úkol pro jednoho člověka. Myslím ale, že výsledná verze mnohem lépe odpovídá dnešnímu úzu než ty předchozí.
Jak jsem Hunspell aktualizoval
A jak jsem postupoval? Informace o slovech jsem čerpal hlavně z jazykových korpusů. Stáhl jsem si seznamy nejčastějších slov a zjišťoval jsem, jestli kontrola pravopisu všechna zná. V korpusech žákovských, kde se dá očekávat zvýšené množství chyb, jsem pak hledal nejčastější chyby a zjišťoval jsem, které z nich Hunspell jako překlep neoznačí. Slovník jsem doplňoval i z různých glosářů, databází a rejstříků, při opravě předpon a přípon jsem zase listoval gramatikami. Vlastně jsem si osvěžil znalosti z české slovotvorby a tvarosloví a díky tomu mě čeština svou složitostí fascinuje ještě víc než předtím (soubor s gramatikou teď má 2885 řádků!). Jestli se chcete dozvědět víc o tom, co všechno jsem upravil a jak jsem postupoval, přečtěte si přibalený soubor readme.txt.
Hunspell si samozřejmě můžete upravovat k obrazu svému. Pokud třeba překládáte odborné texty z určité oblasti a ve slovníku Hunspellu chybí důležité termíny, můžete je snadno doplnit. Nebo můžete některá slova vymazat: když třeba klient vyžaduje, abyste nepsali cokoli, ale cokoliv, můžete si vytvořit verzi Hunspellu určenou pro texty daného klienta a tvary slova cokoli ze slovníku vymazat. Já teď rozšiřuji slovník hovorové češtiny a častých slangových výrazů, protože když překládám a reviduji filmové titulky, kontrole pravopisu se pořád něco nelíbí. A když je podtržených slov příliš, člověk snadno něco přehlédne.
Novou verzi Hunspellu najdete tady. Jste s ní spokojeni? Chtěli byste nějaká slova doplnit nebo naopak vymazat? Budu rád, když mi dáte vědět.
Komentář vložíte zde.
Chcete-li vložit komentář, musíte se přihlásit.