「漢字開き&&表記統一ツール」は作れるか?
実装者さんのブログで話題になったのですが、「漢字開き&&表記統一ツール」が作れるかどうか少し検討してみました。結論としては、100%の精度は無理だけれども、「ここは開いた方がよいのでは」とアドバイスしてくれるツールぐらいなら作れそうな気がしてきました。なお、漢字を"開く"というのは、かな表記になおすということです。
漢字かな混じり文を入力して、読みを出力する、またはそれに近いツールというのはいくつかあります。有名なところでは kakasi がありますね。これなら、ひらがなに自動的に変換してくれますし、わかち書きも可能です。けれども、ひらがなへの変換が100%正確かというと、決してそんなことはありません。固有名詞や特殊な専門用語など、人間でも読めない字がありますから、これは無理がありません。
kakasi よりもっと細かな解析ができるツールとしては、chasen や mecab のような形態素解析ツールがあります。これらを使えば、単語の分解と読みを得るだけでなく、それぞれの品詞や活用形も得られますので、かなり細かなコントロールができそうです。というわけで、100%の精度は無理としても、漢字かな混じり文の解析はある程度どうにかなりそうです。
では、具体的にどの漢字を開くかですが、この基準を決めるのが結構面倒です。常用漢字以外は開くとか、常用漢字以外が含まれていても"まぜ書き"はやめるとか、文中の漢字とかなの比率を求めて開くかどうかを判断するかとか、あるいは補助用言や形式名詞は開くとか、固有名詞は開かないとか、そういった基準が必要になってくるわけです。
そういえば、主に補助用言なんかの場合だとは思いますが、連濁の処理がうまくいかないことがあるので、これに対応できるようにするかどうかも面倒そうです。例えば、実装者さんのブログにも登場している例文
「漢字が多過ぎても読み辛く成ってしまう」
を、kakasi を使って、わかち書き&かなに変換すると、つぎのようになってしまいます。
「かんじ が おおすぎ ても よみ つらく なって しまう」
つまり、本来であれば、"づらく"と連濁しなければならないところが、"つらく"となってしまっています。これではそのまま使うことはできません。
このように、いくつか難関がありますので、それらを完全にクリアすることはまず無理です。けれども、最初に述べたように、アドバイスツールであれば十分使えるかと思います。そうしたツールがなければ、完全に手作業で行わなければならないのですから。
