続・「漢字開き&&表記統一ツール」は作れるか?
先日の話題の続きです。前回は kakasi で試してみましたので、今回は chasen で試してみることにします。前回と同じ例文である
「漢字が多過ぎても読み辛く成ってしまう」
を chasen を使って解析すると、次のようになります。
漢字 カンジ 漢字 名詞-一般 が ガ が 助詞-格助詞-一般 多 オオ 多い 形容詞-自立 形容詞・アウオ段 ガル接続 過ぎ スギ 過ぎる 動詞-非自立 一段 連用形 て テ て 助詞-接続助詞 も モ も 助詞-係助詞 読み ヨミ 読む 動詞-自立 五段・マ行 連用形 辛く ツラク 辛い 形容詞-自立 形容詞・アウオ段 連用テ接続 成っ ナッ 成る 動詞-自立 五段・ラ行 連用タ接続 て テ て 助詞-接続助詞 しまう シマウ しまう 動詞-非自立 五段・ワ行促音便 基本形 。 。 。 記号-句点 EOS
かなり細かい情報が得られたことがわかります。これをもとにすれば、例えば非自立の語を開くとか、ある程度指針を持たせれば何とかなりそうです。「読み辛く成る」のような複合語をどう扱うかは問題ですが、後続の語は原則開く方向で、例外だけをテーブルで持たせれば何とかなりそうです。あるいは、原則開かない方向で、例外だけをテーブルでもたせるというのも"あり"でしょう。
「辛」のような教育漢字外の字は、熟語の一部以外は原則開く方向にしたほうがよいのかもしれません。「成」は教育漢字ですが、これも熟語の一部以外は開くべき漢字でしょう。こうした例外もテーブルですね。
このように、調整用のテーブル(というか辞書)を整備するのが大変ですが、何とかなりそうではあります。もちろん、前回も書いたように、連濁の問題はやはり残っています。
この記事のトラックバックURL:
http://www.kijineko.co.jp/trackback/798
