[prime-dev: 190] Re: 交ぜ書き辞書のサポート

Back to archive index

akira yamada akira****@arika*****
2004年 1月 28日 (水) 14:41:08 JST


>>>>> In <871xpk1zpt.wl%komat****@taiya*****> 
>>>>>	Hiroyuki Komatsu <komat****@taiya*****> wrote:
> > いえ、「大じょう夫」のようなケースを
> > なんとかすくたいというのが目的です。
> 「大じょう夫」のケースに限れば、「ぶ = 夫」を追加すれば解決します。
> 同様に「よな子」も「よな = 米」を登録すれば解決します。

もちろんそうなのですが、
他にもそういうケースがないかどうかを
見てみるのがよいのかなと考えています。

愛憎後知恵

パッとは思い付きませんが、
他にも何か変わったケースがあるかもしれないなあと。

たとえば、「陰陽師」のようなのだと
正確には「陰」=「おん」、「陽」=「みょう」ではないでしょうが、
「おん陽師」や「おんみょう師」などから「陰陽師」を求められるといいな
と思うのはなんとなく分かってもらえると思います。

しかし「陽」を「みょう」と読む例は他にはあまりないように思います。
こういうケースでは「陰みょう」、「おん陽」を登録していくしか
ないのかなというのが最初の発想です。

一文字ごとに辞書引きしてみて素直に読みを
復元できないものをピックアップしてみるとよいのかな…。

> 「ぶ = 夫」・「よな = 米」・「か = 神」は次の辞書には登録します。

ありがとうございます。

> 辞書は、明日 (肉の日!) にリリースする予定ですので、他にも必要な
> 単語があれば教えてください。

一文字ごとに辞書引きしてみたところですと、
せっけい→設計のように「っ」が入る語、
めんどう→面倒、ぜんぱん→全般のようににごる語、
時計、暢気など、陰陽師と同じようなケースが
うまくないようです。

# めちゃくちゃおおざっぱなスクリプトを書いて調べたもので、
# ノイズがかなり入ってしまっていますが、
# スクリプトと結果を以下に置いておきます。
# http://arika.org/tmp/t1.rb prime-dictをgdbmにする
# http://arika.org/tmp/t3.rb 辞書引きする
# http://arika.org/tmp/t3.txt 結果

-- 
やまだあきら / akira yamada  <http://arika.org/>
(akira****@arika*****, akira****@vinec***** or akira****@linux*****)



Prime-dev メーリングリストの案内
Back to archive index