2009-09-12から1日間の記事一覧

MeCab まとめ

単語の追加はシステム辞書かユーザー辞書に(id:udzuki:20090912:1252739982)。その際、コストを適当に指定する方法と学習させる方法とある(id:udzuki:20090912:1252740073)。 すきな素性を追加できる 出力フォーマットはいろいろと定義可能(id:udzuki:200909…

about Mecab (7) 単語の学習方法

学習用コーパスからパラメータ(コスト値)を推定することができます。 http://mecab.sourceforge.net/learn.html またこんど。 例) きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

about Mecab (6) 単語の追加方法

http://mecab.sourceforge.net/dic.html辞書への単語の追加方法は「システム辞書」と「ユーザ辞書」への追加の二種類。 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mec…

about MeCab (5) 未知語の処理 (ii)

http://mecab.sourceforge.net/unk.html未知語処理の定義には、char.def と unk.def という2つのファイルを変更 char.def 未知語処理のルールです. unk.def 未知語に対する品詞列のテーブルです. char.def 未知語処理の定義ファイルです. MeCab では, どの文…

about MeCab (4) 未知語の処理 (i)

未知語の推定 指定がなかった場合は適当に未知語の品詞を推定する 指定する場合は -unk-featureオプションを指定 mecab --unk-heature "未知語" ホリエモンさん ホリエモン 未知語 さん 名詞, 普通に解析

about MeCab (3) 品詞IDの指定

品詞を品詞名で出力するのではなく、品詞IDを指定してそれを出力することが出来る http://mecab.sourceforge.net/posid.html定義した品詞IDは出力時に%hを指定することで参照される % mecab -F"%m\t%h\n" -E"EOS\n" 品詞IDの定義 pos-id.defを編集する。 形…

about Mecab (2) 出力フォーマットの定義とその指定方法

ユーザによる出力フォーマットの定義とその指定方法 http://mecab.sourceforge.net/format.html node 一つの形態素を出力,デフォルトは空文字 unk 一つの未知語形態素を出力、デフォルトはnodeと同一フォーマット bos 形態素解析の結果に先立って出力、デフ…

about Mecab (1) 出力フォーマットについて(i)

http://mecab.sourceforge.net/