そらのあお

twitter timelineのポスト統計とか (1)

めりもに言葉を覚えさせたいなー、とりあえずはtwitterとかハイクから覚えさせればそれっぽいかな、でも、じゃあどうやって? ということでとりあえず、まず、いったいどういう言葉が行き交っているんだろうと言うことでtwitter timelineのポスト数の推移と…

mecab with python-bindingでのメソッド

実のところ、pythonから使うのにあたっては、出力を定義するのではなく、メソッドでそれぞれの値にアクセスするのではなかったのか、って言う…。 import MeCab txt = u"好きとか好きとか伝えたい".encode('utf8') m = MeCab.Tagger("-Omerymo") print m.pars…

MeCab まとめ

単語の追加はシステム辞書かユーザー辞書に(id:udzuki:20090912:1252739982)。その際、コストを適当に指定する方法と学習させる方法とある(id:udzuki:20090912:1252740073)。 すきな素性を追加できる 出力フォーマットはいろいろと定義可能(id:udzuki:200909…

about Mecab (7) 単語の学習方法

学習用コーパスからパラメータ(コスト値)を推定することができます。 http://mecab.sourceforge.net/learn.html またこんど。 例) きまぐれ日記: Yahoo!の形態素解析をMeCabで無理やり再現してみる

about Mecab (6) 単語の追加方法

http://mecab.sourceforge.net/dic.html辞書への単語の追加方法は「システム辞書」と「ユーザ辞書」への追加の二種類。 システム辞書への追加 辞書更新が頻繁でないときや, 解析速度を落としたくない時は, 直接 システム辞書を変更するのがよいでしょう. mec…

about MeCab (5) 未知語の処理 (ii)

http://mecab.sourceforge.net/unk.html未知語処理の定義には、char.def と unk.def という2つのファイルを変更 char.def 未知語処理のルールです. unk.def 未知語に対する品詞列のテーブルです. char.def 未知語処理の定義ファイルです. MeCab では, どの文…

about MeCab (4) 未知語の処理 (i)

未知語の推定 指定がなかった場合は適当に未知語の品詞を推定する 指定する場合は -unk-featureオプションを指定 mecab --unk-heature "未知語" ホリエモンさん ホリエモン 未知語 さん 名詞, 普通に解析

about MeCab (3) 品詞IDの指定

品詞を品詞名で出力するのではなく、品詞IDを指定してそれを出力することが出来る http://mecab.sourceforge.net/posid.html定義した品詞IDは出力時に%hを指定することで参照される % mecab -F"%m\t%h\n" -E"EOS\n" 品詞IDの定義 pos-id.defを編集する。 形…

about Mecab (2) 出力フォーマットの定義とその指定方法

ユーザによる出力フォーマットの定義とその指定方法 http://mecab.sourceforge.net/format.html node 一つの形態素を出力,デフォルトは空文字 unk 一つの未知語形態素を出力、デフォルトはnodeと同一フォーマット bos 形態素解析の結果に先立って出力、デフ…

MeCab説明書きの写経 (1)

さて、取得したテキストの解析にあたって、MeCab/CaboChaで実際にどういうことが出来るのかしらということで、MeCabとCaboChaの説明書きを写経 & まとめてみた http://mecab.sourceforge.net/ Google Code Archive - Long-term storage for Google Code Proj…

形態素解析に手を出してみた

第一歩目は,twitterから取得したテキストをMeCabを使って形態素に分割すること。 import twitter import MeCab id = 'xxxxx' pass = 'xxxxx' api = twitter.Api(id, pass) posts = api.GetFriendsTimeline(count=200) mecabによりテキストを形態素に分解し…

あとで

def getLDRWeatherHacks(): url = 'http://weather.livedoor.com/forecast/webservice/rest/v1' parameters['day'] = 'today' parameters['city'] = '01' postdata = urllib.urlencode(parameters) weatherxml = urllib.urlopen(url, postdata).read() tree …

そらのあお (2) : 辞書型を使ってみた

pythonはmatlabにくらべて色々変数の型があるんだなーということで、辞書型を使って反応部分を書きなおしてみた。これで、反応を(比較的簡単に)追加できる、はず。 とはいえ、ちびめりも、反応パターンだけでなんパターンなるんだろう…?まぁいいや (発信…

CaboChaとMeCabをMacOSX Leopardにインストール

MeCabはMacOSXのことえりとかSpotlightとかで使われている、とのことだけど改めてインストール。 汝の隣人のブログを愛せよ | LOVELOG こちらを参考にまねしたらできました。この場合、TinySVMとかは使われないのかな…? 1. MeCabと辞書のインストール http:…

mecab & mecab-pythonをubuntu8.04にインストール手順メモ

なにはともあれ、MeCabを使いたいのだ、と言うことでubuntu8.0.4にMeCabをインストール。 参考にしたのはこちらのページ。 映像奮闘記: MeCab+pythonという組み合わせ http://d.hatena.ne.jp/chicken-800/20090704/1246687295 まずはMeCabと辞書と適当なユー…

そらのあお(1) 「あお:@aoiro_] はじめの一歩

とりあえず、なんとなく書いてみたのでさらしてみます。こういうのってどこに投稿したらいいんだろう、pythonグループ?人工無脳グループ?or codereposだっけ、そういうところかな。 #!/usr/bin/env python # coding: utf-8 # Project : Aya # aoiro v1 # p…

@aoiro_ was born

新しい子はpython製! と言うことでpythonをぼちぼちいじってます。 twitter nameも@aoiro_でとりました。ただ、読み方はまだです。あおい、あお、とかあおっぽい名前になると思ってるんだけど、ただ、あまり一般的な名前だとエゴサーチに困るんですよね。。…