形態素解析に手を出してみた
第一歩目は,twitterから取得したテキストをMeCabを使って形態素に分割すること。
import twitter import MeCab id = 'xxxxx' pass = 'xxxxx' api = twitter.Api(id, pass) posts = api.GetFriendsTimeline(count=200)
mecabによりテキストを形態素に分解し,その結果をparseddataのタプルに保存する
entry = posts[0].text.encode('utf-8') m = MeCab.Tagger("Ochasen") parsed = m.parseToNode(entry) parseddata = [] while parsed.next: if len(n.surface)>0: parseddata.append((parsed.surface.decode("utf-8"), (parsed.feature.decode("utf-8").rsplit(',')), parsed.cost)) parsed = parsed.next
結果
BOS/EOS,*,*,*,*,*,*,*,* 0
テレ朝 名詞 固有名詞 組織 * * * テレ朝 テレアサ テレアサ 4144 野球 名詞 一般 * * * * 野球 ヤキュウ ヤキュー 1990 ニュース 名詞 一般 * * * * ニュース ニュース ニュース 5521 始まっ 動詞 自立 * * 五段・ラ行 連用タ接続 始まる ハジマッ ハジマッ 12662 た 助動詞 * * * 特殊・タ 基本形 た タ タ 11722
タプルの第一要素が分割した表層文字列、第二要素が解析結果…ここはそれぞれが何か良くまだわかってない&表示方法は「m = MeCab.Tagger("Ochasen")」で指定かな,ってことでマニュアル読む。第三要素が、その要素の「コスト」となっております。とりあえず、解析ができることはわかった。