形態素解析に手を出してみた

第一歩目は,twitterから取得したテキストをMeCabを使って形態素に分割すること。

import twitter
import MeCab

id = 'xxxxx'
pass = 'xxxxx'

api = twitter.Api(id, pass)
posts = api.GetFriendsTimeline(count=200)

mecabによりテキストを形態素に分解し,その結果をparseddataのタプルに保存する

entry = posts[0].text.encode('utf-8')

m = MeCab.Tagger("Ochasen")
parsed = m.parseToNode(entry)

parseddata = []
while parsed.next:
    if len(n.surface)>0:
        parseddata.append((parsed.surface.decode("utf-8"), (parsed.feature.decode("utf-8").rsplit(',')), parsed.cost))
    parsed = parsed.next

結果

BOS/EOS,*,*,*,*,*,*,*,* 0

テレ朝 名詞 固有名詞 組織 * * * テレ朝 テレアサ テレアサ 4144
野球 名詞 一般 * * * * 野球 ヤキュウ ヤキュー 1990
ニュース 名詞 一般 * * * * ニュース ニュース ニュース 5521
始まっ 動詞 自立 * * 五段・ラ行 連用タ接続 始まる ハジマッ ハジマッ 12662
助動詞 * * * 特殊・タ 基本形 11722

タプルの第一要素が分割した表層文字列、第二要素が解析結果…ここはそれぞれが何か良くまだわかってない&表示方法は「m = MeCab.Tagger("Ochasen")」で指定かな,ってことでマニュアル読む。第三要素が、その要素の「コスト」となっております。とりあえず、解析ができることはわかった。