形態素解析に手を出してみた - When I Think of You, I Smile

第一歩目は，twitterから取得したテキストをMeCabを使って形態素に分割すること。

import twitter
import MeCab

id = 'xxxxx'
pass = 'xxxxx'

api = twitter.Api(id, pass)
posts = api.GetFriendsTimeline(count=200)

mecabによりテキストを形態素に分解し，その結果をparseddataのタプルに保存する

entry = posts[0].text.encode('utf-8')

m = MeCab.Tagger("Ochasen")
parsed = m.parseToNode(entry)

parseddata = []
while parsed.next:
    if len(n.surface)>0:
        parseddata.append((parsed.surface.decode("utf-8"), (parsed.feature.decode("utf-8").rsplit(',')), parsed.cost))
    parsed = parsed.next

結果

BOS/EOS,*,*,*,*,*,*,*,* 0

テレ朝名詞固有名詞組織 * * * テレ朝テレアサテレアサ 4144

野球名詞一般 * * * * 野球ヤキュウヤキュー 1990

ニュース名詞一般 * * * * ニュースニュースニュース 5521

始まっ動詞自立 * * 五段・ラ行連用タ接続始まるハジマッハジマッ 12662

た助動詞 * * * 特殊・タ基本形たタタ 11722

タプルの第一要素が分割した表層文字列、第二要素が解析結果…ここはそれぞれが何か良くまだわかってない&表示方法は「m = MeCab.Tagger("Ochasen")」で指定かな，ってことでマニュアル読む。第三要素が、その要素の「コスト」となっております。とりあえず、解析ができることはわかった。

テレ朝	名詞	固有名詞	組織	*	*	*	テレ朝	テレアサ	テレアサ	4144
野球	名詞	一般	*	*	*	*	野球	ヤキュウ	ヤキュー	1990
ニュース	名詞	一般	*	*	*	*	ニュース	ニュース	ニュース	5521
始まっ	動詞	自立	*	*	五段・ラ行	連用タ接続	始まる	ハジマッ	ハジマッ	12662
た	助動詞	*	*	*	特殊・タ	基本形	た	タ	タ	11722