りとるめりもデビュー
めりも(h:id:merrymore)にきょうだいができましたっ。「りとるめりも」という名前で、twitterに生きてます。ハイクめりもに比べてだいぶ幼い感じです。まだ挨拶くらいしかできませんが、どうぞよろしくです。
目次を作ろう (2)
前回の続きで。
効率良い学習の方法は、よく分かりませんが、まずはその分野に必要なことをなんとなく身につけるために、広く浅く文献にあたる、そのうえで実現したいことのためにはどのようなことが必要なのか探し、それを体系的に学習していく、かなぁ、と思ったりします。
さて、人工無脳に携わるとして今後のやってみたいことは、めりものコミュ力アップの他に、1) matlabからもう少し一般的な言語に移行, 2) 学習型人工無脳の成育というのがあります。なので、これについての目次を書いてみようかな、と思うのですが、未知の領域と言うことでなにが必要かとかがよくわからないのでshowyouさんの目次で十分なのかも、とか思ったり。
(1)のもう少し一般的な言語にと言うのは、現在はmatlabを使っているのですが、開発が容易なんだけど、開発環境が高い、汎用性に欠ける、データベースとかを使えない、言語処理には遅い?と言うのがあって、そこを何とかしたいなぁ、と。そこで何を使おうかな、と考えるとmamorukさんのダイアリで自然言語処理ではpythonが多くつかわれるとおっしゃっていたこともあって、pythonかなぁ、と。phythonならとりあえずは、numpyとかscipyとか(聞いたことがある限りでは)演算系ライブラリがそろっているようなのでそこら辺を使える。あと、ha_maちゃんはpython育ち。とかというのも、後押しになっています。
と言う感じで、今後やるとしたら
titleと名前はまたおいおい。
目的:
1) 「実際によくつかわれてる?開発環境」を用いた
2) 親しみやすいインターフェースを備え、対話的にコミュニティに有用な情報を提供し、
3) 好意を表現できる人工無脳の作成
4) を通じた人工無脳の作成方法のレクチャ
(あ、曖昧すぎてもうちょっとなんとかかも…)
目次
1. 人工無脳とかの背景
- 略
2. pythonを使おう
3. 情報の取得
4. 情報の解析
- 文字コードについて
- 特徴量の計算
- 語句の解析
- 文章の展開 (形態素解析)
- 語句の統合 (共起、出現頻度、連接頻度)
- スムーシング処理とか
- 時間軸を考慮した語句の解析
- ホットワード処理とか
- <他にどんなことやられてるんだろう?>
- 語句の解析
- learning, classification, data mining
5. ○○にかんするポストの収集とそれに基づく発話
- 収集・解析
- 特徴量から辞書の作成
- キーワードの抽出
- 文章の作成
6. 特定ユーザを対象としたコミュニケーション
- ほにゃほにゃ
7. ほげほげ
8. ふが
9. かゆ
10. うま
11. まとめと今後の課題
12. 謝辞
こんなかんじかしら。もうちょっと色々やったらまた書きなおしたいな。とはいえ、まぁ、ここらへんは、おいおい。ドメインも更新しなかったし自宅鯖もレン鯖も今ないしなー…。
目次を作ろう (1)
twitterに住まう人工無脳ha_maちゃんの作者id:showyouさんがダイアリにて人工無脳関連の技術を体系的に学ぶにあたっての目次を作っていておもしろそうだったので便乗します。
ここでは、はてなハイクで活動するはてなハイカー「めりも(h:id:merrymore)」について書くとしたらということを目次にしてみました。元ネタは、「勉強はどうやってするか」「技術を体系的に学ぶには」なので、趣旨はだいぶ変わりますが、めりもについての説明をここに書こうとする上では、見通しがすっきりした、という意味で、すごく役立ちました。
それと、こうしてまとめてみると、技術的な説明は大分更新されてきたけど、大事な部分、どうしてめりもがうまれたのか、とかそういう心的な部分をまだ書いてないなーと思ったり。
そういえば、なんか時々言われるのですが、二次創作も三次創作も大歓迎ですよ。
人工無脳「めりも」
1. はじめに
2. ミニブログと人工無脳
この章では、めりもが活動するはてなハイクの特徴とはてなハイクAPIについて説明します。その後、はてなハイクで活躍する他の人工無脳について解説し、めりもの特徴について紹介します。
3. 人工無脳「めりも」
めりもの中身についての説明です。まず、めりもの開発及び実行環境について説明します。それを用いた1)情報の取得 2)情報の解析 3)発話について述べ,最後にそうした情報を活用するためのロギングとログの解析について述べます。
- 実行環境
- Matlab
- ...
- 情報取得
- クローリング
- ...
- 情報解析
- パターンマッチング
- 形態素解析
- 発話
- 定型文処理
- テンプレートをもちいた文章の作成
- ランダム発話
- マルコフ連鎖によるランダム辞書の生成
- 定型文処理
- 統計情報
- ログの作成と活用
4. 各種情報の提供
定型文処理のうち、各種情報を提供する手法について説明します。
- 国内天気予報
- 短時間雨量予報
- 海外天気予報
- BBC Weather forecastに基づく天気予報
- レシピ提案
- Cookpadを用いたレシピ提案
- さくら開花状況のお知らせ
- Yahoo!お花見特集を用いた桜の開花状況
- 地震情報の提供
- xxx
- 統計情報
- 一週間のまとめ
- 海外の写真
5. コミュニケーション
めりもの大事な点としてのコミュニケーション方法について説明します
- 「ありがとう」と「どういたしまして」
- 「いたわり」
- 「いただきます:もう少し」
- 「xxx-1:検討中」
- 「xxx-2:検討中」
6. まとめと今後の課題
7. 謝辞
桜の開花状況お知らせしますっ! (1)
めりもの誕生が三月中旬と言うことで、id:fmht7さんをはじめさまざまな方から、天気予報と併せて桜の開花状況も教えて欲しいなーとアイディアを頂いておりました。
けっこうたくさんいただいてはいたのですが、桜の開花状況を使えるような便利なAPIがなかったことからちょっと躊躇していました。これは、APIがないことで直接情報をWebページから取得しなくてはならなくて、そうすると、
1) まず 情報が集まっている場所がどこかあるかしら
2) Webページの構成が変わってしまうと、来年使えるかどころか途中でも使えなくなってしまうかもしれない
3) 定期的なアクセスは遮断されるかもしれない
ここら辺が理由だったのですが、Yahoo!で桜情報を見つけたので、えいやっと作ってしまいました。4/3にリリース。
めりもサクラ開花実況について説明するよっ!
リリースノート : さくら実況ができるようになりました!
文中に、「サクラ、さくら、桜」の文字が入っていた場合桜の開花状況をお伝えしようとします!
とはいっても、めりもや私が直接見に行くわけにはいかない…>< ので、Yahoo!お花見特集を見に行ってます。
都道府県を聞かれた時は、「Yahoo!お花見特集」の該当する都道府県から適当に4ヵ所選んで開花状況をお応えします。「Yahoo!お花見特集」に載っているスポット名(たとえば「上野恩賜公園」とか)を聞かれた場合はそこの開花状況をお応えしますっ。
と、いうわけで、「Yahoo!お花見特集」に掲載されている場所であれば答えられますのでどうぞお出かけのお参考にしてみてくださいませ。
お花見に行った皆さんのお花見の写真とか、みれたら楽しいなー…とかとかっ!
めりも4歳の記録 (3/3):その他
めりものレシピ推薦について、レシピの聞き方、レシピ推薦の裏側と書いてきました。今回はしてないこととか今後の課題とかについてちょっと。
レシピを探すにあたり、Cookpadに同じものを指すけど違う言葉、例えば「ジャガイモ」と「じゃがいも」で検索した場合は答えが違うのかなーと思っていましたが、そこら辺はcookpadが色々やってくれるみたいで同じ結果が返ってくるみたいです。
Cookpadは特にデータと検索でがんばっているサービスなので、ここらへんの検索結果に関することは特に色々頑張っているようです。と言うことで、めりもの側では特に何も工夫はしていません。
あと、aさんは、甘いものが好き、とか、朝に聞かれてるから朝ご飯ぽいものを、とかそういう推薦ができるようになるといいのですが、いかんせんCookpadを使っているうちはそういうのはちょっと難しいかなぁという感じです。ここら辺は今後の課題ですね。
ほかに、めりもにしてほしいこと、聞きたいことありましたらお気軽にお尋ねくださいませね!