2007/10/13(土)オントロジー

オントロジーを扱うプログラム作成中

ini形式で保存されたオントロジーを開いてIsA関係までは引いてこられるようにした.
あとは2つの概念間に共通の要素があるか引ければいいんだけど,実装の仕方に迷ってます.

2007/10/06(土)物体の認識について

不思議の国のアリス症候群

こういう症例があるってことは,脳は3Dオブジェクトとしてものを認識してるってこと?
この病気を持っている人に写真を見せたりモニターの画面を見せたとき,その中に写っている物体単位で拡大・縮小が起きるのだろうか?

数字とかに関しても,一部の数字だけが拡大されたりするのか.
それはあくまでも物体に貼り付けられたデザインの一種として認識されてるだけ?

2007/10/01(月){O, N, K} @ B4

なんか,一週間前に聞いた中間発表のタイトルとは違っている人多数なんだけど...
みなさん,結局こっちにしたいの?

人間の問題解決過程理解のためのACT-Rモデリングに関する研究 O@B4

人間の脳の高次脳機能をACT-R上でモデル化しようという試み.

現在のところ,2桁+2桁の加算問題をモデル化しようとしている.
モデル化し,実際にACT-Rでシミュレーションした結果を表として表してはいたものの,小さすぎて見えませんでした...*1

実際に人間が同じ実験を行っているので,その実験とシミュレーションを比較することが今後の課題.

ACT-R

Adaptive Control of Thought-Rationalの略.
カーネギーメロン大学のジョン・R・アンダーソンらによって開発されたもの.

脳機能毎にモジュールを持つ.
現在提供されているモジュールは,Goal, Declarative, Imaginal, Aural, Visual, Manual, Vocal, Proceduralの8個.
Proceduralを中心に,他のモジュールが連結されている.
Goalに目標状態を設定し,他のモジュールに知識や刺激を入力することで,Goalを達成するまでの手続きをシミュレートすることができる.

計算過程

4ステップで実現している模様.

  1. 数字の認識
  2. 1の位の計算
  3. 桁上げ
  4. 10の位の計算

コメント

Z
  • スライドの作り方に関して
    • 括弧の前後のスペース
    • 参考文献の書き方\author, ``title'', booktitle, publisher, Vol.x, No.x (year) pp.s-e.
    • 医学,解剖学等の用語について\言いたいことは分かるけど,できるだけ今回のイメージにあったものを使って欲しい.
O

ACT-Rは確かに脳のシミュレーションをすることができるが,結局は人間の与えたモデルを元に動作をシミュレートしてるに過ぎない.
人間の計算における,"間違い"をどのように実現するか.
間違えた知識を与えれば確かに間違えるけど,それは知識として間違えているので,"うっかり間違える"といったことをシミュレートすることができない.
乱数で実現するにしても,それは違う気がする.

短時間で急いで計算すると間違えるけど,じっくりやると間違えない.
脳で行われている検算というものを再現できるとより人間らしくなると思う.
それには,単に計算x+y=zを知識としてもつのではなく,数学的な知識をモデル化する必要があるのかもしれない.

計算はそれほど単純ではない.
今回使っている計算モデルはあくまでの数学における理論的な計算方法.
9を10-1とばらして計算する場合もあれば,10の桁から計算する場合もある.

ACT-Rは確かに素晴らしいツールかもしれないが,現状では過剰な期待はできない.

*1 : 自分の目が悪いのか?

推論によるマイニングのための属性分析に関する研究 N@B4

データマイニングにおける問題点は,データマイニングにかける属性はあらかじめ人間が選択していることにある.
ある程度関係がありそうだという属性しか分析の対象にしていない.
与えられた属性を分析し,情報の粒度の調整や背景知識を元にした新しい属性を生成することで,もう少しまともな知識がでるかもしれない.

背景知識は,宣言的知識(意味ネットワークを利用),手続き的知識に分けられる.
宣言的知識は,単語間の関係(IS-A)やその単語が要素として持つもの(PART-OF, HAS-A)を表している.

  • なすは野菜である.
  • キャベツは野菜である.

など.

手続き的知識は,特定の手続きにより,新たな属性を生成できるような知識を表す.

  • なすとキャベツの売り上げを合計すると野菜の売り上げを得られる.
  • 現在の西暦から誕生年の西暦を引くと,その人の年齢が得られる.

など.

属性間の演算はある程度絞り込む必要がある.
西暦に乗除は無理がある.
この当たりを手続き的知識として保存する必要がある.

現在,これらの知識を既存のデータベースから自動的に得るための方法を考えている.

コメント

Z

単位,演算方法に関しては,スケール分析などの研究もある.
必要なら参考にすること.

O

上記の手続き的知識は種類が異なるのでは無いか?
新たな属性を作成すると一言で言っているが,属性の作成(野菜+野菜=野菜の総売上)と属性の変換(昭和+1925=西暦)は異なるもの.
ひとまとめにしないほうがいいのでは?

無闇に知識を1つの知識ベースに保存すると探索範囲が広くなりすぎる.
うまくカテゴリ分けして欲しいところ.
さすがに,なすとかキャベツとか言われたとき,天体を連想する人はいないでしょう.

粒度の調整が難しいところ.

  • キャベツ -> 緑黄色野菜 -> 野菜 -> 食べ物
  • なす -> 野菜 -> 食べ物
  • 鶏肉 -> 肉 -> 食べ物

共通部分である食べ物,まで持っていくか,野菜で止めるか.場合によっては緑黄色野菜で止める必要もあるかもしれない.

分散Web推論エンジン構築の為の協調に関する研究 K@B4

推論エンジンを分散・協調させるための研究.

とりあえず,ソケットを使って複数台で通信を行うことはできる.
テストと言うことで劣化HTTPプロトコルを実装.

今後,KQMLなどagent間通信用言語の実装なども考える.

コメント

Z
  • 推論エンジンの問題点などを正しく理解できていない.
  • 単なる分散推論だけではなく,ウェブサービスを意識して欲しい.*** O

全体像を理解していないのか,よけいなお話が多かった気もする.
プログラミング的なお話,セマンティックウェブのお話は今回の研究では直接関係無いのでは?

実際に作成する分散推論エンジンの全体像,設計をはやいところ確認したい.
なんか,根本的に必要なものが見えていない気がする.
単に動作するプログラムが欲しいのではなく,今後拡張できること,ほどほどの柔軟性も重要.

ソケット通信などは一応動くようにはなった模様.
全体像が見えてないため,ちょっと行き当たりばったりなプログラミングが気になる.
後々,一からコーディングしなおすことになりそうな予感.

総評

一応ほどほどに研究は進んでいる模様.
研究のテーマに関する全体像が無かったのが残念.
研究の全体像を図示し,今現在行っている部分を明確にしてほしい.

あと,プログラムなどを作成するにしても,その設計,目標も明確にして欲しい.
何を作りたいのか伝わらないことがある.

中間発表は5分程度.
一度くらいは練習しておいたほうがいいのでは

2007/02/13(火){M, E, K}@B4

今更研究の内容について言うことは無い.というか,辛口の評価しかできないので,あまり記事にはしたくないが,コメントを求めている人もいるようなので,簡単に内容をまとめて最低限これくらいはやって欲しいことくらい書いておくことにする.

Firefoxの拡張機能を用いたクリックストリーム収集に関する研究 M@B4

発表時間:14:53-15:04(11分)

検討が足りない.忙しいのかもしれないが,もう少し考えてからプログラムを作って欲しい.本来であれば,目的に合わせて仕様を決め,それに合わせてプログラミングするもの.プログラムの進捗に合わせて仕様を決め,改変するものではない.

背景・目的

ポータルサイトのユーザビリティの向上のために,

  • "Webサイトの運営,構築の効率化",
  • "ユーザの行動の把握",
  • "検索エンジンの正確性の上昇"

が必要.これは,Webログマイニングで解決できる.

今回の研究は,Webログマイニングのためのクリックストリームデータの取得を目標とする.

Webログマイニングとかクリックストリームデータ

以前の記事参照

仕様

クライアントサイドは,FirefoxがターゲットなのでJavascriptがメイン.サーバサイドは,慣れているperlにする.

クライアントは起動時?にサーバへIDを要求し,今後IDを使ってURLやアクションを送る.送るアクションは(ROOT, LINK, RETURN, FORWARD, CLOSE, ALLCLOSE,?)など.サーバは送られてきたデータを元に,クリックストリームを構築し,ログに保存する.

今後の課題

  • クリックストリームデータをデータベースへ格納する
  • 取得したデータで実際にマイニングを行う

コメント

Z
  • おわりにがない\研究発表なのだから,最後に"おわりに"としてまとめを付けること.
  • click stream dataの有用性\今回取得したclick stream dataの内容について議論すべき.今までのデータとは異なること,メリットをきちんと述べること.
  • スライドの作り込みが甘い\たとえば,"研究の背景"ページにおいて,最後を2行にするなど.
S
  • 検索エンジンの正確性の向上\を目的としてWebログマイニングを使う.とのことだが,他のウェブマイニングを使って正確性を向上させていることのほうが多い.
  • 実際の研究の目的は?\click streamをWebログマイニングに利用すること?\マイニングすることが目的?\click streamを使う必要性が見えない
  • Tab Browserのメリットが見えない\Tab Browserの特徴は?
O
  • Click Stream取得の3番目,proxyによる取得も考えて欲しい.\それぞれ収集できる範囲,分析の目的が異なる.
  • サーバへ送るデータを十分に検討していない.
    • 送信するデータは何?
    • クリック以外のイベントは完全に送らない?
    • HTMLだけ?
    • インラインフレーム等には対応する?\画像やPDFを求めている場合など,きちんと検討するべき.
  • クリックストリームデータのフォーマット\そもそも,今回取得したデータは完全なクリックストリームと言えるのか.

個人的に最低限行って欲しいこと

クリックストリームデータの取得を目標とするのなら,

  • 収集するブラウザのアクションを十分に検討して欲しい.
    • なんのためのクリックストリームなのか
    • タブブラウザの特徴をつかんでいるか
    • 取得したログを元に,ユーザのブラウジングを完全に再現できるのか

を検討した上で,

  • 収集したクリックストリームデータの正当性と有用性
    • ログからユーザのブラウジングを再現できる(正当性)
    • 単なるサーバのアクセスログ,proxyで取得したログでは足りない(有用性)

を示して欲しい

ターゲットマーケティングのためのデータマイニング E@B4

発表時間:15:14-15:24

全体的に理解が足りていない.アルゴリズムを知ることも重要だが,何をしているのか本質をつかまないことには,それぞれの特徴を比較することができない.

背景・目的

ターゲットマーケティングが経営戦略上有効である.これは,顧客をセグメント化するもの.データマイニングは,セグメント化のためのルール発見手法がある.

データマイニング手法

分類,クラスタリング,パターンの3種類.それぞれ,Wekaに組み込まれているC4.5,k-means,aprioriを利用する.

コメント

Z
  • 研究の目的は?\公開されたツールを使っただけでは研究にならない.
  • 多面的分析とからめて行う\異なるデータを分析するのでは(比較できないので)意味がない.幸いにも,1つのデータセットに対し,異なる分析手法を行っている.それぞれのメリットを議論すること.
  • 各手法(少なくとも今回利用する3種類)を完全に理解すること
  • 研究のポイントをまとめること\他の人が作ったソフトを使って結果を見せるだけではダメ.結果をきちんと解釈し,分析すること.
O
  • いろいろと勘違いしているふしがある

きちんと理解して欲しい

S
  • 具体例をまとめて欲しい

例えば,どのようなことを知りたいときにどの手法を用いるべきか述べて欲しい.

個人的に最低限行って欲しいこと

研究の対象について理解しないことには始まらない.

  • ターゲットマーケティング
    • 種類
    • 目的
  • データマイニング
    • 分類
    • 利用する手法

をきちんと理解して欲しい.これを理解しないことには,データマイニング手法とターゲットマーケティングの目的を関連づけることができない.

その上で,

  • データを分析し
  • 特徴をまとめて

欲しい.

脳データ分析のためのデータベース構築に関する研究 K@B4

発表時間:15:59-16:04

研究分野への理解が足りない.脳データ分析,データベースを知らないまま研究を行っている.そのせいか,自分が行ったことが発表中に見えてこない.

背景・目的

脳研究のためのデータは巨大で他種類.これらのデータを保存するための汎用的なデータベースを作る.

コメント

M
  • 先行研究をまねしただけ?\先行研究との違いを明確にして欲しい.たとえデータベーススキーマか変わっていたとしても,やっている内容自体は同じ.BI,脳研究者の支援のことを強く出して欲しい.
  • 自分の成果が分かりにくい\研究の提案,やったこと,新規性が見えない.
H
  • 実際に作っているのか?\実際に作ってみないと分からないことも多々ある.
O
  • 脳データは巨大,他種類\今回はERP,fMRIデータをあげていたが,巨大と言えるレベルのデータなのか
  • 一括して管理するデータベースが必要\理由が見えない.
  • 認知実験の説明\データベースを作ることと話が繋がっていない.データベース構築と,認知実験の設計は関係があるのか.
  • スキーマの設計\どのようなデータベースであれ,その設計には理由があるもの.わかりにくいという理由で変えてしまっていいのか."人間が分かりやすいか"ということも重要ではあるが,

"(データベースとして)コンピュータが処理しやすいこと"の方が重要では?

  • MySQLを使う\保存するデータに対して,MySQLは適したRDMSなのか?MySQLの特徴として挙げている点と,保存したいデータの関連性が無い.

個人的に最低限行って欲しいこと

研究の目的がはっきり見えないので,コメントしづらいが,"汎用性のあるデータベースを作成する"とするならば,何よりも,データベースを理解して欲しい.

  • データベースをきちんと設計して,構築する\こちらの指示通りにデータベースを作るのではなく保存する内容を理解した上で,設計して欲しい.
  • 汎用性があるか議論して欲しい\自分たちで用意したデータを保存することだけが目的ではない.ターゲットは脳研究者であって,自分たちではないことに注意.

総評

とりあえず,うちの教授の方針である30ページ以上の論文を書いてもらえれば構わない.ただし,きちんと内容を理解した上で,正しいことを書くこと.

新たなシステムや手法を開発した上で,それが間違っているのならまだしも,他の人が作ったものを間違えてまとめているのでは,そもそもその分野への理解が足りていない証拠.

また,論文は早めに書き上げて欲しい.というよりもまだ書き上がっていないことが問題.たった2枚の概要ですら,チェックに1時間以上掛かる.文字の密度が下がるとはいえ,30枚を超える論文をチェックするのにはそれなりに時間がかかるもの.大学への論文提出の締め切り前日に持ってこられても,チェックなどできるはずもない.