2007/10/01(月){O, N, K} @ B4
なんか,一週間前に聞いた中間発表のタイトルとは違っている人多数なんだけど...
みなさん,結局こっちにしたいの?
人間の問題解決過程理解のためのACT-Rモデリングに関する研究 O@B4
人間の脳の高次脳機能をACT-R上でモデル化しようという試み.
現在のところ,2桁+2桁の加算問題をモデル化しようとしている.
モデル化し,実際にACT-Rでシミュレーションした結果を表として表してはいたものの,小さすぎて見えませんでした...*1
実際に人間が同じ実験を行っているので,その実験とシミュレーションを比較することが今後の課題.
ACT-R
Adaptive Control of Thought-Rationalの略.
カーネギーメロン大学のジョン・R・アンダーソンらによって開発されたもの.
脳機能毎にモジュールを持つ.
現在提供されているモジュールは,Goal, Declarative, Imaginal, Aural, Visual, Manual, Vocal, Proceduralの8個.
Proceduralを中心に,他のモジュールが連結されている.
Goalに目標状態を設定し,他のモジュールに知識や刺激を入力することで,Goalを達成するまでの手続きをシミュレートすることができる.
計算過程
4ステップで実現している模様.
- 数字の認識
- 1の位の計算
- 桁上げ
- 10の位の計算
コメント
Z
- スライドの作り方に関して
- 括弧の前後のスペース
- 参考文献の書き方\author, ``title'', booktitle, publisher, Vol.x, No.x (year) pp.s-e.
- 医学,解剖学等の用語について\言いたいことは分かるけど,できるだけ今回のイメージにあったものを使って欲しい.
O
ACT-Rは確かに脳のシミュレーションをすることができるが,結局は人間の与えたモデルを元に動作をシミュレートしてるに過ぎない.
人間の計算における,"間違い"をどのように実現するか.
間違えた知識を与えれば確かに間違えるけど,それは知識として間違えているので,"うっかり間違える"といったことをシミュレートすることができない.
乱数で実現するにしても,それは違う気がする.
短時間で急いで計算すると間違えるけど,じっくりやると間違えない.
脳で行われている検算というものを再現できるとより人間らしくなると思う.
それには,単に計算x+y=zを知識としてもつのではなく,数学的な知識をモデル化する必要があるのかもしれない.
計算はそれほど単純ではない.
今回使っている計算モデルはあくまでの数学における理論的な計算方法.
9を10-1とばらして計算する場合もあれば,10の桁から計算する場合もある.
ACT-Rは確かに素晴らしいツールかもしれないが,現状では過剰な期待はできない.
推論によるマイニングのための属性分析に関する研究 N@B4
データマイニングにおける問題点は,データマイニングにかける属性はあらかじめ人間が選択していることにある.
ある程度関係がありそうだという属性しか分析の対象にしていない.
与えられた属性を分析し,情報の粒度の調整や背景知識を元にした新しい属性を生成することで,もう少しまともな知識がでるかもしれない.
背景知識は,宣言的知識(意味ネットワークを利用),手続き的知識に分けられる.
宣言的知識は,単語間の関係(IS-A)やその単語が要素として持つもの(PART-OF, HAS-A)を表している.
- なすは野菜である.
- キャベツは野菜である.
など.
手続き的知識は,特定の手続きにより,新たな属性を生成できるような知識を表す.
- なすとキャベツの売り上げを合計すると野菜の売り上げを得られる.
- 現在の西暦から誕生年の西暦を引くと,その人の年齢が得られる.
など.
属性間の演算はある程度絞り込む必要がある.
西暦に乗除は無理がある.
この当たりを手続き的知識として保存する必要がある.
現在,これらの知識を既存のデータベースから自動的に得るための方法を考えている.
コメント
Z
単位,演算方法に関しては,スケール分析などの研究もある.
必要なら参考にすること.
O
上記の手続き的知識は種類が異なるのでは無いか?
新たな属性を作成すると一言で言っているが,属性の作成(野菜+野菜=野菜の総売上)と属性の変換(昭和+1925=西暦)は異なるもの.
ひとまとめにしないほうがいいのでは?
無闇に知識を1つの知識ベースに保存すると探索範囲が広くなりすぎる.
うまくカテゴリ分けして欲しいところ.
さすがに,なすとかキャベツとか言われたとき,天体を連想する人はいないでしょう.
粒度の調整が難しいところ.
- キャベツ -> 緑黄色野菜 -> 野菜 -> 食べ物
- なす -> 野菜 -> 食べ物
- 鶏肉 -> 肉 -> 食べ物
共通部分である食べ物,まで持っていくか,野菜で止めるか.場合によっては緑黄色野菜で止める必要もあるかもしれない.
分散Web推論エンジン構築の為の協調に関する研究 K@B4
推論エンジンを分散・協調させるための研究.
とりあえず,ソケットを使って複数台で通信を行うことはできる.
テストと言うことで劣化HTTPプロトコルを実装.
今後,KQMLなどagent間通信用言語の実装なども考える.
コメント
Z
- 推論エンジンの問題点などを正しく理解できていない.
- 単なる分散推論だけではなく,ウェブサービスを意識して欲しい.*** O
全体像を理解していないのか,よけいなお話が多かった気もする.
プログラミング的なお話,セマンティックウェブのお話は今回の研究では直接関係無いのでは?
実際に作成する分散推論エンジンの全体像,設計をはやいところ確認したい.
なんか,根本的に必要なものが見えていない気がする.
単に動作するプログラムが欲しいのではなく,今後拡張できること,ほどほどの柔軟性も重要.
ソケット通信などは一応動くようにはなった模様.
全体像が見えてないため,ちょっと行き当たりばったりなプログラミングが気になる.
後々,一からコーディングしなおすことになりそうな予感.
総評
一応ほどほどに研究は進んでいる模様.
研究のテーマに関する全体像が無かったのが残念.
研究の全体像を図示し,今現在行っている部分を明確にしてほしい.
あと,プログラムなどを作成するにしても,その設計,目標も明確にして欲しい.
何を作りたいのか伝わらないことがある.
中間発表は5分程度.
一度くらいは練習しておいたほうがいいのでは
2007/02/13(火){M, E, K}@B4
今更研究の内容について言うことは無い.というか,辛口の評価しかできないので,あまり記事にはしたくないが,コメントを求めている人もいるようなので,簡単に内容をまとめて最低限これくらいはやって欲しいことくらい書いておくことにする.
Firefoxの拡張機能を用いたクリックストリーム収集に関する研究 M@B4
発表時間:14:53-15:04(11分)
検討が足りない.忙しいのかもしれないが,もう少し考えてからプログラムを作って欲しい.本来であれば,目的に合わせて仕様を決め,それに合わせてプログラミングするもの.プログラムの進捗に合わせて仕様を決め,改変するものではない.
背景・目的
ポータルサイトのユーザビリティの向上のために,
- "Webサイトの運営,構築の効率化",
- "ユーザの行動の把握",
- "検索エンジンの正確性の上昇"
が必要.これは,Webログマイニングで解決できる.
今回の研究は,Webログマイニングのためのクリックストリームデータの取得を目標とする.
Webログマイニングとかクリックストリームデータ
仕様
クライアントサイドは,FirefoxがターゲットなのでJavascriptがメイン.サーバサイドは,慣れているperlにする.
クライアントは起動時?にサーバへIDを要求し,今後IDを使ってURLやアクションを送る.送るアクションは(ROOT, LINK, RETURN, FORWARD, CLOSE, ALLCLOSE,?)など.サーバは送られてきたデータを元に,クリックストリームを構築し,ログに保存する.
今後の課題
- クリックストリームデータをデータベースへ格納する
- 取得したデータで実際にマイニングを行う
コメント
Z
- おわりにがない\研究発表なのだから,最後に"おわりに"としてまとめを付けること.
- click stream dataの有用性\今回取得したclick stream dataの内容について議論すべき.今までのデータとは異なること,メリットをきちんと述べること.
- スライドの作り込みが甘い\たとえば,"研究の背景"ページにおいて,最後を2行にするなど.
S
- 検索エンジンの正確性の向上\を目的としてWebログマイニングを使う.とのことだが,他のウェブマイニングを使って正確性を向上させていることのほうが多い.
- 実際の研究の目的は?\click streamをWebログマイニングに利用すること?\マイニングすることが目的?\click streamを使う必要性が見えない
- Tab Browserのメリットが見えない\Tab Browserの特徴は?
O
- Click Stream取得の3番目,proxyによる取得も考えて欲しい.\それぞれ収集できる範囲,分析の目的が異なる.
- サーバへ送るデータを十分に検討していない.
- 送信するデータは何?
- クリック以外のイベントは完全に送らない?
- HTMLだけ?
- インラインフレーム等には対応する?\画像やPDFを求めている場合など,きちんと検討するべき.
- クリックストリームデータのフォーマット\そもそも,今回取得したデータは完全なクリックストリームと言えるのか.
個人的に最低限行って欲しいこと
クリックストリームデータの取得を目標とするのなら,
- 収集するブラウザのアクションを十分に検討して欲しい.
- なんのためのクリックストリームなのか
- タブブラウザの特徴をつかんでいるか
- 取得したログを元に,ユーザのブラウジングを完全に再現できるのか
を検討した上で,
- 収集したクリックストリームデータの正当性と有用性
- ログからユーザのブラウジングを再現できる(正当性)
- 単なるサーバのアクセスログ,proxyで取得したログでは足りない(有用性)
を示して欲しい
ターゲットマーケティングのためのデータマイニング E@B4
発表時間:15:14-15:24
全体的に理解が足りていない.アルゴリズムを知ることも重要だが,何をしているのか本質をつかまないことには,それぞれの特徴を比較することができない.
背景・目的
ターゲットマーケティングが経営戦略上有効である.これは,顧客をセグメント化するもの.データマイニングは,セグメント化のためのルール発見手法がある.
データマイニング手法
分類,クラスタリング,パターンの3種類.それぞれ,Wekaに組み込まれているC4.5,k-means,aprioriを利用する.
コメント
Z
- 研究の目的は?\公開されたツールを使っただけでは研究にならない.
- 多面的分析とからめて行う\異なるデータを分析するのでは(比較できないので)意味がない.幸いにも,1つのデータセットに対し,異なる分析手法を行っている.それぞれのメリットを議論すること.
- 各手法(少なくとも今回利用する3種類)を完全に理解すること
- 研究のポイントをまとめること\他の人が作ったソフトを使って結果を見せるだけではダメ.結果をきちんと解釈し,分析すること.
O
- いろいろと勘違いしているふしがある
きちんと理解して欲しい
S
- 具体例をまとめて欲しい
例えば,どのようなことを知りたいときにどの手法を用いるべきか述べて欲しい.
個人的に最低限行って欲しいこと
研究の対象について理解しないことには始まらない.
- ターゲットマーケティング
- 種類
- 目的
- データマイニング
- 分類
- 利用する手法
をきちんと理解して欲しい.これを理解しないことには,データマイニング手法とターゲットマーケティングの目的を関連づけることができない.
その上で,
- データを分析し
- 特徴をまとめて
欲しい.
脳データ分析のためのデータベース構築に関する研究 K@B4
発表時間:15:59-16:04
研究分野への理解が足りない.脳データ分析,データベースを知らないまま研究を行っている.そのせいか,自分が行ったことが発表中に見えてこない.
背景・目的
脳研究のためのデータは巨大で他種類.これらのデータを保存するための汎用的なデータベースを作る.
コメント
M
- 先行研究をまねしただけ?\先行研究との違いを明確にして欲しい.たとえデータベーススキーマか変わっていたとしても,やっている内容自体は同じ.BI,脳研究者の支援のことを強く出して欲しい.
- 自分の成果が分かりにくい\研究の提案,やったこと,新規性が見えない.
H
- 実際に作っているのか?\実際に作ってみないと分からないことも多々ある.
O
- 脳データは巨大,他種類\今回はERP,fMRIデータをあげていたが,巨大と言えるレベルのデータなのか
- 一括して管理するデータベースが必要\理由が見えない.
- 認知実験の説明\データベースを作ることと話が繋がっていない.データベース構築と,認知実験の設計は関係があるのか.
- スキーマの設計\どのようなデータベースであれ,その設計には理由があるもの.わかりにくいという理由で変えてしまっていいのか."人間が分かりやすいか"ということも重要ではあるが,
"(データベースとして)コンピュータが処理しやすいこと"の方が重要では?
- MySQLを使う\保存するデータに対して,MySQLは適したRDMSなのか?MySQLの特徴として挙げている点と,保存したいデータの関連性が無い.
個人的に最低限行って欲しいこと
研究の目的がはっきり見えないので,コメントしづらいが,"汎用性のあるデータベースを作成する"とするならば,何よりも,データベースを理解して欲しい.
- データベースをきちんと設計して,構築する\こちらの指示通りにデータベースを作るのではなく保存する内容を理解した上で,設計して欲しい.
- 汎用性があるか議論して欲しい\自分たちで用意したデータを保存することだけが目的ではない.ターゲットは脳研究者であって,自分たちではないことに注意.
総評
とりあえず,うちの教授の方針である30ページ以上の論文を書いてもらえれば構わない.ただし,きちんと内容を理解した上で,正しいことを書くこと.
新たなシステムや手法を開発した上で,それが間違っているのならまだしも,他の人が作ったものを間違えてまとめているのでは,そもそもその分野への理解が足りていない証拠.
また,論文は早めに書き上げて欲しい.というよりもまだ書き上がっていないことが問題.たった2枚の概要ですら,チェックに1時間以上掛かる.文字の密度が下がるとはいえ,30枚を超える論文をチェックするのにはそれなりに時間がかかるもの.大学への論文提出の締め切り前日に持ってこられても,チェックなどできるはずもない.
2007/01/16(火)B4
論文さえきちんと書いて貰えれば...
2006/12/04(月)Li, {E, K} @ B4
情報収集について Li
ウェブ上の情報収集に関してのお話し.
keywords: Information Gathering, Data Reasoning
ウェブ上における検索は,mismatchやoverloadなどにより,目的のサイトを探すことは難しい.そのためInformation Retrieval, Information Agents, Web Miningなどの技術を用いる必要がある.特に,単語のシノニム(synonym)やフォノニム(phononym)の関係性をきちんと把握することが必要である.
現在のDecision Patternは,その知識の中に曖昧性,構造を埋め込むことが出来ない.知識を始めとする曖昧性を利用するために,ラフ集合を用いる必要がある.
発見されたパターンにおいて,間違えているパターンもあるが,その中でも特に"興味深い間違いパターン"が重要である.分析において,間違えたパターンを分析することで,なぜ間違えたかを学習し,次の分析に応用する.
ターゲットマーケティングのためのデータマイニングの分析 E @ B4
データマイニングには数多くの手法がある.データ,分析の目的に応じて使い分ける必要がある.ターゲットマーケティングにおいて,データマイニングを行うにあたり,各分析ツールはどのような分析に向いているか比較する.
使用するツール・データ
- 決定木
- 非階層型クラスタリング k-means
- 相関ルール
- 特異性指向マイニング pom
上3種類はwekaに組み込まれている物,pomはせりかが提供するツールを使う.分析対象のデータはUCI Machine Learning Repositoryにあるダイレクトマーケティングのデータ.
結局
ツールを自作することを前提に話を進めていたつもりだが,結局他のツールに頼ることに.ツール使って,公開されているデータを分析して,研究(?)は終わる模様.
コメント
せめて,各分析ツールが何をしているのか理解すること.他は特に言えること無し.
脳データ分析のためのデータグリッドの構築 K @ B4
グリッド上において,脳データを分析するためのデータグリッドを構築する.保存するデータは,fMRIにより取得された画像,EEGにより収集された脳波.グリッドはGlobus Toolkit3を使う*1.
現在
Globus,MySQLのインストール中.
これから
この時期にインストールできていないようでは先は無い.方針を変え,脳データ分析のためのデータベースの構築に変更.今後
- 脳データの理解
- データスキーマの設計
- データベースの構築
を行う.
コメント
MySQLくらいはインストールして貰いたいけど,現状では怪しい.最低でも,脳データ,脳データ分析というものについて知り,きちんとしたスキーマの設計をして欲しい.
B4に
工学系にいるのだから,ソフトウェアは使えて当然."使い方を調査しました"は論文にならない.教授に限らずとも,研究室には先輩が多くいるのだから,分からないことがあれば素直に尋ねること.一人でずっと悩んでいても仕方がない.
研究とは,
- 既存の手法や実装に対して問題点を見つけ
- 解決法を提案・実装し
- 元の手法や,他の手法と比較検討し
- 有効性やさらなる発展を示す
こと.現状では,研究に成り得ないし,論文にもならない.
2006/11/21(火)S@M1, {M,N}@B4
自分が高望みなのか分からないが,だんだんと研究という内容では無くなってきている気がする.M1は特に今年は論文を書く必要は無いので構わないが,M2とB4はそれぞれ修士論文,学士論文が必要なはず.うちの教授の方針として,質よりも量という面があるので,論文さえ書き上がれば構わない気もするが,単に大学の数年を無為に過ごして学位を取るのではなく,各自が"研究をした!"と実感を持てる程度までは"研究"をして欲しい.
クエリの分割について S@M1
後日
クリックストリームログの収集に関する研究? M@B4
クライアント側で収集したクリックストリームデータをサーバへと転送するための研究.ログの収集ではなく,ログの分析を主題にしないと研究ではなくなってしまう.現状では,ログを収集するプログラムを書いて卒研とするように見受けられる.
どうしても,ログの収集を研究の主題とするなら,複数のログ収集ソフトと比較し,本開発ソフトが優れている点を上げる必要がある.もしくは,ログの分析を見越しての収集の話へ拡張して欲しい.
作成するソフト
ターゲットがIEから,FireFoxに移った.そのため,開発言語もCではなくJavaScriptへ移行.仕様に関しては,未だ決めかねている模様.年内にプログラムを作成する予定はなさそう.せめて仕様くらいは年内に決めて貰いたいところだが...
コメント?
プログラム開発の進捗状況が分からないので下手なコメントは避けたいが,気になる点をいくつか.すでに仕様をある程度固めているのなら,このコメントに左右されず,自分の方針を貫いて欲しい.
- クリックストリーム?\せっかく収集したストリームデータをミックスして保存しようとしている?送られてきたストリームデータをストリームのまま保存しておけば,クリックストリームに戻すためのプログラムなんて必要無いはず.それとも,混ぜることに価値があるのだろうか.
- データ転送のフォーマットを決めることが先決.\送り出すデータの内容なんてあとからいくらでも変更できる.というより,JavaScriptで通信するならXML以外にあるのか?最近Ajaxがブームなので,素直にそのあたりに乗っていた方がB4の研究としては無難だと思う.
RDFを用いたウェブ検索 N@B4
SparQLによるRDFクエリを利用したセマンティックウェブにおける検索についての研究.なのだが,"研究として"やりたい内容が不明.結局SPARQLerを使ってRDF検索を行うらしいが.前回のコメントを分かってもらえなかったのが残念だ.
オントロジーの利用
オントロジーを使うことにより,RDFのグラフを拡張することができる.拡張前は一致しなかったキーを見つけられるようになる.
SparQL
SQLライクなRDF上での検索を行うクエリ言語.今後のセマンティックウェブ上におけるキーワード検索に代わるものとして期待されている.
Web上でデモプログラムを走らせることができるが,言語が草案である現状では,まともに使える実装にはなっていない.
やりたいこと
SparQLはSQLがベースとなっているだけあって,複雑な言語である.そのため,一般ユーザが使おうとしても簡単に使えるものでは無い.そのため,ユーザが簡単に使えるようにするための変換プログラムを作る.
要は,ユーザインターフェースを作りたい,ということだと思われる.
コメント
SparQLの言語仕様を調べるのが精一杯で,中途半端な内容になってしまったと言うことだが...このまま最後まで読み続けるつもりだろうか?確かに英文マニュアルで量は多いのだが,大半は例文.この言語仕様に則ったプログラムを作成するわけではないのだから完訳する必要は無い.知りたいところだけを読めば十分.
SparQLの実装は,SPARQLer以外にもあるのだから,他のシステムも比較して欲しい.Dave氏の作ったdemoなら,自分で作成したRDF contentを読み込ませることができるのだから,そちらを使ったほうがもう少し理解は進んだと思う.
結局前回から話が進んでいないので,内容に関してはコメントできないが,少なくとも次のこと位は言える.
今の内容は,研究ではなく単なる補助プログラムの作成.しかも,フォームデータを受け取って,定型文のキーワードを置き換えるだけでできてしまう程度のもの.オントロジーを使った対象世界の拡張も"セマンティックウェブ"の世界では常識の範囲内(というよりも,オントロジーを使った意味解釈があるからこそ,セマンティックウェブの世界).
どこの大学院に進むのかは知らないが,この内容を持って入ることのできる大学院,受け入れてくれる教授はいないのでは?
2006/10/17(火){S,O}@M2
OWL-Sを利用したWSの検索について S@M2
内容
オントロジーを利用したウェブサービスの検索について.
現状,ウェブサービス(WS)は,各WSの入出力のみを対象として連結をしている.OWL-Sにある,IOPEsのPEを利用することで,より正確な検索を行えるようにする.
IOPE
Input,Output,Precondition,Effectの4つであり,サービスの入力,出力,条件,影響を表している.
オントロジーのマッピング
各サービスの持つオントロジーは異なるため,統合化が必要.オントロジーをマップするために,ベクトル空間法,Simpson係数を複合利用したマッピングを考える.
制約関係
???\何がしたいか不明\おそらく検索の肝になるところだとは思うのだが.
WSのIOPEを元に制約条件を作成し,ユーザの求めているサービスを満たしているかテストする.制約を満たしていれば,ユーザの求めるサービスである.
コメント
話が広がりすぎている.研究内容のアウトラインが見えない.本質は,
- オントロジーマッチングに関して
- 類似度(ベクトル空間法,Simpson係数,WordNet)
- オントロジーをSWRLで表現した場合の,ウェブサービスの検索
- 提案手法によるオントロジーのマッチングによるウェブサービスの検索
のはず.
自分の行っていること,他の手法と比較しての特徴をまとめてほしい.
電子会議における,発言の分類 O@M2
タイトル曰く,事例ベース推論のための研究らしいが,あまり繋がっていない.
内容
参加者の発言は,提案,質問,説明の3種類に分類できる.それぞれの分類について特徴をまとめた?
コメント
推論はどこに?
事例ベースを作ることだけになっており,推論とか拡張が見えない.
"自分の研究"を考えて欲しい.
2006/10/10(火)B4
今日は4年生の発表.\夏休み明け第一回,かつ,明日は大学で用意した卒研中間発表なので,今後の方針に結構重要なはずだけど...
総評
基本的に内容に関して議論できるレベルでは無い.もう少し深く理解し,内容をまとめる必要がある.
文献中の重要そうなところを抜粋しても仕方がない.Presentationは相手に伝えるためにするもの.分かりやすく説明することが重要.
話には,流れを作ること.必ずしも起承転結である必要はないが,話がいきなりとぎれ,繋がらなくなるような事は避けるべき.
全体的に,研究の売り(特徴)が見えない.研究である以上,何か新規的である必要がある.その上で,他の人の研究との違い,特色を明確に述べる必要がある.
マーケティングのためのマイニング手法の比較 E@B4
ターゲットマーケティングに利用するモデルの特徴を調べ比較する.
ターゲットマーケティングは,
- 市場細分化\顧客の分類
- 標的市場の選択\対象の選択
- 市場ポジショニング\マーケティングの実行
の3ステップからなる.特に顧客を分類することが重要であり,その分類にはデータマイニングが利用される.データマイニングは,分類(ニューラルネットワーク,決定木,SVM),クラスタリング(階層型,非階層型),パターン(相関ルール)などがある.この中から,決定木(C4.5),非階層型(k-means),相関ルール(apriori),特異性指向(pom)に注目して実験を行う.
ターゲットマーケティング
(当然といえば当然かもしれないが,)ターゲットマーケティングを行ったことが無いため,ターゲットマーケティングというものが分かっていない.
ターゲットマーケティングには,データマイニングが必要としているが,本当にそうなのか?
ターゲットマーケティングの背景について知ること.
- なぜターゲットマーケティングが必要か
- どのような時に行うか
- どのような目的で行うか
- マーケティングの詳細な手順について
- どのようなデータを対象とするか
- どのような手順で分析・マーケティングを行うか
最低限これだけ知らないと始まらない.
モデルの比較を行う前に,ターゲットマーケティングが求めているものを知る必要がある.
データマイニング
データマイニング手法として,分類,クラスタリング,パターンを上げているが...他にもデータマイニングで使われる手法はたくさんある.マーケティングでよく使われる手法として限定すべき.
データマイニングは自分の専門でもあるので,いろいろ言いたいことはあるが...
- 発見されるルールとマイニングアルゴリズムが混ざっている
- それぞれの手法の区別がついていない\もっときちんと手法の特徴を知って欲しい.
分析とは
マーケティングを含め,データの分析は,データを見て,分析の目的を考えて分析手法を決定するもの.データ無くして,分析手法を決めることは出来ない.そもそも,すべてのタイプのデータに対して分析手法を適用できるわけではない.
今後の方針
いくつかの方針が考えられるが,個人的にやって貰いたいことは,
- 一つのデータセットに対し,異なる分析手法を適用し,発見される知識の違いを比較する.
ことである.
他の方針としては,
- データに合わせて,適用できるマイニング手法を比較する.
- 分析の目的に合わせて,適用できるマイニング手法を比較する.
などがある.
それよりも先に,分析するデータが無いことには分析することが出来ないので,分析対象のデータを得ることが重要.データは,H@D3? に貰うか,UCI Machine Learningのデータを利用するのが手っ取り早い.
- UCI Machine Learning Repository\[http://www.ics.uci.edu/~mlearn/MLRepository.html]
最低限まとめて欲しいこと
というより,これをまとめないと研究が始まらない.
- マーケティングの目的について\顧客を分類する,関連商品を見つける,潜在的顧客を発見する,など.
- 使うデータセットについて\データセットによっては,マイニングの前に前処理が必要.
- マイニング手法について\せめて利用するマイニング手法くらいは理解して欲しい.
研究室オリジナルの手法は組み込むのか?\GDT-RS,特異性指向マイニング(POM),MVFの3種類
脳データを保存するデータベースの構築? K@B4
脳データの比較.本研究で扱うfMRI,EEGは非侵襲的な手法である.fMRIは空間分解能が,EEGは時間分解能に優れている.
これらのデータをMySQLを利用し,データグリッド上にデータを保存する.データベースのスキーマは先行研究において議論されている.ここでは,このスキーマをデータグリッド上に構築することになる.
グリッドの構築には,Globusを利用する.Globusを利用するためにGlobus Toolkitが公開されており,これを利用することで簡単に?システムを開発することができる.
実際に,MySQLとglobusを組み合わせてデータグリッドを構築し,脳データをデータグリッド上に乗せる.
背景・目的
背景と目的が繋がっていない.何が問題で,何を解決したいのか.
背景として,
- グリッドが注目されている
- データベースが独立で保存されている
を上げているが,なぜ目的
- 脳研究者のデータの取扱いに関する軽減
- データ管理・分析のためのグリッド構築
- データの異種性の解決
に繋がるのかが分からない.この目的であるなら,背景(問題点)は,
- 脳研究者がデータを管理できていない
- データを保存する環境が整っていない
となるはず.
脳データの特徴
いろいろ手法を上げているが,特徴がいまいちつかめない.
EEG,fMRI
特徴を述べてはいるが,理解出来ているのか不明.空間分解能に関して,EEGは10mm,fMRIは数mmとあるが,この差(2倍程度)と時間分解能,1000倍の価値の差は比較にならないほど大きい気もしますが?
データベースの構築
脳データの特徴を知らないとデータをデータベースに保存することなんてできない.とにかくデータを知ることが先決.その上でどのようにスキーマを設計するか検討すること.
MySQLを利用するとしているが,他のシステムを利用しない理由(MySQLを採用した理由)は?利点として上げている次の点は利点にならない
- 処理スピードが速い\Grid上に載せるのなら,ネットワーク上に構築することになるので,ネットワークの速度以上に遅くならない限り速度に関して問題が発生することは無い.
- Cを始めとするAPIが豊富\自分が使う言語だけあれば十分では?\それとも,データグリッドを構築するにあたり,すべての言語を必要とするのか
- 他言語に対応\今時対応していないシステムの方が貴重では?
スキーマは,先代の研究の内容そのまま.何を拡張するのかが分からない.それともこのままグリッド上に構築するのか?
グリッド,Globus
説明が不十分.というより,重要な点が分かっていない.
"グリッドを使うことが出来た"ことと,"グリッドを理解した"ことは違う.どのように動作しているのかきちんと理解しないと"研究として"使えるようにはならない.
GT4が出ているが,説明がGT3になっている.本研究で利用するのは,Ver.3なのか,Ver.4なのか決める必要がある.
今後
研究の目的がつかめないのでなんとも言えない.いくつかの目的を仮定して,方針についてあげておく.
スキーマを設計すること
脳データを知り,分析に必要なデータを知ること.単に収集されたデータだけではBIにおいては不十分である.
グリッド上にデータベースを構築すること
スキーマは先代の作ったものそのままだとするならば,早期のグリッドの構築が必要.
最低限まとめて欲しいこと
- なぜグリッドを使う必要があるのか.
- グリッドを使う利点は?
- 逆に欠点は?
- 脳研究者,BIにおける現在の問題点
- 本研究がどのように役に立つか
- 脳データの特徴
- 収集されるデータの本質的な特徴
- データ収集の背景情報
- 被験者に関する情報
セマンティックウェブにおける検索 N@B4
セマンティックウェブは,ウェブページの意味を扱うことが出来るようにしたもの.この技術を利用することにより,コンピュータが意味を理解し,より精度の高い検索を行うことができる.
セマンティックウェブに情報をのせる手段として,RDF,OWLが利用される.RDFは情報が意味する情報(メタデータ)の表現,OWLはオントロジーを表現するためのもの.このメタデータ,オントロジーを利用することで,データの意味を元にした検索を行うことができる.
現在,SparQL,RDQLといったRDF検索言語が提案されている.これらの言語を用い,より精度の高い検索を行うシステムを構築する?.
目的
セマンティックウェブにおける検索システムを作りたいようなので,それに関してのコメント.
セマンティックウェブ
ウェブの区別がついているのかついていないのか不明.本研究室の立場上,ウェブは次の3つに分類される.
- (現在の)ウェブ
- セマンティックウェブ
- ウィズダムウェブ
これらに関して,ウェブインテリジェンスという概念も存在する.
本研究がどれに相当するのか.
オントロジー記述言語,リソースの記述
それぞれの役割などについて理解すること.
検索システム
検索システムがどのようになっているのか理解する必要がある.まずは,Namazuに代表される全文検索システムをさわってみることも必要.
通常,検索システムは,自前のデータベースを持っており,その中から検索を行う.クエリがあるたびに全文検索を行っている訳では無い.
現在のウェブとセマンティックウェブの検索の違いについて理解しまとめること.
実験データ
実験に利用するデータをどうするか.自作してもかまわないが,今までの検索と比較できるようなデータセットが必要.
単なるキーワード検索では不可能である例を示す必要がある.
今後
検索の方針を決めること.ある程度,ローカルに情報を保存する必要があると思うが,どのように保存するのか.
実際にデータを収集(作成)し,検索を行うシステムを作成すること.SparQLなど,すでに実装されているものを使うのでは研究ではないので,何らかのものを自作する必要がある.
クリックストリームを収集するソフトウェアの開発 M@B4
ユーザの動向を把握するには,クリックストリームデータの解析が適している.クリックストリームは,アクセスログの一種で,ユーザのクリック順を元にしたストリーム形式のログ.
このデータは,ウェブサーバのアクセスログから生成するログとクライアントPC側により収集されるログの2種類に分けられる.このうち,アクセスログを元にしたログは,完全なストリームを生成することはできない.そのため,クライアントPC側でログを収集する必要がある.
本研究では,クライアントPC側でログを収集できるソフトを開発する.ソフトの配付は,ロイヤリティウェアが望ましい.
目的
どこまで本気なのか分からないが,(それなりにプログラムの経験があれば別の話だが,)現状で年末までに完成するとはとうてい思えない.
クリックストリームの重要性が見えない.通常のウェブサーバのログで出来ること,クリックストリームでないと出来ないことを明確にする必要がある.
クリックストリーム
取得するログは,
- ブラウザ上でのアンカークリック
- “戻る”ボタンのクリックによるページの移動
であり,“ページ内リンク等サーバーに対してリクエストを送らないアンカークリックは記録しない”との事だが,マニュアルページなど,1頁にすべての情報を詰め込み,あとは,ローカルでジャンプさせる方法がとられていることもある.サーバで取得できないログほど重要ではないのか?必要が無ければあとで削除すればいいことなので,収集しておくことを勧める.
また,データ送信はソフト,Windowsの終了時ということだが,その時点でネットワークに繋がっている保証は無い.おそらく,Windows終了時=ソフトの終了時でもあると思うが,ネットワークが切断されるタイミングが分からない以上,送れない可能性も検討する必要がある.
そもそも,クリックストリームデータは,一つのログにしてから送りつける必要は無いのでは?ユーザID,クリックIDをペアにしておけば,ばらばらに送られてもサーバ側でソートすればストリームを再現することは可能.
作成するソフト
ログを収集するソフトを開発するという事なので,開発に関してのコメント.
クリックストリームデータを収集するためのクライアントと,送られてきたログを管理するサーバの2つが必要.
ロイヤリティウェアについて
資金はどこから?
ユーザに対してのメリットは,他の手段で提供することも可能ではないか?特に,検索に関していうならば,ユーザ毎にログを分析することで,そのユーザの特徴が明確に現れる.ソフトウェアをインストールする(ユーザ登録して貰う)ことで,検索の精度が上がるというのも一つの売りではないだろうか.
クライアント
ターゲットブラウザは,インターネットエクスプローラとのこと.IEに関しての仕様は自分も知らないためあまりアドバイスはできないが,(C言語を前提とした場合の)開発の方針は以下の通り.ただし,自分が知っている範囲なので,他にも対処法はあると思う.
- IE上で発生したイベントをフックし,それが,アンカークリックや,ブラウザボタンのクリックならログとして保存する.\この場合,クリック以外のイベント(フレームが開かれた,ショートカットによりページが遷移した等)の取得を忘れないこと.
- IE用のツールバーとして実装する\この場合,どこまでイベントが拾えるかは不明
サーバ
言語はなんでもかまわないが,データをきちんと管理する必要がある.
通信
TCP/IPで通信することになると思うが,サーバをPerlで構築するなら手っ取り早いのは,HTTPでPOSTだろうか.サーバをC言語で作成するなら,プロトコルは自分で決めてしまってかまわない.
今後
クリックストリームについてまとめること.また,作成するプログラムの仕様を決めること.
2006/06/27(火)S@M2 + {N,M}@B4
発表の内容を勝手に解釈して,一部拡張?して,感想を追加.
ウェブログマイニング? S@M2
ユーザ個別化の手段とか.ログの収集・分析について.
ユーザ個別化とログの収集
ログを分けて,ユーザ毎のログに分ける.クッキー,セッション管理によるユーザを分ける.ユーザの状態により,表示する商品を変える.
ログの分析
ログをツリー上に再構築した場合,ウェブの構造,見やすさによりその形状が変化する.使いやすければ,直線上に,使いにくければ横に広がるはず.
個人的には使いやすさよりも,サイトのタイプに分かれる気がする.ショッピングサイトの場合は,複数の商品を比較するので,直線ではなく,横に広がる可能性が高い.
また,ログは必ずしも木構造になるわけではないので注意.
セマンティックウェブ N@B4
セマンティックウェブとUserエージェントについて.
セマンティックウェブとUserエージェントを話す前に,ウェブ,エージェントの話をしていない.いきなり後のセマンティックとかオントロジーとかUserエージェントとか話しても関連性が見えない.
セマンティックウェブ
エージェント,エージェントとセマンティックウェブの関連性ウェブとセマンティックウェブの違い.その辺まとめないと理解するのは難しい.
個人的にオントロジーの語源等はどうでもいいと思いたい.
Userエージェント
何をするのか不明.どちらかと言うと,UserInterfaceの役割な気がする.おそらく,ユーザの代わりに,バックグラウンドで複雑な作業をさせるのだとは思うが,まだまとまっていないので,今後に期待?
あと,ウェブ推論との区別がつかなくなりそうなので注意.
クリックストリーム M@B4
ウェブサーバのアクセスログとクライアント側のクリックのログについて.
ウェブサーバ側のアクセスログ
ローカルにアクセスされるすべてのログを確実に撮ることができる.しかし,ブラウザ上における戻るボタンや,他のサーバに対するログを取ることが出来ない.
クライアントのクリックのログ
サイトを超えて,すべてのブラウザに対してのアクションを収集することができる.また,ウェブサーバ側で収集できるすべてのログを含んでいる.しかし,クライアント側に専用ソフトをインストールする必要があり実現が難しい.
うちの先生的には,クリックストリームによるデータ収集より,新たな分析ツールの開発を期待している模様.ターゲットはソーシャルネットワークらしいが,おそらくソーシャルネットワークを知らないので,単にクリックストリームを用いたサイトの構造化で済みそうな感じだ.しかし,リンクを利用したサイトの構造化等はある*1ので,どこで差異をつけるのか疑問.
というより,単なるデータマイニング分析ツールを抜け,グラフマイニング等の新たな分析手法を欲しがっている感じ.