2006/10/10(火)B4

今日は4年生の発表.\夏休み明け第一回,かつ,明日は大学で用意した卒研中間発表なので,今後の方針に結構重要なはずだけど...

総評

基本的に内容に関して議論できるレベルでは無い.もう少し深く理解し,内容をまとめる必要がある.

文献中の重要そうなところを抜粋しても仕方がない.Presentationは相手に伝えるためにするもの.分かりやすく説明することが重要.

話には,流れを作ること.必ずしも起承転結である必要はないが,話がいきなりとぎれ,繋がらなくなるような事は避けるべき.

全体的に,研究の売り(特徴)が見えない.研究である以上,何か新規的である必要がある.その上で,他の人の研究との違い,特色を明確に述べる必要がある.

マーケティングのためのマイニング手法の比較 E@B4

ターゲットマーケティングに利用するモデルの特徴を調べ比較する.

ターゲットマーケティングは,

  1. 市場細分化\顧客の分類
  2. 標的市場の選択\対象の選択
  3. 市場ポジショニング\マーケティングの実行

の3ステップからなる.特に顧客を分類することが重要であり,その分類にはデータマイニングが利用される.データマイニングは,分類(ニューラルネットワーク,決定木,SVM),クラスタリング(階層型,非階層型),パターン(相関ルール)などがある.この中から,決定木(C4.5),非階層型(k-means),相関ルール(apriori),特異性指向(pom)に注目して実験を行う.

ターゲットマーケティング

(当然といえば当然かもしれないが,)ターゲットマーケティングを行ったことが無いため,ターゲットマーケティングというものが分かっていない.

ターゲットマーケティングには,データマイニングが必要としているが,本当にそうなのか?

ターゲットマーケティングの背景について知ること.

  • なぜターゲットマーケティングが必要か
    • どのような時に行うか
    • どのような目的で行うか
  • マーケティングの詳細な手順について
    • どのようなデータを対象とするか
    • どのような手順で分析・マーケティングを行うか

最低限これだけ知らないと始まらない.

モデルの比較を行う前に,ターゲットマーケティングが求めているものを知る必要がある.

データマイニング

データマイニング手法として,分類,クラスタリング,パターンを上げているが...他にもデータマイニングで使われる手法はたくさんある.マーケティングでよく使われる手法として限定すべき.

データマイニングは自分の専門でもあるので,いろいろ言いたいことはあるが...

  • 発見されるルールとマイニングアルゴリズムが混ざっている
  • それぞれの手法の区別がついていない\もっときちんと手法の特徴を知って欲しい.

分析とは

マーケティングを含め,データの分析は,データを見て,分析の目的を考えて分析手法を決定するもの.データ無くして,分析手法を決めることは出来ない.そもそも,すべてのタイプのデータに対して分析手法を適用できるわけではない.

今後の方針

いくつかの方針が考えられるが,個人的にやって貰いたいことは,

  • 一つのデータセットに対し,異なる分析手法を適用し,発見される知識の違いを比較する.

ことである.

他の方針としては,

  • データに合わせて,適用できるマイニング手法を比較する.
  • 分析の目的に合わせて,適用できるマイニング手法を比較する.

などがある.

それよりも先に,分析するデータが無いことには分析することが出来ないので,分析対象のデータを得ることが重要.データは,H@D3? に貰うか,UCI Machine Learningのデータを利用するのが手っ取り早い.

  • UCI Machine Learning Repository\[http://www.ics.uci.edu/~mlearn/MLRepository.html]

最低限まとめて欲しいこと

というより,これをまとめないと研究が始まらない.

  • マーケティングの目的について\顧客を分類する,関連商品を見つける,潜在的顧客を発見する,など.
  • 使うデータセットについて\データセットによっては,マイニングの前に前処理が必要.
  • マイニング手法について\せめて利用するマイニング手法くらいは理解して欲しい.

研究室オリジナルの手法は組み込むのか?\GDT-RS,特異性指向マイニング(POM),MVFの3種類

脳データを保存するデータベースの構築? K@B4

脳データの比較.本研究で扱うfMRI,EEGは非侵襲的な手法である.fMRIは空間分解能が,EEGは時間分解能に優れている.

これらのデータをMySQLを利用し,データグリッド上にデータを保存する.データベースのスキーマは先行研究において議論されている.ここでは,このスキーマをデータグリッド上に構築することになる.

グリッドの構築には,Globusを利用する.Globusを利用するためにGlobus Toolkitが公開されており,これを利用することで簡単に?システムを開発することができる.

実際に,MySQLとglobusを組み合わせてデータグリッドを構築し,脳データをデータグリッド上に乗せる.

背景・目的

背景と目的が繋がっていない.何が問題で,何を解決したいのか.

背景として,

  • グリッドが注目されている
  • データベースが独立で保存されている

を上げているが,なぜ目的

  • 脳研究者のデータの取扱いに関する軽減
  • データ管理・分析のためのグリッド構築
  • データの異種性の解決

に繋がるのかが分からない.この目的であるなら,背景(問題点)は,

  • 脳研究者がデータを管理できていない
  • データを保存する環境が整っていない

となるはず.

脳データの特徴

いろいろ手法を上げているが,特徴がいまいちつかめない.

EEG,fMRI

特徴を述べてはいるが,理解出来ているのか不明.空間分解能に関して,EEGは10mm,fMRIは数mmとあるが,この差(2倍程度)と時間分解能,1000倍の価値の差は比較にならないほど大きい気もしますが?

データベースの構築

脳データの特徴を知らないとデータをデータベースに保存することなんてできない.とにかくデータを知ることが先決.その上でどのようにスキーマを設計するか検討すること.

MySQLを利用するとしているが,他のシステムを利用しない理由(MySQLを採用した理由)は?利点として上げている次の点は利点にならない

  • 処理スピードが速い\Grid上に載せるのなら,ネットワーク上に構築することになるので,ネットワークの速度以上に遅くならない限り速度に関して問題が発生することは無い.
  • Cを始めとするAPIが豊富\自分が使う言語だけあれば十分では?\それとも,データグリッドを構築するにあたり,すべての言語を必要とするのか
  • 他言語に対応\今時対応していないシステムの方が貴重では?

スキーマは,先代の研究の内容そのまま.何を拡張するのかが分からない.それともこのままグリッド上に構築するのか?

グリッド,Globus

説明が不十分.というより,重要な点が分かっていない.

"グリッドを使うことが出来た"ことと,"グリッドを理解した"ことは違う.どのように動作しているのかきちんと理解しないと"研究として"使えるようにはならない.

GT4が出ているが,説明がGT3になっている.本研究で利用するのは,Ver.3なのか,Ver.4なのか決める必要がある.

今後

研究の目的がつかめないのでなんとも言えない.いくつかの目的を仮定して,方針についてあげておく.

スキーマを設計すること

脳データを知り,分析に必要なデータを知ること.単に収集されたデータだけではBIにおいては不十分である.

グリッド上にデータベースを構築すること

スキーマは先代の作ったものそのままだとするならば,早期のグリッドの構築が必要.

最低限まとめて欲しいこと

  • なぜグリッドを使う必要があるのか.
    • グリッドを使う利点は?
    • 逆に欠点は?
  • 脳研究者,BIにおける現在の問題点
    • 本研究がどのように役に立つか
  • 脳データの特徴
    • 収集されるデータの本質的な特徴
    • データ収集の背景情報
    • 被験者に関する情報

セマンティックウェブにおける検索 N@B4

セマンティックウェブは,ウェブページの意味を扱うことが出来るようにしたもの.この技術を利用することにより,コンピュータが意味を理解し,より精度の高い検索を行うことができる.

セマンティックウェブに情報をのせる手段として,RDF,OWLが利用される.RDFは情報が意味する情報(メタデータ)の表現,OWLはオントロジーを表現するためのもの.このメタデータ,オントロジーを利用することで,データの意味を元にした検索を行うことができる.

現在,SparQL,RDQLといったRDF検索言語が提案されている.これらの言語を用い,より精度の高い検索を行うシステムを構築する?.

目的

セマンティックウェブにおける検索システムを作りたいようなので,それに関してのコメント.

セマンティックウェブ

ウェブの区別がついているのかついていないのか不明.本研究室の立場上,ウェブは次の3つに分類される.

  • (現在の)ウェブ
  • セマンティックウェブ
  • ウィズダムウェブ

これらに関して,ウェブインテリジェンスという概念も存在する.

本研究がどれに相当するのか.

オントロジー記述言語,リソースの記述

それぞれの役割などについて理解すること.

検索システム

検索システムがどのようになっているのか理解する必要がある.まずは,Namazuに代表される全文検索システムをさわってみることも必要.

通常,検索システムは,自前のデータベースを持っており,その中から検索を行う.クエリがあるたびに全文検索を行っている訳では無い.

現在のウェブとセマンティックウェブの検索の違いについて理解しまとめること.

実験データ

実験に利用するデータをどうするか.自作してもかまわないが,今までの検索と比較できるようなデータセットが必要.

単なるキーワード検索では不可能である例を示す必要がある.

今後

検索の方針を決めること.ある程度,ローカルに情報を保存する必要があると思うが,どのように保存するのか.

実際にデータを収集(作成)し,検索を行うシステムを作成すること.SparQLなど,すでに実装されているものを使うのでは研究ではないので,何らかのものを自作する必要がある.

クリックストリームを収集するソフトウェアの開発 M@B4

ユーザの動向を把握するには,クリックストリームデータの解析が適している.クリックストリームは,アクセスログの一種で,ユーザのクリック順を元にしたストリーム形式のログ.

このデータは,ウェブサーバのアクセスログから生成するログとクライアントPC側により収集されるログの2種類に分けられる.このうち,アクセスログを元にしたログは,完全なストリームを生成することはできない.そのため,クライアントPC側でログを収集する必要がある.

本研究では,クライアントPC側でログを収集できるソフトを開発する.ソフトの配付は,ロイヤリティウェアが望ましい.

目的

どこまで本気なのか分からないが,(それなりにプログラムの経験があれば別の話だが,)現状で年末までに完成するとはとうてい思えない.

クリックストリームの重要性が見えない.通常のウェブサーバのログで出来ること,クリックストリームでないと出来ないことを明確にする必要がある.

クリックストリーム

取得するログは,

  • ブラウザ上でのアンカークリック
  • “戻る”ボタンのクリックによるページの移動

であり,“ページ内リンク等サーバーに対してリクエストを送らないアンカークリックは記録しない”との事だが,マニュアルページなど,1頁にすべての情報を詰め込み,あとは,ローカルでジャンプさせる方法がとられていることもある.サーバで取得できないログほど重要ではないのか?必要が無ければあとで削除すればいいことなので,収集しておくことを勧める.

また,データ送信はソフト,Windowsの終了時ということだが,その時点でネットワークに繋がっている保証は無い.おそらく,Windows終了時=ソフトの終了時でもあると思うが,ネットワークが切断されるタイミングが分からない以上,送れない可能性も検討する必要がある.

そもそも,クリックストリームデータは,一つのログにしてから送りつける必要は無いのでは?ユーザID,クリックIDをペアにしておけば,ばらばらに送られてもサーバ側でソートすればストリームを再現することは可能.

作成するソフト

ログを収集するソフトを開発するという事なので,開発に関してのコメント.

クリックストリームデータを収集するためのクライアントと,送られてきたログを管理するサーバの2つが必要.

ロイヤリティウェアについて

資金はどこから?

ユーザに対してのメリットは,他の手段で提供することも可能ではないか?特に,検索に関していうならば,ユーザ毎にログを分析することで,そのユーザの特徴が明確に現れる.ソフトウェアをインストールする(ユーザ登録して貰う)ことで,検索の精度が上がるというのも一つの売りではないだろうか.

クライアント

ターゲットブラウザは,インターネットエクスプローラとのこと.IEに関しての仕様は自分も知らないためあまりアドバイスはできないが,(C言語を前提とした場合の)開発の方針は以下の通り.ただし,自分が知っている範囲なので,他にも対処法はあると思う.

  • IE上で発生したイベントをフックし,それが,アンカークリックや,ブラウザボタンのクリックならログとして保存する.\この場合,クリック以外のイベント(フレームが開かれた,ショートカットによりページが遷移した等)の取得を忘れないこと.
  • IE用のツールバーとして実装する\この場合,どこまでイベントが拾えるかは不明
サーバ

言語はなんでもかまわないが,データをきちんと管理する必要がある.

通信

TCP/IPで通信することになると思うが,サーバをPerlで構築するなら手っ取り早いのは,HTTPでPOSTだろうか.サーバをC言語で作成するなら,プロトコルは自分で決めてしまってかまわない.

今後

クリックストリームについてまとめること.また,作成するプログラムの仕様を決めること.