2006/12/04(月)Li, {E, K} @ B4

情報収集について Li

ウェブ上の情報収集に関してのお話し.

keywords: Information Gathering, Data Reasoning

ウェブ上における検索は,mismatchやoverloadなどにより,目的のサイトを探すことは難しい.そのためInformation Retrieval, Information Agents, Web Miningなどの技術を用いる必要がある.特に,単語のシノニム(synonym)やフォノニム(phononym)の関係性をきちんと把握することが必要である.

現在のDecision Patternは,その知識の中に曖昧性,構造を埋め込むことが出来ない.知識を始めとする曖昧性を利用するために,ラフ集合を用いる必要がある.

発見されたパターンにおいて,間違えているパターンもあるが,その中でも特に"興味深い間違いパターン"が重要である.分析において,間違えたパターンを分析することで,なぜ間違えたかを学習し,次の分析に応用する.

ターゲットマーケティングのためのデータマイニングの分析 E @ B4

データマイニングには数多くの手法がある.データ,分析の目的に応じて使い分ける必要がある.ターゲットマーケティングにおいて,データマイニングを行うにあたり,各分析ツールはどのような分析に向いているか比較する.

使用するツール・データ

  • 決定木
  • 非階層型クラスタリング k-means
  • 相関ルール
  • 特異性指向マイニング pom

上3種類はwekaに組み込まれている物,pomはせりかが提供するツールを使う.分析対象のデータはUCI Machine Learning Repositoryにあるダイレクトマーケティングのデータ.

結局

ツールを自作することを前提に話を進めていたつもりだが,結局他のツールに頼ることに.ツール使って,公開されているデータを分析して,研究(?)は終わる模様.

コメント

せめて,各分析ツールが何をしているのか理解すること.他は特に言えること無し.

脳データ分析のためのデータグリッドの構築 K @ B4

グリッド上において,脳データを分析するためのデータグリッドを構築する.保存するデータは,fMRIにより取得された画像,EEGにより収集された脳波.グリッドはGlobus Toolkit3を使う*1

現在

Globus,MySQLのインストール中.

これから

この時期にインストールできていないようでは先は無い.方針を変え,脳データ分析のためのデータベースの構築に変更.今後

  • 脳データの理解
  • データスキーマの設計
  • データベースの構築

を行う.

コメント

MySQLくらいはインストールして貰いたいけど,現状では怪しい.最低でも,脳データ,脳データ分析というものについて知り,きちんとしたスキーマの設計をして欲しい.

*1 : 理由は,GT4に日本語マニュアルが無いから...

B4に

工学系にいるのだから,ソフトウェアは使えて当然."使い方を調査しました"は論文にならない.教授に限らずとも,研究室には先輩が多くいるのだから,分からないことがあれば素直に尋ねること.一人でずっと悩んでいても仕方がない.

研究とは,

  • 既存の手法や実装に対して問題点を見つけ
  • 解決法を提案・実装し
  • 元の手法や,他の手法と比較検討し
  • 有効性やさらなる発展を示す

こと.現状では,研究に成り得ないし,論文にもならない.

2006/11/21(火)S@M1, {M,N}@B4

自分が高望みなのか分からないが,だんだんと研究という内容では無くなってきている気がする.M1は特に今年は論文を書く必要は無いので構わないが,M2とB4はそれぞれ修士論文,学士論文が必要なはず.うちの教授の方針として,質よりも量という面があるので,論文さえ書き上がれば構わない気もするが,単に大学の数年を無為に過ごして学位を取るのではなく,各自が"研究をした!"と実感を持てる程度までは"研究"をして欲しい.

クエリの分割について S@M1

後日

クリックストリームログの収集に関する研究? M@B4

クライアント側で収集したクリックストリームデータをサーバへと転送するための研究.ログの収集ではなく,ログの分析を主題にしないと研究ではなくなってしまう.現状では,ログを収集するプログラムを書いて卒研とするように見受けられる.
どうしても,ログの収集を研究の主題とするなら,複数のログ収集ソフトと比較し,本開発ソフトが優れている点を上げる必要がある.もしくは,ログの分析を見越しての収集の話へ拡張して欲しい.

作成するソフト

ターゲットがIEから,FireFoxに移った.そのため,開発言語もCではなくJavaScriptへ移行.仕様に関しては,未だ決めかねている模様.年内にプログラムを作成する予定はなさそう.せめて仕様くらいは年内に決めて貰いたいところだが...

コメント?

プログラム開発の進捗状況が分からないので下手なコメントは避けたいが,気になる点をいくつか.すでに仕様をある程度固めているのなら,このコメントに左右されず,自分の方針を貫いて欲しい.

  • クリックストリーム?\せっかく収集したストリームデータをミックスして保存しようとしている?送られてきたストリームデータをストリームのまま保存しておけば,クリックストリームに戻すためのプログラムなんて必要無いはず.それとも,混ぜることに価値があるのだろうか.
  • データ転送のフォーマットを決めることが先決.\送り出すデータの内容なんてあとからいくらでも変更できる.というより,JavaScriptで通信するならXML以外にあるのか?最近Ajaxがブームなので,素直にそのあたりに乗っていた方がB4の研究としては無難だと思う.

RDFを用いたウェブ検索 N@B4

SparQLによるRDFクエリを利用したセマンティックウェブにおける検索についての研究.なのだが,"研究として"やりたい内容が不明.結局SPARQLerを使ってRDF検索を行うらしいが.前回のコメントを分かってもらえなかったのが残念だ.

オントロジーの利用

オントロジーを使うことにより,RDFのグラフを拡張することができる.拡張前は一致しなかったキーを見つけられるようになる.

SparQL

SQLライクなRDF上での検索を行うクエリ言語.今後のセマンティックウェブ上におけるキーワード検索に代わるものとして期待されている.
Web上でデモプログラムを走らせることができるが,言語が草案である現状では,まともに使える実装にはなっていない.

やりたいこと

SparQLはSQLがベースとなっているだけあって,複雑な言語である.そのため,一般ユーザが使おうとしても簡単に使えるものでは無い.そのため,ユーザが簡単に使えるようにするための変換プログラムを作る.
要は,ユーザインターフェースを作りたい,ということだと思われる.

コメント

SparQLの言語仕様を調べるのが精一杯で,中途半端な内容になってしまったと言うことだが...このまま最後まで読み続けるつもりだろうか?確かに英文マニュアルで量は多いのだが,大半は例文.この言語仕様に則ったプログラムを作成するわけではないのだから完訳する必要は無い.知りたいところだけを読めば十分.

SparQLの実装は,SPARQLer以外にもあるのだから,他のシステムも比較して欲しい.Dave氏の作ったdemoなら,自分で作成したRDF contentを読み込ませることができるのだから,そちらを使ったほうがもう少し理解は進んだと思う.

結局前回から話が進んでいないので,内容に関してはコメントできないが,少なくとも次のこと位は言える.

今の内容は,研究ではなく単なる補助プログラムの作成.しかも,フォームデータを受け取って,定型文のキーワードを置き換えるだけでできてしまう程度のもの.オントロジーを使った対象世界の拡張も"セマンティックウェブ"の世界では常識の範囲内(というよりも,オントロジーを使った意味解釈があるからこそ,セマンティックウェブの世界).
どこの大学院に進むのかは知らないが,この内容を持って入ることのできる大学院,受け入れてくれる教授はいないのでは?

2006/10/17(火){S,O}@M2

OWL-Sを利用したWSの検索について S@M2

内容

オントロジーを利用したウェブサービスの検索について.

現状,ウェブサービス(WS)は,各WSの入出力のみを対象として連結をしている.OWL-Sにある,IOPEsのPEを利用することで,より正確な検索を行えるようにする.

IOPE

Input,Output,Precondition,Effectの4つであり,サービスの入力,出力,条件,影響を表している.

オントロジーのマッピング

各サービスの持つオントロジーは異なるため,統合化が必要.オントロジーをマップするために,ベクトル空間法,Simpson係数を複合利用したマッピングを考える.

制約関係

???\何がしたいか不明\おそらく検索の肝になるところだとは思うのだが.

WSのIOPEを元に制約条件を作成し,ユーザの求めているサービスを満たしているかテストする.制約を満たしていれば,ユーザの求めるサービスである.

コメント

話が広がりすぎている.研究内容のアウトラインが見えない.本質は,

  • オントロジーマッチングに関して
    • 類似度(ベクトル空間法,Simpson係数,WordNet)
  • オントロジーをSWRLで表現した場合の,ウェブサービスの検索
  • 提案手法によるオントロジーのマッチングによるウェブサービスの検索

のはず.

自分の行っていること,他の手法と比較しての特徴をまとめてほしい.

電子会議における,発言の分類 O@M2

タイトル曰く,事例ベース推論のための研究らしいが,あまり繋がっていない.

内容

参加者の発言は,提案,質問,説明の3種類に分類できる.それぞれの分類について特徴をまとめた?

コメント

推論はどこに?

事例ベースを作ることだけになっており,推論とか拡張が見えない.

"自分の研究"を考えて欲しい.

2006/10/10(火)B4

今日は4年生の発表.\夏休み明け第一回,かつ,明日は大学で用意した卒研中間発表なので,今後の方針に結構重要なはずだけど...

総評

基本的に内容に関して議論できるレベルでは無い.もう少し深く理解し,内容をまとめる必要がある.

文献中の重要そうなところを抜粋しても仕方がない.Presentationは相手に伝えるためにするもの.分かりやすく説明することが重要.

話には,流れを作ること.必ずしも起承転結である必要はないが,話がいきなりとぎれ,繋がらなくなるような事は避けるべき.

全体的に,研究の売り(特徴)が見えない.研究である以上,何か新規的である必要がある.その上で,他の人の研究との違い,特色を明確に述べる必要がある.

マーケティングのためのマイニング手法の比較 E@B4

ターゲットマーケティングに利用するモデルの特徴を調べ比較する.

ターゲットマーケティングは,

  1. 市場細分化\顧客の分類
  2. 標的市場の選択\対象の選択
  3. 市場ポジショニング\マーケティングの実行

の3ステップからなる.特に顧客を分類することが重要であり,その分類にはデータマイニングが利用される.データマイニングは,分類(ニューラルネットワーク,決定木,SVM),クラスタリング(階層型,非階層型),パターン(相関ルール)などがある.この中から,決定木(C4.5),非階層型(k-means),相関ルール(apriori),特異性指向(pom)に注目して実験を行う.

ターゲットマーケティング

(当然といえば当然かもしれないが,)ターゲットマーケティングを行ったことが無いため,ターゲットマーケティングというものが分かっていない.

ターゲットマーケティングには,データマイニングが必要としているが,本当にそうなのか?

ターゲットマーケティングの背景について知ること.

  • なぜターゲットマーケティングが必要か
    • どのような時に行うか
    • どのような目的で行うか
  • マーケティングの詳細な手順について
    • どのようなデータを対象とするか
    • どのような手順で分析・マーケティングを行うか

最低限これだけ知らないと始まらない.

モデルの比較を行う前に,ターゲットマーケティングが求めているものを知る必要がある.

データマイニング

データマイニング手法として,分類,クラスタリング,パターンを上げているが...他にもデータマイニングで使われる手法はたくさんある.マーケティングでよく使われる手法として限定すべき.

データマイニングは自分の専門でもあるので,いろいろ言いたいことはあるが...

  • 発見されるルールとマイニングアルゴリズムが混ざっている
  • それぞれの手法の区別がついていない\もっときちんと手法の特徴を知って欲しい.

分析とは

マーケティングを含め,データの分析は,データを見て,分析の目的を考えて分析手法を決定するもの.データ無くして,分析手法を決めることは出来ない.そもそも,すべてのタイプのデータに対して分析手法を適用できるわけではない.

今後の方針

いくつかの方針が考えられるが,個人的にやって貰いたいことは,

  • 一つのデータセットに対し,異なる分析手法を適用し,発見される知識の違いを比較する.

ことである.

他の方針としては,

  • データに合わせて,適用できるマイニング手法を比較する.
  • 分析の目的に合わせて,適用できるマイニング手法を比較する.

などがある.

それよりも先に,分析するデータが無いことには分析することが出来ないので,分析対象のデータを得ることが重要.データは,H@D3? に貰うか,UCI Machine Learningのデータを利用するのが手っ取り早い.

  • UCI Machine Learning Repository\[http://www.ics.uci.edu/~mlearn/MLRepository.html]

最低限まとめて欲しいこと

というより,これをまとめないと研究が始まらない.

  • マーケティングの目的について\顧客を分類する,関連商品を見つける,潜在的顧客を発見する,など.
  • 使うデータセットについて\データセットによっては,マイニングの前に前処理が必要.
  • マイニング手法について\せめて利用するマイニング手法くらいは理解して欲しい.

研究室オリジナルの手法は組み込むのか?\GDT-RS,特異性指向マイニング(POM),MVFの3種類

脳データを保存するデータベースの構築? K@B4

脳データの比較.本研究で扱うfMRI,EEGは非侵襲的な手法である.fMRIは空間分解能が,EEGは時間分解能に優れている.

これらのデータをMySQLを利用し,データグリッド上にデータを保存する.データベースのスキーマは先行研究において議論されている.ここでは,このスキーマをデータグリッド上に構築することになる.

グリッドの構築には,Globusを利用する.Globusを利用するためにGlobus Toolkitが公開されており,これを利用することで簡単に?システムを開発することができる.

実際に,MySQLとglobusを組み合わせてデータグリッドを構築し,脳データをデータグリッド上に乗せる.

背景・目的

背景と目的が繋がっていない.何が問題で,何を解決したいのか.

背景として,

  • グリッドが注目されている
  • データベースが独立で保存されている

を上げているが,なぜ目的

  • 脳研究者のデータの取扱いに関する軽減
  • データ管理・分析のためのグリッド構築
  • データの異種性の解決

に繋がるのかが分からない.この目的であるなら,背景(問題点)は,

  • 脳研究者がデータを管理できていない
  • データを保存する環境が整っていない

となるはず.

脳データの特徴

いろいろ手法を上げているが,特徴がいまいちつかめない.

EEG,fMRI

特徴を述べてはいるが,理解出来ているのか不明.空間分解能に関して,EEGは10mm,fMRIは数mmとあるが,この差(2倍程度)と時間分解能,1000倍の価値の差は比較にならないほど大きい気もしますが?

データベースの構築

脳データの特徴を知らないとデータをデータベースに保存することなんてできない.とにかくデータを知ることが先決.その上でどのようにスキーマを設計するか検討すること.

MySQLを利用するとしているが,他のシステムを利用しない理由(MySQLを採用した理由)は?利点として上げている次の点は利点にならない

  • 処理スピードが速い\Grid上に載せるのなら,ネットワーク上に構築することになるので,ネットワークの速度以上に遅くならない限り速度に関して問題が発生することは無い.
  • Cを始めとするAPIが豊富\自分が使う言語だけあれば十分では?\それとも,データグリッドを構築するにあたり,すべての言語を必要とするのか
  • 他言語に対応\今時対応していないシステムの方が貴重では?

スキーマは,先代の研究の内容そのまま.何を拡張するのかが分からない.それともこのままグリッド上に構築するのか?

グリッド,Globus

説明が不十分.というより,重要な点が分かっていない.

"グリッドを使うことが出来た"ことと,"グリッドを理解した"ことは違う.どのように動作しているのかきちんと理解しないと"研究として"使えるようにはならない.

GT4が出ているが,説明がGT3になっている.本研究で利用するのは,Ver.3なのか,Ver.4なのか決める必要がある.

今後

研究の目的がつかめないのでなんとも言えない.いくつかの目的を仮定して,方針についてあげておく.

スキーマを設計すること

脳データを知り,分析に必要なデータを知ること.単に収集されたデータだけではBIにおいては不十分である.

グリッド上にデータベースを構築すること

スキーマは先代の作ったものそのままだとするならば,早期のグリッドの構築が必要.

最低限まとめて欲しいこと

  • なぜグリッドを使う必要があるのか.
    • グリッドを使う利点は?
    • 逆に欠点は?
  • 脳研究者,BIにおける現在の問題点
    • 本研究がどのように役に立つか
  • 脳データの特徴
    • 収集されるデータの本質的な特徴
    • データ収集の背景情報
    • 被験者に関する情報

セマンティックウェブにおける検索 N@B4

セマンティックウェブは,ウェブページの意味を扱うことが出来るようにしたもの.この技術を利用することにより,コンピュータが意味を理解し,より精度の高い検索を行うことができる.

セマンティックウェブに情報をのせる手段として,RDF,OWLが利用される.RDFは情報が意味する情報(メタデータ)の表現,OWLはオントロジーを表現するためのもの.このメタデータ,オントロジーを利用することで,データの意味を元にした検索を行うことができる.

現在,SparQL,RDQLといったRDF検索言語が提案されている.これらの言語を用い,より精度の高い検索を行うシステムを構築する?.

目的

セマンティックウェブにおける検索システムを作りたいようなので,それに関してのコメント.

セマンティックウェブ

ウェブの区別がついているのかついていないのか不明.本研究室の立場上,ウェブは次の3つに分類される.

  • (現在の)ウェブ
  • セマンティックウェブ
  • ウィズダムウェブ

これらに関して,ウェブインテリジェンスという概念も存在する.

本研究がどれに相当するのか.

オントロジー記述言語,リソースの記述

それぞれの役割などについて理解すること.

検索システム

検索システムがどのようになっているのか理解する必要がある.まずは,Namazuに代表される全文検索システムをさわってみることも必要.

通常,検索システムは,自前のデータベースを持っており,その中から検索を行う.クエリがあるたびに全文検索を行っている訳では無い.

現在のウェブとセマンティックウェブの検索の違いについて理解しまとめること.

実験データ

実験に利用するデータをどうするか.自作してもかまわないが,今までの検索と比較できるようなデータセットが必要.

単なるキーワード検索では不可能である例を示す必要がある.

今後

検索の方針を決めること.ある程度,ローカルに情報を保存する必要があると思うが,どのように保存するのか.

実際にデータを収集(作成)し,検索を行うシステムを作成すること.SparQLなど,すでに実装されているものを使うのでは研究ではないので,何らかのものを自作する必要がある.

クリックストリームを収集するソフトウェアの開発 M@B4

ユーザの動向を把握するには,クリックストリームデータの解析が適している.クリックストリームは,アクセスログの一種で,ユーザのクリック順を元にしたストリーム形式のログ.

このデータは,ウェブサーバのアクセスログから生成するログとクライアントPC側により収集されるログの2種類に分けられる.このうち,アクセスログを元にしたログは,完全なストリームを生成することはできない.そのため,クライアントPC側でログを収集する必要がある.

本研究では,クライアントPC側でログを収集できるソフトを開発する.ソフトの配付は,ロイヤリティウェアが望ましい.

目的

どこまで本気なのか分からないが,(それなりにプログラムの経験があれば別の話だが,)現状で年末までに完成するとはとうてい思えない.

クリックストリームの重要性が見えない.通常のウェブサーバのログで出来ること,クリックストリームでないと出来ないことを明確にする必要がある.

クリックストリーム

取得するログは,

  • ブラウザ上でのアンカークリック
  • “戻る”ボタンのクリックによるページの移動

であり,“ページ内リンク等サーバーに対してリクエストを送らないアンカークリックは記録しない”との事だが,マニュアルページなど,1頁にすべての情報を詰め込み,あとは,ローカルでジャンプさせる方法がとられていることもある.サーバで取得できないログほど重要ではないのか?必要が無ければあとで削除すればいいことなので,収集しておくことを勧める.

また,データ送信はソフト,Windowsの終了時ということだが,その時点でネットワークに繋がっている保証は無い.おそらく,Windows終了時=ソフトの終了時でもあると思うが,ネットワークが切断されるタイミングが分からない以上,送れない可能性も検討する必要がある.

そもそも,クリックストリームデータは,一つのログにしてから送りつける必要は無いのでは?ユーザID,クリックIDをペアにしておけば,ばらばらに送られてもサーバ側でソートすればストリームを再現することは可能.

作成するソフト

ログを収集するソフトを開発するという事なので,開発に関してのコメント.

クリックストリームデータを収集するためのクライアントと,送られてきたログを管理するサーバの2つが必要.

ロイヤリティウェアについて

資金はどこから?

ユーザに対してのメリットは,他の手段で提供することも可能ではないか?特に,検索に関していうならば,ユーザ毎にログを分析することで,そのユーザの特徴が明確に現れる.ソフトウェアをインストールする(ユーザ登録して貰う)ことで,検索の精度が上がるというのも一つの売りではないだろうか.

クライアント

ターゲットブラウザは,インターネットエクスプローラとのこと.IEに関しての仕様は自分も知らないためあまりアドバイスはできないが,(C言語を前提とした場合の)開発の方針は以下の通り.ただし,自分が知っている範囲なので,他にも対処法はあると思う.

  • IE上で発生したイベントをフックし,それが,アンカークリックや,ブラウザボタンのクリックならログとして保存する.\この場合,クリック以外のイベント(フレームが開かれた,ショートカットによりページが遷移した等)の取得を忘れないこと.
  • IE用のツールバーとして実装する\この場合,どこまでイベントが拾えるかは不明
サーバ

言語はなんでもかまわないが,データをきちんと管理する必要がある.

通信

TCP/IPで通信することになると思うが,サーバをPerlで構築するなら手っ取り早いのは,HTTPでPOSTだろうか.サーバをC言語で作成するなら,プロトコルは自分で決めてしまってかまわない.

今後

クリックストリームについてまとめること.また,作成するプログラムの仕様を決めること.

2006/06/27(火)S@M2 + {N,M}@B4

発表の内容を勝手に解釈して,一部拡張?して,感想を追加.

ウェブログマイニング? S@M2

ユーザ個別化の手段とか.ログの収集・分析について.

ユーザ個別化とログの収集

ログを分けて,ユーザ毎のログに分ける.クッキー,セッション管理によるユーザを分ける.ユーザの状態により,表示する商品を変える.

ログの分析

ログをツリー上に再構築した場合,ウェブの構造,見やすさによりその形状が変化する.使いやすければ,直線上に,使いにくければ横に広がるはず.

個人的には使いやすさよりも,サイトのタイプに分かれる気がする.ショッピングサイトの場合は,複数の商品を比較するので,直線ではなく,横に広がる可能性が高い.

また,ログは必ずしも木構造になるわけではないので注意.

セマンティックウェブ N@B4

セマンティックウェブとUserエージェントについて.

セマンティックウェブとUserエージェントを話す前に,ウェブ,エージェントの話をしていない.いきなり後のセマンティックとかオントロジーとかUserエージェントとか話しても関連性が見えない.

セマンティックウェブ

エージェント,エージェントとセマンティックウェブの関連性ウェブとセマンティックウェブの違い.その辺まとめないと理解するのは難しい.

個人的にオントロジーの語源等はどうでもいいと思いたい.

Userエージェント

何をするのか不明.どちらかと言うと,UserInterfaceの役割な気がする.おそらく,ユーザの代わりに,バックグラウンドで複雑な作業をさせるのだとは思うが,まだまとまっていないので,今後に期待?

あと,ウェブ推論との区別がつかなくなりそうなので注意.

クリックストリーム M@B4

ウェブサーバのアクセスログとクライアント側のクリックのログについて.

ウェブサーバ側のアクセスログ

ローカルにアクセスされるすべてのログを確実に撮ることができる.しかし,ブラウザ上における戻るボタンや,他のサーバに対するログを取ることが出来ない.

クライアントのクリックのログ

サイトを超えて,すべてのブラウザに対してのアクションを収集することができる.また,ウェブサーバ側で収集できるすべてのログを含んでいる.しかし,クライアント側に専用ソフトをインストールする必要があり実現が難しい.

うちの先生的には,クリックストリームによるデータ収集より,新たな分析ツールの開発を期待している模様.ターゲットはソーシャルネットワークらしいが,おそらくソーシャルネットワークを知らないので,単にクリックストリームを用いたサイトの構造化で済みそうな感じだ.しかし,リンクを利用したサイトの構造化等はある*1ので,どこで差異をつけるのか疑問.

というより,単なるデータマイニング分析ツールを抜け,グラフマイニング等の新たな分析手法を欲しがっている感じ.

*1 : 簡単なところだと,key graphあたりを調べるといいかもしれない