数理メディア情報学グループ

意味の数学モデル – 研究内容紹介

研究の概要と目的

現在,コンピュータネットワーク上に多種多様なメディア情報群が散在している.また,それらを検索対象とするシステムの実現が行われつつある.メディア情報群を対象とした情報獲得の機会の可能性が増大する一方,適切な情報獲得方式の実現が重要な課題となっている.このような環境において,メディア情報群をその種類によらず統一的に操作する事が可能な方式の実現が重要となってきている.

近年の研究において,我々人類は様々な事象を“言葉”という一段抽象度の高い情報に置き換えて取りうことによって高次な知的活動を行っていると考えられている.
そのため,個々のメディア情報を言葉を用いて表現し,それら言葉と言葉の相関を計量することが可能となれば,コンピュータが人間の感性を理解し,異種のメディア情報群を統一的に扱うことが可能なシステムの実現が可能となる.
また,コンピュータが人間の感性を理解する事ができれば,人間の感性を増幅することで,より高次の知的作業をサポートする事ができる.

これまで我々は,このような言葉と言葉の意味的な相関の計量が可能な数学モデルとして「意味の数学モデル」を提案している.また,「意味の数学モデル」にメディア情報を適用するための枠組みとして「Media-lexicon Transformation Operator(ML)」を提案している.これらを用いることによって言葉やメディア情報をメタレベルで連結し,意味的連想検索,異種メディア間連想検索,メディア情報の自動生成など,メディア情報検索を軸とした様々な研究を行っている.

特徴

メディア情報の特徴を人間が受けとる感性や意味に基づいてメタデータ化することにより,人間の欲求をより直感的にコンピュータに伝える事ができる.また,各種メディアのメタデータ表現に共通するものとして言葉を用いる事により,異種メディアを統一的に,かつ人間の思考に近い形で扱う事ができる.

応用例
  • 異種メディア間の検索

画像を入力として楽曲を検索

  • メディアデータの生成

日本語を入力として,その音声情報の印象に合った楽曲の自動生成

意味の数学モデル

概説

言葉は,それが用いられている文脈,あるいは状況に応じてその意味が変化する.一つの同じ言葉であっても,人によってそれぞれ微妙に異なるニュアンスを含んでいることがある.また,同様のニュアンスを表そうとして,人によってそれぞれ異なる言葉で表現することもある.情報検索など一つのデータベースが大勢の利用者に利用される状況では,利用者がどのような状況(感性や印象,意図などを表し,“コンテキスト”などとも呼ばれる)でその言葉を入力したのかを適切にシステムに伝達し,よりその感性に合致した結果を出す方式が必要となる.それを実現するためのモデルとして,「意味の数学モデル」について研究を行っている.意味の数学モデルでは,単語群を入力として与える事で文脈を限定する事により,言葉と言葉の相関を計量している.

言葉と言葉の相関の計量

全ての語彙(見出し語)が約2,000個の有限の基本語のみを用いて説明されている特殊な英英辞典(Longman DCE)を用いて,言葉と言葉の関係を表現した空間として,メタデータ空間MDSを設定する.この空間の次元は高々2,000次元となり,約2の2,000乗もの意味の様相を表現可能である.全ての見出し語はこの空間上のベクトルとして表現されるため,任意の見出し語間の意味的な相関の大きさを計量可能である.

この空間において,メディアデータは単語群からなる一つのベクトルとして写像される.そこに文脈を表す単語群を与える事でメタデータ空間からその文脈に対応する部分空間を選択し,その部分空間に写像されたベクトルのノルムを,文脈として与えられた単語群(検索語orメディアデータ)と,写像されていたベクトル(メディアデータ)の相関として計量する事ができる.

Media-lexicon Transformation Operator(ML)

概説

意味の数学モデルを用いて異種メディア間の相関を計量するためには,対象となるメディアデータの内容や印象などを表す言葉をメタデータとして抽出する必要がある.そこで本研究では,Media-lexicon Transformation Operator(ML)という演算子を定義し,メディアデータから人間が受ける印象を,言葉で表現されたメタデータとして抽出する.

MLは対象となるメディア情報に関する心理学などの専門家の研究成果を用いることによって設計される.これによりメディアデータの特徴を人間が感じる印象として抽出する事ができる.

メディアデータからの印象の抽出

MLは各メディア毎に対応する専門家の研究成果に基づいて設定される.

メディアデータのデジタルな値から基本となるパラメータを抽出し,設定された印象語群との相関を表した線形作用素(行列)を作用させる事により,重み付きの印象語群で表現されたメタデータを抽出する.

一般逆作用素によるメタデータ生成

MLの一般逆作用素を用いる事によって,メディアデータからの印象抽出の逆演算として,印象を表す言葉からメディアデータを生成することができる.

MLにおける特徴抽出には非線形な演算が含まれるため,逆演算時には制約条件(専門家の研究による)を用いて要素の配置を行う.

意味情報や感性に基づいた異種メディアの連結

各メディアに対応するMLと意味の数学モデルを用いる事により,異種のメディアを意味情報や感性に基づいて連結することができる.このとき,メタデータを構成する印象語群は各メディア毎に専門家が独自に定めたものであり,メディア毎に使用されている語が異なっているため,そのままでは異種のメディアとの関係を調べる事ができない.そこで意味の数学モデルを用いて,辞書から設定される多くの語を包括する空間の中で相関を計量する事により,異種メディアを連結することができる.

メディアデータに対してMLを設定する事ができれば,他のメディアデータとの相互の検索が可能になり,さらにMLの逆演算を設定する事ができれば,他のメディアデータの印象を反映したメディアデータの生成が可能となる.