マイコミジャーナル

知りたい!を刺激する総合専門サイト


  1. 携帯

  2. コラム
  3. ストリートインタビュー

【コラム】

ストリートインタビュー

179 世界から引く手あまた、人とロボットを探究する研究機関所長(6)

2005/05/31

山田久美

ID:99
氏名:金出武雄
年齢:59歳
職業:カーネギーメロン大学教授/産業技術総合研究所 臨海副都心センター デジタルヒューマン研究センター センター長
場所:銀座
携帯電話:au 三洋電機製GLOBAL PASSPORT対応端末
1カ月の携帯電話使用料金:-円

ところで以前、金出教授の講演でSFM問題についてお話されているのを聞いたことがあるのですが、これにはLucas-Kanadeの理論が活かされているのでしょうか。「SFMとは、Structure from Motionの意味ですね。つまり、与えられた動画像から、そこに映っている物体やシーンの形、同時にカメラの動き自体を復元できるかという問題です。先ほど言ったTomasi-Kanadeの因子分解法というのがその解法です。例えば、ビデオカメラを使ってある物体の周りをぐるっと一周動かして撮影し、それを私たち人間が見ると、撮影した物体の形とカメラの動きがわかる気がしますよね。それを、コンピュータでできないかということです。これができれば、色々な分野に応用できるのは明らかです。建物を建てる場合、予め環境の3DモデルをCGで作り、シミュレーションしたいわけですが、すでにある環境の3Dモデルを作る際に、測量などをせずに、ビデオカメラで既存の建物などを撮影し、それを基に3Dモデルが作れるようになれば便利でしょう。

Tomasi-Kanadeの因子分解法をちょっと説明するとね、こうです。1枚目の画像の中で、物体の角といった特徴点を多数取り出して、取り出した特徴点の各々の位置を1枚目はここ、2枚目はここ、3枚目はここという風に、全部でP個の点を、長さFフレームの系列中ずっと追跡していったとします---そのとき、Lucas-Kanade法を使うのですが、p番目の特徴点の第fフレームにおける画像中の横座標位置xpfをp列、同じように、その縦座標位置ypfをp列とし、それぞれのf行の要素となる行列[xpf]、行列[ypf]を考えます。

そして、この2つの行列を縦に重ねた2F行P列の大きな行列Wを作ったとします。特徴点の数Pは何百、画像の数も何十から何百といった数ですから、Wは随分おおきな行列です。ところが不思議なことに、どんなにたくさんの特徴点をどんなに多くの枚数の画像でトラッキングしても、つまり、どんなにPやFが大きくても、この行列Wの階数は3以下、つまり本質的な情報は3行ないし3列にしかないということが証明できたんです。なんだか不思議な気がしませんか。この結果を用いたことで、ビデオカメラを使って撮影した映像が与えられたときに、それらを画像処理し、物体の形とカメラの動きを自動的に取り出せるTomasi-Kanade法が開発できたのです。

「SFM(=Structure from Motion)」。与えられた動画像から、そこに映っている物体やシーンの形、カメラの動き自体を復元できるかという研究が1970年の終わり頃から盛んになったという。Tomasi-Kanadeの因子分解法がその解法あたる

このSFM問題に関する研究は、実は、1970年の終わり頃から、ビジョン研究者みんなが取り組んでいました。しかしながら、いろいろな理論らしきものはできるものの、実際にやってみるとなかなかうまくいきませんでした。1990年に発表したこのTomasi-Kanade理論はこれを現実的なものにした最初の理論といえるでしょう。その後、この分野はずいぶん発展し、現在完全な自動化はできていないものの、複数の写真やビデオ映像から建物や物体の形を3Dで復元するといったことや、もともと撮ってあった視点以外から画像を作り出してバーチャルリアリティに利用する、さらには、すでに撮られた映画やビデオに自然な形で人工的シーンを入れ込むといったビジョンとグラフィックスの融合などが行われるようになりました。

特徴点をいくらトラッキングしても、行列Wの階数、つまり本質的な情報は3行ないし3列にしかないという。この結果を用いたことで、Tomasi-Kanade法の開発に成功したと金出教授。現在、完全な自動化はできていないものの、複数の写真や動画などから物体の形を3Dで復元するといったことや、もともと撮ってあった視点以外から画像を作り出してバーチャルリアリティに利用する、さらには、既存の映画などに自然な形で人工的シーンを入れ込むといったことが行われるようになった、とのこと

動画
wmv形式 8.90MB 5分9秒

また、最近でおもしろいのは、低解像度の画像から高解像度の画像を生成するといった研究です。例えば、解像度の低い監視カメラの顔画像から、もっと解像度の高い顔画像を作れないかといった内容です。高解像度の画像から低解像度の画像を作ることは簡単です。画像をぼかす平滑化フィルタをかけ、結果を粗くサンプルすればよいわけです。平滑化の簡単な例は平均化です。例えば、200×200の画像において、2×2の画素をその平均値に置き換えることによって、2分の1の大きさの100×100の画像にすることができます。

逆に、低解像度から高解像度にするのはむずかしい。例えば、上の例だと、平滑化して作った100×100の画像から、元の200×200の画像を作ろうというわけです。それは、2×2の領域つまり4つの数の平均値から、元の4つの数をすべて当てようというクイズなわけですから、難しいというか、ちょっとできそうにありません。しかし、我々が実際にこれを行ってみたところ、それが誰の顔かはわからないが、顔の画像であるとわかっているときには、実は、意外に復元可能だということがわかったんですよ」

低解像度の画像から高解像度の画像を生成

(インタビュアー=山田久美)

*次回に続きます。


画像で見るニュース(携帯)

特別企画


注目サイト