アナログブレイン - hon-daniの日記

作者: マイケルモーガン,鈴木光太郎
出版社/メーカー: 新曜社
発売日: 2006/11/25
メディア: 単行本
購入: 1人クリック: 3回
この商品を含むブログ (6件) を見る

原題は The Space Between Our Ears: How the Brain Represents Visual Space（二つの耳の間にある空間：脳は視覚空間をいかに表現するか）．訳者の鈴木光太郎氏（本文中の「訳注」がタイムリーに挿入されていて読みやすい）のあとがきによると，「すぐれた科学書にあたえられるイギリスの科学振興財団の賞，ウェルカム・トランスト・プライズを受賞した」とのこと．

原題のとおり，眼からの情報が脳にどのように表されているかについて，とても分かりやすく書かれている．著者の立場は「はじめに」で明確に述べられている．

私は，脳は地図製作者だという立場をとる．脳のなかには複数の地図があって，それらが私たちの空間知覚の基礎をなしている．

ものを見るとき，眼は物理空間のさまざまな方向からくる光を受けとり，次に脳がその物理空間内に位置づけられた行為を生み出す．（中略）神経科学者がこれらのマップと行為の間の関係を探っていけば，おそらくいろんなマップが次々に見つかるに違いない．（中略）視覚から行為にいたるこの経路には，マップが消えて「空間の視覚的意識」が現われるといった，なぞめいた横道などない．空間の視覚的意識というのはたんに，網膜から行為にいたるさまざまなマップの活動そのものなのだ．

網膜が受容した像から，行為に有用な特徴を抽出して像の「マップ」を作る．そのマップを受けてより別の情報を抽出して異なる「マップ」を作る．こういったマップとその連鎖が本質であることが説明される．

一読して気づくのは，微分演算が視覚において極めて重要な役割を果たしていることだ．すなわち，明るい部分と暗い部分の境界を見つけるために明暗の差を検出したり，動きを検知するために時間変化を検出したりする．これらは，少し気取って言えば空間微分と時間微分演算そのものだ．こういった微分演算が受容野でなされていることなどが述べられている．

像からどのような特徴を抽出すべきかは問題だ．画像認識処理に関心ある研究者の多くが読んでる本「ビジョン」は，この，「像をどのような特徴で表現すべきか」について書かれた本の一つだった．そこでは次のような枠組みが提示される．
１：画像
２：原始スケッチ(primal sketch)--明暗が変化する位置とその配置．
３：2-1/2次元スケッチ --観察者（カメラ）から対象までの距離，各位置における対象表面の法線方向など．
４：3次元モデル --対象の（階層的な）形状モデル

１→２の処理は，画像に対する微分演算が基本．２→３はステレオや陰影による3次元形状復元処理が基本．特に後者のステレオ復元の数理については，ここ15年ほどで格段の進歩があった．下記URLはそのような成果から生み出されたアプリケーションのひとつ．
Photo Tourism
asin:4782851235

対象の3次元形状の計測とモデル化は視覚系の重要なタスクの一つで，もう一つ重要なタスクが文字や人の顔などの認識だ．認識機械は対象のデータ（画像）を対象のコード（例えばASCIIコード)へと変換する．この際問題となるのは，同一コードを持つ対象が，多種多様なデータとして観測されることだ．例えば文字の「あ」は，フォントか手書きか．誰がどのようなペンで書くかなどによって変形して，異なる画像として観測される．それら異なる画像の差異を無視して，同一コードを出力しないといけない．このような認識に対して本書「アナログブレイン」は，生成モデルを紹介する．すなわち，先見的な知識を事前確率で表して，その事前確率と観測された事象に基づいて，ベイズ推定をおこなう枠組みを紹介する．

もし知覚についてベイズ流の考えが正しいなら，知覚とはモデルであって，私たちはそのモデルを使って外界について的確な推測をしていることになる．（中略）知覚のプロセスは，内的モデルを選び，そのあとデータに対してそれをチェックすることだと言える．

生成モデルはまた，私たちが筋肉をどう動かすかも説明し始めている．（中略）もし行為には，内的モデルと身体の現在の状態との間の比較が含まれているのなら，知覚と行為という区別は消えることになる．

この知覚と行為の区別は消える云々の指摘は味わい深い．

画像処理との関連では，第9章「バベルの画像図書館」でガボールフィルタの話と固有顔について触れられていた．後者の固有顔については，実は画像から特徴抽出をおこなう枠組みから外れている．実用に耐える認識機械の多くは，文字と顔の認識については，画像を特徴で表現したものを用いるより，画像を直接認識機械に入力することによって実現されている．画像からの特徴抽出がベラボウに難しいことが理由のひとつ．画像特徴を抽出するような低次の処理と認識のような高次の処理の関係について，次のように指摘する．本書を読んで最も私の印象に残った場所のひとつ．長いが引用する．

もし知覚が内的に生成された幻覚で，私たちはそれを「データ」照らしてチェックするというのなら，なにがデータなのだろうか？網膜にある生の像か，それとも一次視覚野にある情報なのか？（中略）網膜は，棹体と錐体がとらえた光子数を比較する「コントラスト」の信号に変換し，視神経線維に伝える．（略）わかっているかぎりでは，このプロセスは，高次レベルのモデルの介入を必要としない（略）視床や一次視覚野になってやっと，逆方向（高次レベルのモデルから低次処理への）「フィードバック」的連絡が見つかる．（略）フィードバック的連絡が，低次のレベルの細胞の活動を変化させると主張している生理学者もいるが，これはにわかには信じがたい．（略）
網膜と一次視覚野は，「仮説検証」がおこなえる場所ではない．そこにあるアナログ・コンピュータは，自然淘汰によって数百万，数千万年をかけて，入力データを形どるように作り上げられてきた．ボトムアップ処理とトップダウン処理の間の歩み寄りは，まずはボトムアップ処理によって像が自動的に分析され，入力データを仮説検証が受けられる形式にすることである．

この「ボトムアップ処理」と「トップダウン処理」の実現には，それぞれの処理に適した数学（例えば後者では統計）の成果が応用される．そして，これら2種類の処理の歩み寄りには，工学的に成功しているとは現状では言い難い．

「おわりに」では次のように述べられる．著者の直感も含んでいて傾聴に値すると思う．信じるかどうかは別で．

世界のなかを動き回り世界と相互作用する機械なら，入ってくるデータと内的モデルを照らし合わせることができるだろう．これが意味の問題を回避する．すなわち，そのモデルの意味は，機械の内部になるのではなく，外側の世界にあるのだ．

私の主張は，環境のなかを動き回り環境と相互作用する上でほんとうに効果的な機械なら，私たちの脳同様，強力なアナログ・コンピュータの要素をもつだろう，ということだ．