2016年最も好きな論文

この記事は,今年読んだ一番好きな論文 Advent Calendar 2016への投稿です. 下記の論文について紹介します.絵を描く時間をわすれており,結果としてわかりにくくなってしまった. Rust, N. C., & DiCarlo, J. J. (2010). Selectivity and tolerance (“invariance”) both increase as visual information propagates from cortical area V4 to IT. The Journal of Neuroscience : the Official Journal of the Society for Neuroscience, 30(39), 12978–12995. http://doi.org/10.1523/JNEUROSCI.0179-10.2010

概要

全然今年発表された論文じゃないんですが真面目に読んだのは今年だし面白かったので解説します.近年,視覚皮質を模したモデルを用いたCNNが注目を集めていて深い階層が効果を発揮する根拠の一つとしてたまに挙げられる論文の一つです.ざっくりいうと,

低次から高次の視覚野にかけてみている物体の脳内表現が一般化 (抽象化といってもいい)されてく ということを示した論文です.以前 (というか今も) の神経科学の論文では各領野から神経細胞の特性をひとつひとつ取り出してV1にはこういう細胞が多くてV4にはこんな特性を持つ細胞がある〜といった論旨の論文がまだまだ根強いのですがこの研究ではある領野の細胞集団のデータをつかってパターン認識を行うという手法を用いているのが特徴です.こういったアプローチの研究も近年増えてきています.著者らは神経科学に機械学習手法をもちこんだ結果を次々と発表していて,注目されているグループです.

intro

視覚に関わるニューロンの受容野

視覚研究ガチ勢には怒られそうな雑解説をします. 下記はノーベル賞も受賞したHubel, Wiesel 氏らによるネコ初期視覚野ニューロンの受容野の同定を示した実験の動画です.

動画LINK

上の動画の前半では初期視覚野の単純型細胞とよばれる細胞の視覚刺激への応答を計測しています.この細胞はある向きで中心が暗く,周辺が明るいバーが担当している領域にあったときにスパイクをたくさん発します.このように,視覚野の特に初期のニューロンはそれぞれ視野のある一部分を担当して,その領域の方位・空間周波数をよみだすフィルターになっていて,フーリエ変換のような計算が脳内で行われているとされています.これらの細胞の応答を集めると逆フーリエ変換ができ,つまり初期視覚野は画像の圧縮表現を行っていると言えます.(詳しくは 大澤先生@阪大のサイトなどをご覧下さい) 近年ではこのような細胞の担当する範囲とその応答特性まで含めて “受容野” と呼ぶことが多いです.

高次の視覚野ニューロンの特性とinvariance (不変性)

それでは高次の視覚野のニューロンはどんな情報を表現しているのかというと,より 抽象的特定の形 に対して強く応答するニューロンがあると言われています.さらにそういったニューロンの多くは,同じ顔の視覚刺激ならば向き・大きさ・表示する場所などが変わっても同じような応答をすることが知られていました.このように視覚刺激の大きさや場所などのパラメータをかえて呈示しても細胞の応答が変化しないことを指して invariance と呼びます.つまりこれらの細胞は初期視覚野のように画像特性を表現しているのではなくより抽象的に「目の前に顔(や特定のオブジェクト)があるかどうか」を表現しているのです.上述したV1の単純型細胞は受容野内でも適切な場所に黒いエッジがないと応答しないのにくらべると,かなり抽象化した表現がされていることが推察されます.

この論文のポイント

これまでの研究の問題点

というストーリーが長い間教科書的には説明されていたのですが,実際により高次視覚野になるにつれて size, position などについての invariance を獲得しているかどうかは統一的・定量的に検証されされていませんでした.IT野の細胞といっても特定の顔にしか応答しない細胞もあれば色々な物体に応答する細胞もあり,多くの細胞の選択性はそれほど高くないのです.また複数の領野で同じ刺激をつかって検証するのは実験的にも大変ですし,多くの論文では「この領野にはこんな細胞が多かった」という程度で終わっている場合が殆どでした.

新しい点

この研究では機械学習の手法であるSVM (線形カーネル) を用いて,上記問題の解決に取り組みました.細胞一つ一つの特性の分布からでなく,各領野細胞の特性をまとめて特徴量として脳活動からそのとき見ていた物体の分類をしようという考えで,つまり細胞一つ一つではなく,集団での表現をみようという考えです.もし invariance が高次視覚野で集団表現されているとすれば,呈示場所 や画像サイズを変更した同様の画像セットを同じクラスとして分類できるはずです.

手法と結果

記録

記録実験自体は単純なもので,まずたくさん物体画像を用意し,そのサイズや呈示する場所を変えて何度もサルに見せます.その際にサルの視覚野V4・ITに神経細胞の応答を測るために電極を刺入しておきます.このようにして計測している細胞がどのような視覚刺激を見たときにどれくらいスパイクを発生するかを記録します.この手法で200個くらいの神経細胞の特性 (どの画像,場所・サイズに対してどのくらいスパイクを発生するか)を調べます.

(サルのイラスト以外はいらすとやさんより)

解析方法および結果

このとき細胞集団の活動からどの画像がでていたか当てることができるか?ということで機械学習の手法を用います.この正解率でV4/ITの情報表現を探ります. まず上の実験での各細胞の応答の強さを特徴ベクトルとしてSVMに学習させます.ある画像を表示した際の応答は,n (記録した細胞数) 次元の空間の一点として表されますので,この空間上にどの画像が画面にでていたかの境界線を定義するということです .

この際に,オブジェクト画像のサイズや表示する場所を変えても弁別ができるとしたら,その細胞集団は表示されている画像の特性ではなくその “物体” そのものを表現していると言えないでしょうか? この論文の大きな結果は,中期視覚野V4細胞の活動データで作ったSVMは刺激画像の場所・大きさがかわったデータを含めると大きく正解率が下がるのに対し,高次視覚野であるIT細胞群のSVMは正解率があまり下がらないということを示したことです.特に画像を表示する場所についてV4と比べ強い invariance を示しており,これはこれまでの研究で示されていた個々のIT野細胞の特徴と一致する結果となりました. [模式図: 本文 fig 7c. ]

最後に

細胞一つ一つでみると微妙な差だったり単なる分布の差だったりした invarianceを,機械学習の手法をもちこんで細胞群をまとめて直接比較するというのが非常に面白いと感じました.上で紹介した解析はこの論文のごく一部で,さらに個々の細胞レベルでの解析もあり,またスクランブル画像 (低次特徴量を保持しつつ画像全体の構造をシャッフルした画像)に対する応答を調べたりもしています.神経科学や機械学習に興味のある方は是非一読ください.


コメントを残す

メールアドレスが公開されることはありません。 * が付いている欄は必須項目です