視覚認識のための3種類の処理ユニットを新たに発見 ソーク研究所

一次視覚野から発する視覚情報伝達経路の画像
Credit: Wikipedia

人が見えるものを認識するとき、網膜から入力された情報は、電気信号に変換されて、脳の後頭部側にある一次視覚野(V1)に送られる。

V1には、視覚の空間情報のマップがある。つまり、視野をグリッドで区切った場合に、対応するブロックを処理するための部位がV1に存在する。

しかしV1では、局所的なエッジ(輪郭)を捉えているに過ぎず、それは、視野のグリッド一つ一つを、コントラストだけを取り出した像に変換していることを意味する。(ウィキペディア:ガボールフィルタを参照)

V1で抽象化された像は、二次視覚野で更なる処理を受けるが、視覚野は五次まで存在するにも関わらず、どのような処理を行っているのかほとんど分かっていない。

二次視覚野の3種類の処理ユニット

この二次視覚野における認識処理の一端が、ソーク研究所の研究者らによって提出された。

研究者らは、スパイクデータ共分散や畳み込みモデルなどの方法をまとめた神経応答に対する統計的分析手法を開発。自然の風景の映像を見ている霊長類の脳反応の公開データに適用した。

解析結果から、V2ニューロンがエッジの組み合わせに応答し、3つの原則に従って視覚情報を処理していることを明らかにした。

原則の第1は、位置的に近傍かつ同方向のエッジをまとめる処理があることで、これはオブジェクトの輪郭の認識をより強固にする。

原則の第2は、ある方向のエッジの活性と、それから直交方向で同じ位置のエッジの抑制を組み合わせる処理が存在することである。ある方向のエッジが活性の場合、ふつう同じ位置の直交方向のエッジは抑制されているはずである。V2ニューロンでは、この二つをまとめる処理があるのだ。

原則の第3は、以上2つの原則に従った複合エッジ処理が空間的に連続することでオブジェクトの輪郭とテクスチャ(手触り、または質感)を形成していることである。

研究者らは、発見した原則を組み込んだモデルを2次畳み込みモデル(Quadratic Convolutional model)と命名。画像処理アルゴリズムとして追加したところ、映像認識のパフォーマンスが向上したという。

研究者らは、この3原則はロボットなどの物体認識アルゴリズムに直接応用できるとしており、また今後、脳内の同様な処理法が発見され、物体認識アルゴリズムに追加されるたびに、コンピュータによる画像認識のパフォーマンスは向上していくだろうと述べている。

人工知能による画像認識高度化への二つの道筋

この研究は、人工知能による画像認識高度化への道筋を示しているように思える。

ディープラーニングは、代表的な画像認識法として知られ、視覚野と同様の多層構造を持つ。それは、ディープラーニングで用いられる畳み込みニューラルネットワーク(CNN)が、一次視覚野のニューロン構造を模倣していることに起因する。

そして実際、CNNの浅い層では、一次視覚野で活性するような像が、特徴量として得られる。

CNNのより深い層で、どのような基準により画像認識を勧めているか分からないが(実際に人間に理解できていない)、CNNの中層辺りから得られる特徴量を見る限り、輪郭とテクスチャから構成したような像は見当たらず、今回の研究で発見されたような処理は行われていないように思える。

このことは、人工知能による画像認識に二つの道筋を示す。一つには、画像によってはすでに人間以上の認識能力を示している現在の方法を進めていく道。もう一つには、人間の視覚野の理解が進むごとに、その知見を加えていく道である。

前者の道は、主観的な視覚しか持たない人間(人間の視覚には補正がかかっている)とは異なる、客観的な視覚を持つ知的存在を生み出す可能性があり、そんな存在から生み出される思考や知識がどのようなものになるのか極めて興味深い。

また後者の道は、色に温度を感じてしまうような人間と同様の知的存在を生み出すことにつながるだろう。

関連情報

ソーク研究所(Salk Institute for Biological Studies)

カルフォニア州サンディエゴ郊外のラホヤに位置する生物医学系の私立研究所。小規模ながら論文の引用度は世界屈指で、ノーベル賞受賞者も多数輩出。ポリオワクチンを開発したジョナス・ソークによって設立された。【ウィキペディア:ソーク研究所

参考リンク:

スポンサーリンク
スポンサーリンク