編譯:麥姆斯咨詢
計(jì)算機(jī)視覺(jué)將再次重塑?
Prophesee聯(lián)合創(chuàng)始人、匹茲堡大學(xué)眼科教授、卡耐基梅隆大學(xué)機(jī)器人研究所兼職教授Ryad Bensoman認(rèn)為,事實(shí)確實(shí)如此。作為基于事件的視覺(jué)技術(shù)的開創(chuàng)人之一,Bensoman預(yù)計(jì)神經(jīng)形態(tài)視覺(jué)(基于事件相機(jī)的計(jì)算機(jī)視覺(jué)),將成為計(jì)算機(jī)視覺(jué)的下一個(gè)發(fā)展方向。
“計(jì)算機(jī)視覺(jué)已經(jīng)經(jīng)歷了多次重要革新?!彼f(shuō),“我至少見(jiàn)證了兩次相當(dāng)于從頭開始的重塑。”
Bensoman認(rèn)為首先是20世紀(jì)90年代的一次轉(zhuǎn)變,即從涉及一些攝影測(cè)量的圖像處理轉(zhuǎn)向基于幾何學(xué)的視覺(jué)方案,然后是如今向機(jī)器學(xué)習(xí)的快速轉(zhuǎn)變。盡管經(jīng)歷了這些革新,但現(xiàn)代計(jì)算機(jī)視覺(jué)技術(shù)仍然主要基于圖像傳感器,即生成近似人眼所見(jiàn)圖像的可見(jiàn)光成像傳感器。
Bensoman認(rèn)為,在這種圖像傳感模式打破之前,它實(shí)際阻礙了替代技術(shù)的創(chuàng)新。GPU等高性能處理器的開發(fā),推遲了尋找替代解決方案的需要,從而延長(zhǎng)了這種影響。
“為什么我們要用圖像進(jìn)行計(jì)算機(jī)視覺(jué)?這是一個(gè)非常值得深究的問(wèn)題?!彼f(shuō),“我們使用圖像,完全是歷史原因?!?/span>
成像相機(jī)
自公元前五世紀(jì)針孔成像技術(shù)誕生以來(lái),成像相機(jī)就一直伴隨著我們。到了16世紀(jì),藝術(shù)家們建造了房間大小的裝置,用于將設(shè)備外的人或風(fēng)景記錄到畫布上。經(jīng)過(guò)多年的發(fā)展,這些畫布逐漸被膠片所取代,以記錄圖像。隨后,數(shù)碼攝影等技術(shù)創(chuàng)新,最終使相機(jī)成為現(xiàn)代計(jì)算機(jī)視覺(jué)技術(shù)的基礎(chǔ)。
然而,Bensoman認(rèn)為,基于成像相機(jī)的計(jì)算機(jī)視覺(jué)技術(shù)效率極低。他將之類比中世紀(jì)城堡的防御系統(tǒng):利用城墻周圍的守衛(wèi)監(jiān)視四面八方接近的敵人。鼓手敲擊穩(wěn)定的節(jié)拍,每個(gè)守衛(wèi)會(huì)在每個(gè)鼓點(diǎn)上,大聲喊出他們所看到的情況。在眾多守衛(wèi)的呼喊聲中,明辨其中一位發(fā)現(xiàn)遙遠(yuǎn)森林中的敵人并非易事。
來(lái)到21世紀(jì),鼓聲硬件相當(dāng)于電子時(shí)鐘信號(hào),而守衛(wèi)好比每個(gè)像素——它們產(chǎn)生了大量數(shù)據(jù),并且必須在每個(gè)時(shí)鐘周期捕捉信號(hào),這意味著大量冗余的信息和大量不必要的計(jì)算。
Bensoman說(shuō)道:“守衛(wèi)的監(jiān)視和匯報(bào)相當(dāng)于城堡的算力。他們需要一直監(jiān)視沒(méi)有事情發(fā)生的情況,并匯報(bào),相當(dāng)于一直在搜集大量無(wú)用的信息,造成很大的帶寬。如果這座城堡還非常龐大且復(fù)雜,要捕捉到有用的信息是何其費(fèi)事且困難?!?/span>
來(lái)到神經(jīng)形態(tài)視覺(jué),其基本思想受生物系統(tǒng)工作方式的啟發(fā),即檢測(cè)動(dòng)態(tài)場(chǎng)景中的變化,而不是連續(xù)分析整個(gè)場(chǎng)景。對(duì)于剛才的城堡類比,這意味著守衛(wèi)在沒(méi)有情況發(fā)生時(shí),可以保持靜默無(wú)需持續(xù)匯報(bào),直到他們發(fā)現(xiàn)敵人,然后大聲喊出他們的位置以發(fā)出警報(bào)。對(duì)于傳感器來(lái)說(shuō),這意味著可以讓單個(gè)像素決定它們是否看到相關(guān)的東西。
“像素可以自己決定應(yīng)該發(fā)送什么信息,它們可以選擇捕捉有意義的‘特征’信息,而不是捕捉所有信息,這就是區(qū)別所在?!彼f(shuō)。
與固定頻率的系統(tǒng)采集相比,這種基于事件的方法可以節(jié)省大量能耗,并減少延遲。
他說(shuō):“我們需要更具適應(yīng)性的東西,而這正是基于事件的視覺(jué)技術(shù)可以提供的,一種自適應(yīng)的采集頻率。當(dāng)考量振幅變化時(shí),如果某個(gè)物體移動(dòng)得很快,我們就會(huì)得到很多樣本。如果某個(gè)物體沒(méi)有變化,那么樣本量幾乎為零。因此,這能夠根據(jù)場(chǎng)景的動(dòng)態(tài),調(diào)整采集頻率?!?/span>
Bensoman于2000年進(jìn)入神經(jīng)形態(tài)視覺(jué)領(lǐng)域,他堅(jiān)持認(rèn)為過(guò)去基于圖像的先進(jìn)計(jì)算機(jī)視覺(jué)不是最好的方案。他說(shuō):“最大的轉(zhuǎn)變是,我們可以在沒(méi)有灰度和圖像的情況下進(jìn)行視覺(jué)處理,這個(gè)概念的提出在2000年前后可以說(shuō)是‘無(wú)稽之談’?!?/span>
Benosman提出的技術(shù)成為當(dāng)今事件傳感的基礎(chǔ),它是如此具有開創(chuàng)性,以至于當(dāng)時(shí)提交給最重要的IEEE計(jì)算機(jī)視覺(jué)期刊的論文未經(jīng)審查就被拒絕了。事實(shí)上,直到2008年開發(fā)出動(dòng)態(tài)視覺(jué)傳感器(DVS),這種方案才開始獲得廣泛關(guān)注。
Prophesee的部分客戶應(yīng)用展示了常規(guī)相機(jī)和DVS傳感器輸出的差異(來(lái)源:Prophesee)
神經(jīng)科學(xué)的啟示
神經(jīng)形態(tài)技術(shù)源自生物系統(tǒng)的啟發(fā),包括終極計(jì)算機(jī),大腦及其計(jì)算元素,神經(jīng)元。問(wèn)題是我們還沒(méi)有完全理解神經(jīng)元是如何工作的。雖然我們知道神經(jīng)元是對(duì)被稱為尖峰的電信號(hào)起作用,但直到最近,研究人員對(duì)神經(jīng)元的表征還相當(dāng)草率,認(rèn)為只有尖峰的數(shù)量才重要。
這一假設(shè)持續(xù)了幾十年。最近的研究已經(jīng)證明,這些尖峰的時(shí)間信息絕對(duì)關(guān)鍵,而大腦結(jié)構(gòu)在這些尖峰中產(chǎn)生延遲來(lái)編碼信息。
如今的尖峰神經(jīng)網(wǎng)絡(luò)模擬了大腦中的尖峰信號(hào),是尖峰信號(hào)的一種二進(jìn)制(‘0’或‘1’)表達(dá)?!笆盏揭粋€(gè)‘1’信號(hào),喚醒,計(jì)算,然后休眠?!盉ensoman解釋道。但實(shí)際要復(fù)雜得多。當(dāng)尖峰信號(hào)出現(xiàn)時(shí),神經(jīng)元開始對(duì)尖峰值進(jìn)行積分;神經(jīng)元也會(huì)有遺漏,這意味著結(jié)果是動(dòng)態(tài)的。還有大約50種不同類型的神經(jīng)元,具有50種不同的整合模式。當(dāng)前的電子化版本缺少集成的動(dòng)態(tài)路徑、神經(jīng)元之間的連接以及不同的權(quán)重和延遲。
Bensoman說(shuō):“問(wèn)題在于要制造一款高效的產(chǎn)品,由于我們還不不夠理解它,不能模仿所有的復(fù)雜性。如果我們掌握了完善的大腦理論,就可以解決它,但問(wèn)題是我們理解得不夠?!?/span>
現(xiàn)在,Bensoman運(yùn)營(yíng)著一個(gè)獨(dú)特的實(shí)驗(yàn)室,致力于理解大腦皮層計(jì)算背后的數(shù)學(xué)問(wèn)題,旨在創(chuàng)建新的數(shù)學(xué)模型,并將其復(fù)制到硅基器件。這包括直接監(jiān)測(cè)來(lái)自真實(shí)視網(wǎng)膜的尖峰信號(hào)。
但是,Bensoman反對(duì)完全復(fù)制生物神經(jīng)元,他認(rèn)為這種方法不可取。他表示:“在硅芯片上復(fù)制神經(jīng)元的想法,源自人們?cè)诰w管中看到了類似真實(shí)神經(jīng)元的機(jī)制。不過(guò),我們無(wú)法制造并利用腦細(xì)胞,但我們有硅芯片。我們需要根據(jù)硅芯片的特性來(lái)因地制宜。如果我們知道在計(jì)算什么,利用硅芯片,我們就可以優(yōu)化這個(gè)方程式,并以最低的成本、最低的功耗、最低的延遲運(yùn)行?!?/span>
數(shù)據(jù)處理能力
認(rèn)識(shí)到?jīng)]有必要精確復(fù)制神經(jīng)元,再加上DVS傳感器的開發(fā),驅(qū)動(dòng)了現(xiàn)在神經(jīng)形態(tài)視覺(jué)系統(tǒng)的發(fā)展。盡管現(xiàn)在已經(jīng)有產(chǎn)品上市,但要實(shí)現(xiàn)完全類人的視覺(jué)傳感器商業(yè)化,還有一段路要走。
最初的DVS傳感器像素“較大”,因?yàn)楣怆姸O管周圍的組件本身大大降低了填充因子。雖然對(duì)這類相機(jī)開發(fā)的投入加速了這項(xiàng)技術(shù)的發(fā)展,但Bensoman明確表示,目前的事件相機(jī)仍然只是對(duì)2000年最初研究的改進(jìn)。
索尼、三星和豪威最先進(jìn)的DVS傳感器具有更微小的像素,采用3D堆疊等先進(jìn)技術(shù),降低了噪音。Bensoman考慮的是,目前使用的傳感器類型能否成功擴(kuò)大生產(chǎn)規(guī)模。
他說(shuō):“問(wèn)題是,一旦增加像素的數(shù)量,就會(huì)得到更大量的數(shù)據(jù)?,F(xiàn)在,由于處理速度仍然非???,可能仍然可以實(shí)時(shí)處理它,但太多的像素會(huì)帶來(lái)太多的相對(duì)變化。現(xiàn)在,再這樣下去可能會(huì)進(jìn)入死胡同,因?yàn)槿藗冎浪臐摿?,但現(xiàn)在還沒(méi)有合適的處理器來(lái)支持它的運(yùn)行?!?/span>
通用神經(jīng)形態(tài)處理器落后于對(duì)應(yīng)的DVS傳感器。一些業(yè)內(nèi)最大的廠商(IBM Truenorth、Intel Loihi)仍在努力開發(fā)中。Bensoman說(shuō),合適的處理器加上正確的傳感器,將成為無(wú)與倫比的組合。
Bensoman表示:“今天的DVS傳感器速度極快,帶寬超低,動(dòng)態(tài)范圍大,所以可以支持室內(nèi)和室外的廣泛應(yīng)用。這是確定的未來(lái),市場(chǎng)起飛是可以預(yù)見(jiàn)的?!彼€補(bǔ)充道:“誰(shuí)能推出優(yōu)異的處理器并提供完整的堆棧,就能贏得未來(lái)的競(jìng)爭(zhēng),因?yàn)檫@必將無(wú)可匹敵!”