亚洲综合伊人,成人欧美一区二区三区视频不卡,欧美日韩在线高清,日韩国产午夜一区二区三区,大胆美女艺术,一级毛片毛片**毛片毛片,你瞅啥图片

您當(dāng)前的位置是:  首頁 > 新聞 > IT與互聯(lián)網(wǎng) >

圖森互聯(lián)郝佳男:視覺感知的正確打開方式

2016-09-26 14:49:06   作者:   來源:新浪汽車   評論:0  點(diǎn)擊:


  在9月24日的新浪汽車第七期輪語匯自沙龍上,圖森互聯(lián)聯(lián)合創(chuàng)始人郝佳男做了題為《視覺感知—無人駕駛的基石》的主題演講。郝佳男在演講中結(jié)合前段時(shí)間特斯拉Model S出現(xiàn)的致死事故實(shí)例,為我們講解了“視覺感知的正確打開方式”。
\
圖森互聯(lián)聯(lián)合創(chuàng)始人郝佳男圖森互聯(lián)聯(lián)合創(chuàng)始人郝佳男
  以下是演講實(shí)錄:
  郝佳男:謝謝大家,首先感謝牛車網(wǎng)提供這樣一個(gè)舞臺,讓大家都能展現(xiàn)自己公司做的事情。
  今天很有意思,剛才王總和伍總都提到了一點(diǎn),就是大家目前用的傳感器都是基于視覺去做,或者把視覺作為主要的傳感器,這也跟我今天的演講題目很貼近,我講的是視覺感知為什么是無人駕駛汽車的基石。
  北京是總部,美國有個(gè)研究院,加起來大概60人的規(guī)模。我自己是南洋理工畢業(yè)的博士,但是我做的并不是視覺感知這部分,更多在底層技術(shù),比如并行、分布式、虛擬化、安全,現(xiàn)在我負(fù)責(zé)圖森研發(fā)的基礎(chǔ)架構(gòu)和路線的制定。
  提到視覺感知,它到底是什么意思?說白了就是拿一個(gè)攝像頭拍一張圖片,或者拍一個(gè)連續(xù)的圖片序列,最后告訴計(jì)算機(jī),你要給我完成一個(gè)任務(wù)。
  任務(wù)有多種多樣,比如識別車輛,識別某個(gè)物體,比如追蹤這個(gè)移動(dòng)的物體。再比如對場景的理解,這部分是人,那部分是建筑物,有一部分是樹木,有一部分可能是其他份量,這些是場景分割。
  所有的算法怎么評定誰好誰壞?通過第三方去評判,F(xiàn)在世界上最權(quán)威的數(shù)據(jù)集有兩個(gè),一個(gè)是Cityscapes,由奔馳主推,測試無人駕駛環(huán)境下通過單目攝像頭采回來的圖像,然后對它進(jìn)行分割,分類比較多。另一個(gè)是KITTI,這個(gè)數(shù)據(jù)集相對來說跑的項(xiàng)目多一點(diǎn),比如目標(biāo)的檢測包括三項(xiàng),機(jī)動(dòng)車、非機(jī)動(dòng)車和行人,包括目標(biāo)的追蹤和路面分割。
  還 有兩個(gè)數(shù)據(jù)集是AFLW和300W,這是對人臉的檢測,有68點(diǎn)或者更多點(diǎn)的測試。為什么要提到這個(gè)數(shù)據(jù)集?因?yàn)闊o人駕駛中還有一個(gè)很重要的應(yīng)用,要對駕 駛員有狀態(tài)的檢測,在L2、L3的自動(dòng)駕駛中人是需要有監(jiān)控能力的,需要知道現(xiàn)在駕駛員在什么狀態(tài),就能夠避免像特斯拉那樣的悲劇產(chǎn)生。在總共9項(xiàng)的比賽 當(dāng)中,目前圖森都獲得第一,也就是說在視覺感知這個(gè)領(lǐng)域,目前圖森可以代表世界第一的水平。
  回 到傳感器本質(zhì),為什么我們說視覺是無人駕駛汽車的基石?我們認(rèn)為視覺是最適合作為主傳感器的,所以我們認(rèn)為它應(yīng)當(dāng)是無人駕駛汽車的基礎(chǔ)。厘米波雷達(dá)、毫米 波雷達(dá)、激光雷達(dá)、紅外和我們自己的視覺感知,其實(shí)從根本上來講就是不同的波長進(jìn)行感知,這就是傳感器的本質(zhì)。從視覺傳感器來說,它有什么優(yōu)勢?為什么我 們選擇它?第一,大家不能忽略一個(gè)客觀的因素,就是人類本身的世界是建立在可見光的基礎(chǔ)上,因?yàn)榇蠹矣幸曈X,人類的視覺、動(dòng)物的視覺都是在這里獲得,有些 動(dòng)物更遠(yuǎn)一些。
  人類是基于視覺,能看見什么就創(chuàng)建什么東西,比如這個(gè)投影儀的光也在可見光之內(nèi)。因?yàn)檫@一點(diǎn),我們通過攝像頭拿來的視覺圖像 一定包含最豐富的語義。這張圖比如拍到外面有車輛、有人、有自行車,上面有紅綠燈,這邊有限速牌,前面有垃圾桶,一張圖片能做所有的事情,人類開車就是這 樣開的。
  另外一點(diǎn)很重要,上路以后不可能期待所有車都是無人駕駛,有其他人工駕駛的車和自行車,別人同樣的是參與的交通者,別人是怎么行駛 的?一定是通過視覺判斷很多信息。舉個(gè)稍微極端點(diǎn)的例子,假如V2X以后成熟了,可能我的車不需要識別到底現(xiàn)在紅綠燈是什么狀態(tài),而是直接告訴車子就好 了。但可能告訴我現(xiàn)在是紅燈,可這個(gè)系統(tǒng)出了問題,其實(shí)這個(gè)紅綠燈顯示的是綠色怎么辦?這種情況下如果我不能理解其他交通參與者對當(dāng)前場景的理解時(shí)就會出 現(xiàn)問題,這也是為什么一定需要視覺,因?yàn)槲乙斫馄渌嗽趺聪,才能?gòu)成完整的無人駕駛環(huán)節(jié)。
  還有一點(diǎn)是視覺本身是被動(dòng)的傳感器,不像雷達(dá) 需要去打一個(gè)波數(shù),這有什么好處?現(xiàn)在很多無人車方案都是用lidar,lidar有一個(gè)問題,多個(gè)lidar互相之間會進(jìn)行干擾,如果之后無人駕駛都廣 泛用了激光雷達(dá),但是它們可能不合標(biāo)準(zhǔn)或者由于設(shè)計(jì)的不全,互相之間就會有干擾問題,這點(diǎn)就會很糟糕,從一開始選型來說這些技術(shù)可能就面臨這個(gè)缺陷。當(dāng) 然,如果拿視覺作為主傳感器,它也一定面臨挑戰(zhàn),我們拿到的就是一幅圖像,它雖然信息很豐富,但是這些信息不能被下面的決策系統(tǒng)直接使用,因?yàn)榧词咕鸵粡?圖,我也一定要幾套算法把它轉(zhuǎn)化成結(jié)構(gòu)化或半結(jié)構(gòu)化的信息。
  什么叫視覺傳感器?說白了就是攝像頭,攝像頭主要分兩部分,一部分是鏡頭,一部 分是后面的傳感器。鏡頭是讓光線匯聚的作用,它會影響視角有多大、銳度有多好。我們重點(diǎn)看一下傳感器部分,目前大部分的傳感器都是基于CMOS技 術(shù),CMOS本身是個(gè)半導(dǎo)體,在這上面有一個(gè)特性,就是光打在上面就會變成電。大家回憶一下在物理課上學(xué)的知識,一個(gè)光子打過來就有可能轉(zhuǎn)化成一定的電 子,然后累積起來,這就是傳感器大致的運(yùn)作方式。
  這張圖是傳感器的樣子,如果我們把單反或者手機(jī)拆了,把鏡頭拿掉后看到的就是這樣的場景,這上面很小,每一部分都是這樣的傳感器。
  我 們拍照時(shí)它發(fā)生什么?首先,傳感器把上面這部分電荷清除掉,把之前累積的清成零,接著光線當(dāng)然就會穿過鏡頭,通過光子接觸這個(gè)傳感器,變成一系列的電子積 累在這個(gè)地方,然后因?yàn)橛幸粋(gè)快門時(shí)間,比如多少毫米或者幾分之一秒,過了快門時(shí)間后統(tǒng)一把井里面到底有多少電荷統(tǒng)計(jì)出來,之后經(jīng)過轉(zhuǎn)換變成數(shù)字信號,根 據(jù)數(shù)字信號的不同變成數(shù)字,最終這個(gè)數(shù)字就可以解讀為像素,比如任何一個(gè)點(diǎn)它的亮度。其實(shí)很多攝像頭都是彩色的,它怎么做到的?本身這個(gè)器件它只能測量亮 度,那就通過一種過濾的方式,這個(gè)單元我允許它只能過藍(lán)色調(diào)光,這個(gè)單元只能過綠色的光,這個(gè)單元只能過紅色的光,最終這個(gè)井里面的信息就是在這個(gè)附近藍(lán) 色光到底有多強(qiáng),最終這樣的光強(qiáng)可以轉(zhuǎn)換成大家肉眼去理解的圖像。
  CMOS來說,視覺傳感器對無人車非常重要,我們一定要關(guān)注本質(zhì)的屬性。 第一個(gè)叫量子效應(yīng) ,光本身肯定有量子效應(yīng),每個(gè)光子打在這上面,它到底能轉(zhuǎn)化成多少電子,這是個(gè)概率問題,假如這邊10個(gè)光子打過來,最終生成了6個(gè)電子,它的效率是 60%,剩下的40%沒有辦法去記錄。另外一個(gè)指標(biāo)叫顳暗噪聲,當(dāng)我們讀這個(gè)井里面有多少電子時(shí)也是不準(zhǔn)確的,有可能有一個(gè)偏差,到底偏差多少?如果沒有 信號是否也能讀出數(shù)字?這就是顳暗噪聲。還有飽和容量,這個(gè)井如果滿了以后就不能再裝進(jìn)新的電子了,在圖像上我們就變成一片白了,沒有細(xì)節(jié)了,本質(zhì)上來說 是這個(gè)井滿了。而且快門結(jié)束以后要去讀所有像素點(diǎn)的電荷數(shù),怎么讀有兩種方式,一種叫“卷簾方式”,就是一行行的讀,先讀這一行再讀下一行,每次清除電荷的時(shí)間也有可能不同,就會出現(xiàn)問題。還有一種方式叫“全局”,這種方式我們可以認(rèn)為清除是在一個(gè)時(shí)間點(diǎn),全部讀取也在一個(gè)時(shí)間點(diǎn),這樣更好一點(diǎn)。另外,要把電子測量之后變成數(shù)字,那數(shù)字量化以后一定有位寬問題,用多少位數(shù)去存,位數(shù)越多灰度越好,如果只有兩個(gè),那可能就只有一個(gè)黑、一個(gè)白,沒有別的了。
  我 們看看什么叫“最適合自動(dòng)駕駛的CMOS”,舉個(gè)例子,我們來看它的不同,第一,我需要它在低照度下有優(yōu)異表現(xiàn),就是比較暗的情況下也能拍,那么一是量子 效率必須要高,全都能轉(zhuǎn)化為可以測量的量;第二是顳暗噪聲比較低,三是有很高的通俗范圍,比值能到多少BD,這就是寬動(dòng)態(tài)的問題。怎么寬動(dòng)態(tài)?第一,噪聲 低,第二,飽和量要高,不然很快飽和以后沒辦法繼續(xù)度量接下來的光照。比如ICX614在很亮的區(qū)域很快就飽和掉了,飽和掉以后這個(gè)部分全是白的,并沒有 細(xì)節(jié),你不會區(qū)分這個(gè)點(diǎn)和邊上的點(diǎn)有什么差異,這對后面的算法來說無能為力,比如車面反光很大,而且造成這樣已經(jīng)溢出的情況,那就非常糟糕。IMX249 這個(gè)地方雖然也很亮,但是我們可以看到細(xì)節(jié),可以看到光暈的變化,從機(jī)器的角度來講,只要有數(shù)值上的差別,就能夠做下面的算法。
  剛才提到了 全局快門,大家可以自己去實(shí)驗(yàn),有直升機(jī)可以拍直升機(jī),沒有直升機(jī)可以拍電扇,如果一行行掃的,電扇這種很快的物體會產(chǎn)生運(yùn)動(dòng)模糊,產(chǎn)生并不是當(dāng)時(shí)實(shí)際場 景,因?yàn)槟阍诓煌臅r(shí)間段拍了不同的地方。全局快門就沒有這個(gè)問題,無論物體運(yùn)動(dòng)多快。還有數(shù)模轉(zhuǎn)換,平滑過渡才夠好。
  我們用視覺能做什么?剛才王總提到了一些,我們可以檢測車,我們可以圍繞它畫一個(gè)方塊,可以是2D的,可以是3D的,3D知道它的朝向和長寬高。另外,所有的物體不是每一幀都需要檢測,不同的框之間要有對應(yīng)的關(guān)系,這就是追蹤。
  檢 測確實(shí)可以滿足一些應(yīng)用,例如對ADAS或者簡單的自動(dòng)駕駛沒有問題,但是如果想做很復(fù)雜的自動(dòng)駕駛確實(shí)需要語義分割,語義分割是我們對每個(gè)像素都指定類 別,比如這是地面,這是建筑,這是天空,這是樹木,這是人,這是散落的一些小的物件,對不同的車、不同的物體有不同的顏色和不同的分類,可以幫助我們理解 場景到底是什么樣子和哪些地方可以走。
  提一個(gè)悲傷的事情,特斯拉的這次事故,在今年的5月7號特斯拉發(fā)生了這起很嚴(yán)重的車禍,車毀人亡。在進(jìn)入事件回顧之前,我們先看一下特斯拉本身是什么樣的技 術(shù),從傳感器來說,它的主傳感器也是視覺感知,是Mobileye的。圖像進(jìn)來能夠識別什么?第一,車尾,Mobileye里面跑的算法是SVM,識別的 是車后面的兩個(gè)車燈和后車輪,以這樣的方式檢測車很明顯的特征點(diǎn),然后對車尾進(jìn)行檢測。當(dāng)然,特斯拉不會只用攝像頭,它也想到備選方案,就是毫米波,上面 可能是6個(gè)或者8個(gè)毫米波雷達(dá),大概安裝在車牌那個(gè)位置,這個(gè)功能是自動(dòng)巡航定速,可以根據(jù)前面車的距離去定速,另外還有車道線的保持,通過這兩項(xiàng)在一起 達(dá)到從SAE的分級來說達(dá)到L2,它比L2高級一點(diǎn),如果你想變道,確認(rèn)沒問題以后車會變到另外一條道,但是變道過程需要人來決策,所以這不能叫L3。
  我們回顧這場事故,當(dāng)時(shí)車主由西向東行使,另外一輛非常長的白色車從另一邊拐下高速公路,當(dāng)時(shí)車主本身不再監(jiān)控這個(gè)狀態(tài)了,甚至有傳言說他當(dāng)時(shí)再看《哈利波 特》。結(jié)果這個(gè)車正好橫在了這個(gè)位置,當(dāng)時(shí)特斯拉已經(jīng)很近了,它的系統(tǒng)并沒有做出反饋,它認(rèn)為前面沒問題,可以開過去,沒有任何的剎車動(dòng)作。車從大卡車的 下面直接穿過去了,而且車穿過去以后還會繼續(xù)行使,連續(xù)撞擊,最后車是實(shí)在走不了了才停下。
  為什么出現(xiàn)這個(gè)問題?任何事故肯定都是很多具體 條件聚集起來才發(fā)生的,這起事故當(dāng)中是什么呢?第一,從感知上來說,當(dāng)車橫在這個(gè)位置,無論這個(gè)車是什么顏色,不能檢測到這個(gè)車,這是Mobileye這 一代芯片的缺陷;第二,糟糕的是毫米波雷達(dá)位置正好穿越這輛車下面,所以它也認(rèn)為前面沒有障礙物,于是系統(tǒng)判斷前面沒問題,繼續(xù)往前開,就撞了。
  為 什么說它是視覺感知的錯(cuò)誤打開方式?Mobile在這個(gè)事情上沒有問題,他的這一代產(chǎn)品本來就是這個(gè)功能。特斯拉也知道這個(gè)事情,但是它錯(cuò)誤的把圖像只做 了這樣一個(gè)處理。也就是說如果特斯拉想拿視覺作為主傳感器,不能只做這兩個(gè)傳感器,還需要用其他的傳感器或者算法去做,比如去識別這個(gè)地方的深度信息,或 者用單目做語義分割,判斷這個(gè)地方是不是一個(gè)可行駛路面,所有這些傳感器只是視覺,就一張圖,但可以跑很多算法,這些算法融合起來,最后進(jìn)行一個(gè)決策,對 于視覺來說絕對不可能是只跑一個(gè)算法,然后拿這個(gè)作為真的物理量去做下面的決策,這是不對的。
  正確的打開方式,就是剛才說的,是一組傳感器,單目、雙目或者多目都沒關(guān)系,它有不同的視角,有一些窄一點(diǎn)去關(guān)注比較遠(yuǎn)的,有一些寬一點(diǎn)的去關(guān)注有沒有闖入的行人等等。然后跑多個(gè)算法,比如目標(biāo)檢測、目標(biāo)追蹤、可行駛路面。
  它 第一次出現(xiàn)的時(shí)候會給它一個(gè)編號,然后追蹤它,對后續(xù)的算法可以預(yù)計(jì)它的軌跡,它是不是要轉(zhuǎn)彎、是不是要強(qiáng)行并道,都可以獲得。這邊有一個(gè)綠色的淡淡的區(qū) 域,這叫可行駛區(qū)域,可以理解為語義分割的一個(gè)子集,最關(guān)注的是哪部分可以開,哪部分開了不會撞。這個(gè)信息不是雙目取得的,這是單目信息直接算出來的,通 過單目對場景的理解,然后它知道這個(gè)位置可以行駛,比如這邊有車擋著就不能行駛。
  我 們看看在北京很復(fù)雜的路段它跑到什么樣子,這是在CBD那邊我們拍攝的一段視頻,人和車以兩種顏色去做區(qū)分,因?yàn)檎Z義分割規(guī)定了車跟人是屬于兩個(gè)分類。除 此之外我們還可以看到天空,可以看到建筑物、樹木、車輛、隔離帶,都用不同的顏色去做區(qū)分。有這樣的技術(shù),無人駕駛就會更穩(wěn)妥一點(diǎn)。
  除 了語義分割,深度信息我們通過雙目獲取也是比較方便的。這也是CBD,是實(shí)際拍攝到的左眼的視頻,右眼我沒有放。紅色的部分表示離大家很近,紫色的部分表 示離大家很遠(yuǎn)。這并不是實(shí)際到這個(gè)攝像頭的,而是對于任何一個(gè)特征點(diǎn),從左眼到右眼它們之間的距離有多遠(yuǎn),根據(jù)這個(gè)直接劃出的顏色。道路這一側(cè)是同一個(gè)顏 色,如果是距離的話,中間肯定更近一點(diǎn)。
  不同算法其實(shí)有不同的適用場景,比如剛才提到的目標(biāo)檢測,可以跑得很遠(yuǎn),比如40度識別一個(gè)200米以外的車輛沒有問題,這在高速場景就很必須,因?yàn)楦咚俳o你響應(yīng)時(shí)間很短。
  比 如對于雙目的深度信息,它在比較遠(yuǎn)端就比較麻煩,因?yàn)殡p目的識別距離跟這兩個(gè)攝像頭離多遠(yuǎn)有關(guān),我們在這個(gè)視頻里面大概的距離基本在車頭的兩個(gè)三分之一 處,它能夠區(qū)分的距離應(yīng)該是在三四十米比較精確,再往遠(yuǎn)的話很難去分辨了,所以它對于近距離的物體做比較好。所以如何使用視覺傳感器,實(shí)際是拿這一組傳感 器傳回來的圖像去跑多個(gè)算法,所有這些拿出來結(jié)構(gòu)化信息,比如目標(biāo)檢測失敗了,但是可行使路面告訴我那有一個(gè)障礙物,或者深度信息告訴我這邊有一個(gè)異常的 坑,我都應(yīng)該決策這個(gè)車不能行使,應(yīng)該繞開或者以其他的方式規(guī)避,這樣的情況下特斯拉的悲劇就不會重演了,這是視覺感知的正確打開方式。

專題

从化市| 临漳县| 永春县| 嘉鱼县| 增城市| 台东市| 来安县| 威宁| 婺源县| 林甸县| 开封县| 三亚市| 青神县| 贵阳市| 岳西县| 延寿县| 吴桥县| 百色市| 泽普县| 特克斯县| 云霄县| 洛南县| 垦利县| 体育| 贺州市| 岐山县| 邵阳市| 鹤壁市| 卓尼县| 镇原县| 全南县| 咸宁市| 平塘县| 南安市| 陆良县| 神农架林区| 黄骅市| 精河县| 高雄县| 宜兴市| 屏山县|