120度,是人類雙眼視野的大致范圍。
為了用更寬闊的視野觀察、記錄這個世界,人們開始使用工具,希望將整個世界都納入畫面中。為此,能同時拍攝整個空間畫面的全景相機出現(xiàn)了。
早期的全景相機需要固定在一個旋轉云臺上,拍攝前擰緊發(fā)條,然后旋轉相機進行拍攝。不僅手段繁瑣,而且由于旋轉速度較慢,拍攝畫面中的人物需要長時間保持固定姿勢。
進入數(shù)碼相機時代,照片的獲得與后期處理變得更加便捷,廠商們各顯神通,全景相機的類型和功能也日益豐富。2006年,瑞士賽茲公司發(fā)布了一臺6x17Digital相機,這個“大家伙”外形尺寸為495x175x95cm,感光器有6x17cm、比較高分辨率達7500x21250px、獲得的相片總像素接近1.6億,并且,僅機身的價格就高達幾十萬人民幣。
為了打破全景相機龐大笨重、售價不菲的特質(zhì),廠商開始尋求其他的解決方法,“掃描全景模式”就是其中之一。比如索尼HX1,相機在全景拍攝模式下,會在按下快門時快速連續(xù)掃描被攝物體,并在機內(nèi)自動尋找相同色塊自動拼接。該方式面對靜止的物體時能以非常簡單的方式獲得全景拍攝效果,可是卻不能準確判斷畫面中移動的物體,容易形成重影。
與此同時,隨著人們觀察與記錄世界的視角越來越多元化,視頻也成為記錄日常的主要方式之一,能夠容納更多信息、視覺沖擊力更大的全景視頻更是深受人們的喜愛,逐漸成為了主流發(fā)展方向。然而相對于靜態(tài)的全景照片而言,動態(tài)的全景視頻的實現(xiàn)對技術有著更高的要求,硬件升級成本居高不下。
因此,以AI算法彌補硬件升級的不足,打造全景視頻拼接技術成為了新探索方向。
01
拼接技術“曲線救國”,全景視頻痛點依舊
所謂全景視頻拼接技術,即多個攝像頭在同一場景下采集不同方向的視頻,后期逐幀拼接,最終得到360度全景視頻,甚至360度*180度的球面全景視頻。
但是,目前行業(yè)里的全景視頻拼接技術仍存在一些尚未解決的問題。
首先是多攝拼接計算量大。傳統(tǒng)的拼接算法需要提取圖像中的特征點、描述子進行匹配,之后反復迭代得到特出的對齊關系,但在相機標定對齊的過程中會產(chǎn)生大量的計算。
其次是視頻拼接存在明顯拼縫。即使是在計算量非常大的情況下,也需要對于相機之間的關系進行一定的假設,如共光心模型無法適用于大視角,目前即使是網(wǎng)格法求出多組匹配關系也無法應對由于大視角導致的物體拉伸扭曲變形。目前的算法增加了對于扭曲的約束,但不能從根本上解決問題。
另外,還存在拼接無法動態(tài)更新。視頻拼接技術中存在一個普遍的問題,那就是運動物體在重合區(qū)域會產(chǎn)生虛影,就像將手指放在兩眼之間前后移動時會出現(xiàn)虛影一樣。要解決這個問題,需要隨時將相機的光心聚焦到目標點,不斷變換拼接模板;同時,為了使拼接的視頻流暢,還需要考慮到單幀間信息。這意味著每一幀都需要進行特征點、描述子的提取、匹配等一系列操作,需要大量的迭代標定計算。光是單幀的計算量已經(jīng)無法實現(xiàn)實時,更不論多幀的情況。
傳統(tǒng)算法仍存在進步空間,曠視科技決定實現(xiàn)一個基于AI的優(yōu)化算法。
02
對癥下藥找對位置,動態(tài)更新絲般順滑
憑借多年來在基礎科研方面的探索,曠視科技基于光流的多攝AI拼接算法,同時依靠實時動態(tài)無縫拼接網(wǎng)絡模型,推出的全景視頻實時拼接算法,有效解決了多攝拼接計算量大、拼縫明顯以及拼接無法動態(tài)更新的技術難題。
運用了曠視全景視頻實時拼接算法形成的全景視頻,拼縫消失不見,行人經(jīng)過原本拼縫處也流暢自然,不存在割裂感;即使放大很多倍,建筑樓宇上的字跡和遠處建筑的邊緣也依然清晰可見。不僅可視范圍更廣,分辨率更高,動態(tài)更新絲般順滑,且速度比目前已知的較好拼接算法還要再快20倍。
為何曠視全景視頻實時拼接算法,能夠達到這樣的效果?曠視的研究員表示,對癥下藥,才能更好地找到解題秘方。
一方面,全景視頻拼接的趨勢是從一個對齊變換,到多個變換,自然特出的效果應該是每個像素點都有一個對應,因此,曠視科技想到了利用光流來確定目標的運動情況。
另一方面,拼接算法無論是前向還是后向映射,遮擋問題都是一大難題。但是,參考時間上的插幀算法,不僅可以使視頻更清晰流暢,空間上也可以插視角,構造連續(xù)虛擬的視角。
受到這些啟發(fā),曠視的研究員立即著手進行測試,終于在大半年后取得了突破性的進展,也在多種場景下對拼接質(zhì)量和穩(wěn)定性進行了可視化的評估。
全景視頻實時拼接算法的核心在于把每個物體放到該放的位置上。為此,曠視估計了深度信息、光流信息,構建了一個物理世界并不存在的逐漸緩慢變化的視角,而這個虛構的視角和更大的廣角表示很接近。
由于整個網(wǎng)絡是一個端到端的nn網(wǎng)絡,而光流估計、深度估計都可以在小尺寸上進行,整個算法可以實現(xiàn)實時拼接。
并且,因為構造的虛擬視角無論是在空間上還是在時間上都是連續(xù)的,所以不需要額外考慮幀間關系,拼接的視頻會異常順滑。
03
經(jīng)過優(yōu)化的算法,早已準備好創(chuàng)造價值
算法在需求中誕生,并在落地中創(chuàng)造越來越多的價值;而當下每一個被優(yōu)化的算法,都意味著不久的將來,將會更好地應用于人類社會。
曠視全景視頻實時拼接算法誕生的背后,正是行業(yè)對于全景視頻的巨大需求。未來,全景視頻實時拼接算法將在智慧城市管理、車載相機、消費電子、戶外運動相機等領域被廣泛應用。
例如在道路的交叉口,或者是大型廣場等存在很多視覺盲區(qū)的場景,單個普通攝像頭的視角非常受限,通過全景視頻實時拼接算法形成的全景視頻擁有更寬闊的視野和更高分辨率的圖像,有助于城市管理者實現(xiàn)無盲區(qū)管理。
又比如在汽車駕駛領域,車輛行駛的過程中存在視覺盲區(qū)是引發(fā)交通事故很重要一個因素。如果全景視頻實時拼接算法應用于車載相機中,就能夠觀測到車輛前后左右的情況,助力安全駕駛。
對曠視科技來說,基礎科研是 AI 創(chuàng)新突破的基石,需要長期主義的堅持。從科研到落地,算法正在創(chuàng)造越來越大的價值,也在開始重新定義軟硬件。全景視頻實時拼接算法如此,其它的算法亦然。在曠視技術開放日的現(xiàn)場,還展示了雙目3D相機、單目黑光、實時雙超AI算法等超多的比較新科研成果。
視野所至之處,腳步才有機會到達。在曠視全景視頻實時拼接算法容納的無拼縫、流暢自然的廣闊世界里,沒有“裂縫”的美好生活也會如約而至。
(推廣)