中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關鍵詞  > SANPO最新資訊  > 正文

    Google AI推出SANPO:多屬性視頻數(shù)據(jù)集助力視覺場景理解

    2023-10-16 10:39 · 稿源:站長之家

    劃重點:

    - Google AI推出了SANPO數(shù)據(jù)集,用于戶外人類主觀場景理解。

    - SANPO包括真實世界和合成數(shù)據(jù),具有豐富的注釋和多屬性特征。

    - 這個數(shù)據(jù)集將有助于研究人員開發(fā)視覺導航系統(tǒng),支持視障人士,并拓展先進的視覺場景理解。

    站長之家(ChinaZ.com)10月16日 消息:Google AI最近推出了名為SANPO的數(shù)據(jù)集,旨在幫助AI模型更好地理解戶外人類主觀場景。這一數(shù)據(jù)集的重要性在于,它不僅包括真實世界的數(shù)據(jù),還包括合成數(shù)據(jù),以及豐富的注釋和多屬性特征。這個數(shù)據(jù)集的推出將有助于解決自動駕駛領域之外的人類主觀場景理解的問題。

    SANPO數(shù)據(jù)集的名稱來源于其功能,包括“場景理解、可訪問性、導航、路徑規(guī)劃和障礙物避免”。它由真實世界數(shù)據(jù)和合成數(shù)據(jù)組成,其中真實世界數(shù)據(jù)包括來自兩個立體攝像頭的視頻,支持多視角方法。這個數(shù)據(jù)集還包括了11.4小時的視頻,以每秒15幀的速度捕獲,并具有密集的注釋。

    image.png

    為了保護隱私,Google的研究人員在數(shù)據(jù)采集過程中遵循了當?shù)亍⒊鞘泻椭菁壍姆?,并在發(fā)送數(shù)據(jù)進行注釋之前,確保刪除了任何個人信息,如人臉和車輛牌照。

    為了克服捕捉視頻時的不完美,比如運動模糊和人工評分錯誤,研究人員引入了SANPO-Synthetic,這是一個高質(zhì)量的合成數(shù)據(jù)集,旨在與真實世界的條件相匹配。SANPO-Synthetic包括1961個會話,使用虛擬化的Zed相機錄制,頭部和胸部位置均衡分布。

    SANPO數(shù)據(jù)集的另一個特點是對一部分真實世界數(shù)據(jù)和合成數(shù)據(jù)進行了全景實例掩模的注釋,為每個像素分配了類別和ID。與真實世界數(shù)據(jù)不同,SANPO-Synthetic每幀包含更多實例。此外,SANPO是唯一一個同時具有全景分割和深度圖像數(shù)據(jù)的數(shù)據(jù)集。

    研究人員使用SANPO數(shù)據(jù)集訓練了兩個最先進的模型,分別用于深度估計和全景分割。他們發(fā)現(xiàn),這一數(shù)據(jù)集對于密集預測任務來說非常具有挑戰(zhàn)性,而合成數(shù)據(jù)的準確性要高于真實數(shù)據(jù),這主要是因為真實世界的環(huán)境相對復雜,而合成數(shù)據(jù)的分割注釋更加精確。

    SANPO數(shù)據(jù)集的推出填補了人類主觀場景理解領域缺乏數(shù)據(jù)集的空白,它包括真實世界和合成數(shù)據(jù),具有豐富的注釋和多屬性特征,以及全景分割和深度信息的獨特組合。此外,研究人員的隱私承諾使這一數(shù)據(jù)集能夠支持其他研究人員開發(fā)面向視障人士的視覺導航系統(tǒng),并推動先進的視覺場景理解領域的發(fā)展。

    SANPO博客介紹:https://blog.research.google/2023/10/sanpo-scene-understanding-accessibility.html

    舉報

    • 相關推薦
    • OpenAI,Google和阿里們都“認”了的MCP,究竟給開發(fā)者帶來啥實惠了

      AI領域的互操作性標準之爭正變得異常熱鬧。GoogleDeepMindCEODemisHassabis宣布,將為其Gemini模型添加對Anthropic主導的模型上下文協(xié)議MCP的支持,稱其為“一個優(yōu)秀的協(xié)議,正迅速成為AIAgent時代的開放標準”。MCP有潛力成為提升AI在具體業(yè)務場景中實用性的關鍵基礎設施,促進AI與現(xiàn)有軟件和工作流程更緊密的融合。

    • 谷歌CEO皮查伊:反壟斷提案可能毀滅Google搜索!

      快科技5月1日消息,谷歌CEO桑達爾皮查伊(Sundar Pichai)在美國司法部(DOJ)針對谷歌反壟斷案的證詞中,強烈反對政府提出的修正措施。皮查伊表示,這些措施將對谷歌搜索造成毀滅性影響”,并可能阻礙公司在搜索引擎領域的持續(xù)創(chuàng)新。在法庭上,皮查伊指出,美國司法部要求谷歌與競爭對手分享搜索數(shù)據(jù)的提議,將使谷歌難以繼續(xù)開發(fā)其搜索引擎,甚至可能導致公司無法再進行創(chuàng)新投資。他強調(diào),谷歌在搜索和人工智能(AI)等領域的研發(fā)投入巨大,僅去年就達到了490億美元。他還警告稱,數(shù)據(jù)共享提議將使競爭對手能夠完全逆向工程我們的技術”

    • 大模型時代的新燃料|標貝科技推出大規(guī)模擬真多風格語音合成數(shù)據(jù)集

      本文探討了人工智能語音交互領域的發(fā)展現(xiàn)狀與挑戰(zhàn)。文章指出,大模型技術驅(qū)動下語音交互應用場景持續(xù)拓展,但面臨數(shù)據(jù)質(zhì)量、隱私合規(guī)等挑戰(zhàn)。當前語音大模型訓練需要TB至PB級數(shù)據(jù),而傳統(tǒng)數(shù)據(jù)供給模式難以滿足需求。合成數(shù)據(jù)作為真實數(shù)據(jù)的重要補充,能通過參數(shù)化生成機制規(guī)避隱私風險,突破傳統(tǒng)數(shù)據(jù)在多樣性和場景覆蓋上的局限性。國內(nèi)外科技企業(yè)已開始廣泛應用合成數(shù)據(jù)訓練AI模型,如Meta的LLaMA3和微軟的Phi-4模型。標貝科技推出超大規(guī)模擬真多風格語音合成數(shù)據(jù)集,包含上萬小時數(shù)據(jù),覆蓋中英混合場景,支持情感合成、風格遷移等前沿任務,為虛擬偶像、數(shù)字人等元宇宙場景提供實時語音生成方案。該數(shù)據(jù)集基于32kHz高保真采樣率技術,在自然度、流暢度等方面達到行業(yè)領先水平。

    • 媲美OpenAI-o3,剛剛開源模型DeepCoder,訓練方法、數(shù)據(jù)集大公開

      今天凌晨4點,著名大模型訓練平臺TogetherAI和智能體平臺Agentica,聯(lián)合開源了新模型DeepCoder-14B-Preview。該模型只有140億參數(shù),但在知名代碼測試平臺LiveCodeBench的測試分為60.6%,高于OpenAI的o1模型,略低于o3-mini。TogetherAI剛獲得3.05億美元的B輪融資,其估值也從去年的12.5億美元翻倍至33億美元。

    • 提升大模型自動修Bug能力 豆包正式開源首個多語言類SWE數(shù)據(jù)集

      今日,字節(jié)跳動豆包大模型團隊宣布,正式開源首個多語言類SWE數(shù)據(jù)集Multi-SWE-bench,可用于評估和提升大模型自動修Bug”能力。在SWE-bench基礎上,Multi-SWE-bench首次覆蓋Python之外的7種主流編程語言,是真正面向全棧工程”的評測基準。相比于以往聚焦Python的單語言任務,Multi-SWE-bench更貼近現(xiàn)實中的多語言開發(fā)場景,也更能反映當前模型在自動化軟件工程”方向上的實際能力邊界。

    • 英偉達開源15T數(shù)據(jù)集:32萬個機器人訓練軌跡

      全球AI領導者英偉達開源了,用于實體機器人和自動化駕駛的超大訓練數(shù)據(jù)合集——NVIDIAPhysicalAIDataset。這個數(shù)據(jù)集一共15T,涵蓋了超過320,000個機器人訓練軌跡,以及多達1,000個通用場景描述包括一個SimReady集合。英偉達表示,未來將繼續(xù)擴展PhysicalAIDataset,將其建設成世界最大、統(tǒng)一的開源數(shù)據(jù)集,可用于AI模型、醫(yī)療、自動化駕駛等不同領域,加速AI、實體機器人的訓練效?

    • 谷歌搜索棄用國別頂級域名后綴!全球統(tǒng)一為google.com

      快科技4月16日消息,谷歌宣布將在未來幾個月內(nèi)逐步將所有搜索用戶重定向至主域名google.com,將不再使用國家代碼頂級域名(ccTLD)。無論用戶使用哪個國家的域名訪問谷歌搜索,如英國的google.co.uk或巴西的google.com.br,最終都將被重定向至google.com。谷歌表示,這一決定旨在簡化用戶體驗,并確保所有用戶都能獲得一致的搜索結果。此前谷歌之所以采用國別頂級域名的后綴,主要是可以實現(xiàn)搜索結果的本地化,例如當用戶訪問的是google.com.uk,則側(cè)重于提供來自與英國有關的搜索結果。自2017年以來,谷歌已經(jīng)根據(jù)用戶的地理位置自動調(diào)整

    • 世紀佳緣創(chuàng)新推出AI戀人,助力“社恐”人群獲得幸福

      在現(xiàn)代生活中,婚姻平臺成為人們尋找伴侶的重要途徑。作為行業(yè)領軍品牌,世紀佳緣通過智能化技術融入數(shù)字化變革,推出AI戀人這一全新功能,成為“社恐”人群的得力助手?!吧缃豢謶职Y”簡稱“社恐”,指的是許多人面對社交場合時感到的焦慮和不安,這限制了他們的交往能力和尋找幸福的機會。作為中國領先的婚戀服務平臺,世紀佳緣通過打造AI戀人填補了這一空白?

    • 國內(nèi)首臺視覺 AI 教學閉環(huán)教具落地,云天勵飛助力芯片后備力量崛起

      在人工智能與芯片技術重塑全球競爭格局的當下,我國正通過教育創(chuàng)新,筑牢科技自立自強的戰(zhàn)略根基。為提升青少年的綜合素養(yǎng),鼓勵其在不同領域積極探索與嘗試,教育部在2022年的教監(jiān)管廳函〔2022〕13號文件中認證了新一批為期三年的全國性中小學生競賽活動。云天勵飛將繼續(xù)深耕AI教育領域,以技術創(chuàng)新為驅(qū)動,以教育公平為目標,為更多青少年提供接觸和學習AI的機會,為中國從教育大國邁向科技強國注入持續(xù)動能。

    • 聚銘網(wǎng)絡受邀參加“以數(shù)字化助力高等教育變革”研討會暨20周年學術年會

      2025年4月17日至19日,"以數(shù)字化助力高等教育變革"研討會暨20周年學術年會在南京豐大國際酒店舉行。聚銘網(wǎng)絡作為受邀嘉賓,攜前沿安全產(chǎn)品及創(chuàng)新解決方案亮相,為教育信息化建設筑牢安全防線。會議圍繞"高等教育數(shù)字化變革"主題展開深入研討,500余位專家學者、高校代表及行業(yè)精英參會。聚銘網(wǎng)絡推出新一代智慧安全運營中心解決方案,通過五大核心模塊構建一站式安全管理服務,有效解決數(shù)據(jù)孤島、部門協(xié)同等難題,提升應急處置效率。該方案已在南京師范大學、河海大學等多所高校成功應用。會議為教育數(shù)智化領域搭建了高端交流平臺,聚銘網(wǎng)絡以專業(yè)實力贏得業(yè)界高度認可,未來將持續(xù)深耕教育領域,推動智慧安全運營發(fā)展。