中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > ImageBind最新資訊  > 正文

    Meta 宣布開源多感官 AI 模型 ImageBind:整合文本、音頻、視覺等六種類型數(shù)據(jù)

    2023-05-10 08:50 · 稿源:站長之家

    站長之家(ChinaZ.com) 5月10日消息:Meta 宣布推出一個(gè)新的開源 AI 模型,可以連接多種數(shù)據(jù)流,包括文本、音頻、視覺數(shù)據(jù)、溫度和動作讀數(shù)。

    截屏2023-05-10 08.51.39.png

    圖片來自 Meta

    該模型目前僅是一個(gè)研究項(xiàng)目,沒有立即的消費(fèi)者或?qū)嶋H應(yīng)用,但它指向了未來可以創(chuàng)建沉浸式、多感官體驗(yàn)的生成式 AI 系統(tǒng),并表明了 Meta 在對手 OpenAI 和 Google 日益注重保密的時(shí)候仍在分享 AI 研究。

    該研究的核心概念是將多種類型的數(shù)據(jù)鏈接到一個(gè)單一的多維度索引中(或者使用 AI 術(shù)語中的「嵌入空間」)。這個(gè)想法可能有點(diǎn)抽象,但正是這個(gè)概念支持了生成式 AI 的最近繁榮。

    例如,像 DALL-E、Stable Diffusion 和 Midjourney 之類的 AI 圖像生成器在訓(xùn)練階段都依賴于系統(tǒng),這些系統(tǒng)在連接文本和圖像時(shí)共同尋找視覺數(shù)據(jù)中的模式,并將這些信息與圖像的描述相連。這是使這些系統(tǒng)能夠生成遵循用戶文本輸入的圖片的基礎(chǔ)。許多生成視頻或音頻的 AI 工具也是如此。

    Meta 表示,它的模型 ImageBind第一個(gè)將六種類型的數(shù)據(jù)組合到一個(gè)單一的嵌入空間中的模型。包括在模型中的六種類型的數(shù)據(jù)是:視覺(以圖像和視頻形式呈現(xiàn));熱量(紅外圖像);文本;音頻;深度信息;以及最有趣的——由慣性測量單元(IMU)生成的運(yùn)動讀數(shù)。(IMU 可在手機(jī)和智能手表中找到,在那里它們用于執(zhí)行各種任務(wù),比如從橫向到縱向切換手機(jī),區(qū)分不同類型的體育活動等。)

    這個(gè)想法是未來的 AI 系統(tǒng)將可以像當(dāng)前的 AI 系統(tǒng)對文本輸入一樣交叉參考這些數(shù)據(jù)。例如,想象一下一個(gè)未來的虛擬現(xiàn)實(shí)設(shè)備,它不僅可以生成音頻和視覺輸入,還可以生成你在物理舞臺上的環(huán)境和動作。你可以要求它模擬一次長途航海,它不僅會把你放在一艘船上,背景中有海浪的聲音,還會讓你感受到甲板的搖擺和海洋空氣的涼爽微風(fēng)。

    Meta 在一篇博客文章中指出,未來的模型可以增加其他感官輸入流,包括「觸摸、語音、氣味和大腦功能磁共振成像信號」。它還聲稱,這項(xiàng)研究「將機(jī)器帶到了人類能夠同時(shí)、全面、直接地從許多不同形式的信息中學(xué)習(xí)的能力更近了一步」。(當(dāng)然,這取決于這些步驟的大小。)

    當(dāng)然,這一切都非常推測性的,目前應(yīng)用這些研究的可能性將會更加有限。例如,去年,Meta 展示了一種由文本描述生成短且模糊的視頻的 AI 模型。像 ImageBind 這樣的工作展示了系統(tǒng)未來版本如何整合其他數(shù)據(jù)流,例如生成與視頻輸出匹配的音頻。

    對于業(yè)內(nèi)觀察者來說,這項(xiàng)研究也很有趣,因?yàn)?Meta 正在開源其基礎(chǔ)模型——這是人工智能世界中越來越受到關(guān)注的做法。

    反對開源的人——比如 OpenAI——表示這種做法對創(chuàng)作者是有害的,因?yàn)楦偁帉κ挚梢詮?fù)制他們的工作,而且這可能會有潛在的危險(xiǎn),使惡意行為者利用最先進(jìn)的 AI 模型。支持者回應(yīng)說,開源允許第三方審查系統(tǒng)的問題并改進(jìn)其缺陷。他們注意到這甚至可能提供商業(yè)利益,因?yàn)樗鼘?shí)質(zhì)上允許公司招募第三方開發(fā)人員作為不付費(fèi)的工作人員來改進(jìn)他們的工作。

    Meta 迄今一直堅(jiān)定地站在開源陣營,雖然并非沒有困難。(例如,它最新的語言模型 LLaMA 今年早些時(shí)候在網(wǎng)上泄漏。)在許多方面,它在人工智能領(lǐng)域缺乏商業(yè)成就(該公司沒有與 Bing、Bard 或 ChatGPT 等聊天機(jī)器人競爭的實(shí)際產(chǎn)品)使其能夠采用這種方法。對于現(xiàn)在,在 ImageBind 上,它繼續(xù)這個(gè)策略。

    舉報(bào)

    • 相關(guān)推薦