中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁(yè) > 業(yè)界 > 關(guān)鍵詞  > Video-ChatGPT最新資訊  > 正文

    視頻解析工具Video-ChatGPT上線 可用文本描述視頻內(nèi)容

    2023-05-29 16:08 · 稿源:站長(zhǎng)之家

    站長(zhǎng)之家(ChinaZ.com)5月29日 消息:雖然像Runway ML這樣的公司在將文本轉(zhuǎn)換為視頻方面取得了長(zhǎng)足的進(jìn)步,但 VideoChatGPT卻另辟蹊徑,賦予語(yǔ)言模型分析視頻的能力。Video-ChatGPT 可以用文本描述視頻的內(nèi)容,例如,通過(guò)突出顯示不尋常的元素來(lái)解釋為什么剪輯可能很有趣。

    開(kāi)發(fā)人員通過(guò)一段長(zhǎng)頸鹿從跳水板上跳入水中的視頻來(lái)演示這一點(diǎn)。Video-ChatGPT 指出:“這并不常見(jiàn),因?yàn)殚L(zhǎng)頸鹿并不擅長(zhǎng)雜技或潛水?!?/p>

    鏈接到開(kāi)源語(yǔ)言模型的預(yù)訓(xùn)練視頻編碼器

    研究人員將 Video-ChatGPT 的設(shè)計(jì)描述為簡(jiǎn)單且易于擴(kuò)展。它使用預(yù)訓(xùn)練的視頻編碼器,并將其與預(yù)訓(xùn)練然后微調(diào)的語(yǔ)言模型相結(jié)合。

    QQ截圖20230529160513.jpg

    盡管名稱如此,阿布扎比穆罕默德·本·扎耶德人工智能大學(xué)的項(xiàng)目并未使用 OpenAI 技術(shù)。相反,研究人員嵌入了一個(gè)線性層,將視頻編碼器連接到語(yǔ)言模型。

    除了要求特定任務(wù)的用戶提示外,語(yǔ)言模型還會(huì)使用定義其角色和一般工作的系統(tǒng)命令進(jìn)行提示。

    人機(jī)增強(qiáng)數(shù)據(jù)集

    研究人員結(jié)合使用人工注釋和半自動(dòng)化方法來(lái)生成高質(zhì)量數(shù)據(jù),以微調(diào) Vicuna 模型。這些數(shù)據(jù)的范圍從詳細(xì)描述到創(chuàng)造性任務(wù)和訪談,涵蓋了各種不同的概念。

    總的來(lái)說(shuō),該數(shù)據(jù)集包含大約86,000個(gè)高質(zhì)量的問(wèn)答,一些由人類注釋,一些由 GPT 模型注釋,一些由圖像分析系統(tǒng)的上下文注釋。

    QQ截圖20230529160526.jpg

    Video-ChatGPT 的核心是其結(jié)合視頻理解和文本生成的能力。它在視頻推理、創(chuàng)造力和對(duì)時(shí)間和空間的理解方面的能力已經(jīng)過(guò)廣泛測(cè)試。

    多模態(tài)人工智能未來(lái)

    在最近文本生成取得重大進(jìn)展之后,OpenAI 和谷歌等公司正在轉(zhuǎn)向多模態(tài)模型。Bard 理解并可以對(duì)圖像做出反應(yīng),并在其正式發(fā)布時(shí)展示了這些能力。

    從圖像到移動(dòng)圖像將是下一個(gè)合乎邏輯的步驟。谷歌已經(jīng)宣布開(kāi)發(fā)一款將于今年晚些時(shí)候發(fā)布的 帶有 Project Gemini 的大型多模式 AI 模型。

    舉報(bào)

    • 相關(guān)推薦
    • Chat Video:用GPT分析和總結(jié)視頻

      ChatVideo是一個(gè)基于人工智能的視頻分析和管理工具,致力于幫助用戶高效學(xué)習(xí)和管理視頻。在這個(gè)視頻泛濫的時(shí)代,ChatVideo憑借其獨(dú)特的AI技術(shù),為用戶節(jié)省大量時(shí)間,真正釋放視頻的價(jià)值。如果你希望高效管理視頻,ChatVideo一定是你的最佳選擇。

    • 谷歌版ChatGPT與旗下郵箱、視頻、地圖等,實(shí)現(xiàn)全面集成!

      9月20日,谷歌在官網(wǎng)宣布推出BardExtensions。借助該擴(kuò)展用戶可在谷歌的Gmail、谷歌文檔、網(wǎng)盤(pán)、Google地圖、視頻等產(chǎn)品中使用Bard。當(dāng)用戶在Gmail、谷歌文檔、網(wǎng)盤(pán)、Google地圖、視頻等產(chǎn)品中使用Bard時(shí),其敏感數(shù)據(jù)將受到多重加密保護(hù),不會(huì)被Bard查看、搜集用于訓(xùn)練AI模型。

    • 淘寶,多了一個(gè)“ChatGPT”入口

      正在悄然切換,進(jìn)入AI時(shí)代?,F(xiàn)在打開(kāi)淘寶,搜索“淘寶問(wèn)問(wèn)”,你可以直接跳轉(zhuǎn)到一個(gè)全新的頁(yè)面。它還不是最終形態(tài),如何讓電商和AI更好地結(jié)合,找到那條打通最佳的用戶體驗(yàn)和購(gòu)物鏈路的路徑,才是真正的挑戰(zhàn)。

    • Rerender A Video源代碼放出!解決AI視頻閃爍問(wèn)題

      RerenderAVideo是一項(xiàng)令人印象深刻的技術(shù)成果,它旨在將大型文本到圖像擴(kuò)散模型的能力擴(kuò)展到視頻領(lǐng)域。該項(xiàng)目提出了一種零訓(xùn)練的文本引導(dǎo)視頻到視頻翻譯框架,能夠在視頻幀之間確保時(shí)間一致性,這一直是一個(gè)巨大的挑戰(zhàn)。命令行支持:提供了靈活的命令行腳本,允許用戶通過(guò)命令行參數(shù)控制翻譯過(guò)程。

    • 開(kāi)了眼的ChatGPT真讓人開(kāi)了眼了

      給自己放個(gè)假吧ChatGPT,再更新的這么快,網(wǎng)友的腦洞可就跟不上了。ChatGPT宣布了一次重要更新,然后有了全面的多模態(tài)能力。

    • 庫(kù)克證實(shí)蘋(píng)果正在開(kāi)發(fā),類ChatGPT產(chǎn)品

      9月29日,Appleinsider消息,蘋(píng)果CEO蒂姆·庫(kù)克在接受《倫敦標(biāo)準(zhǔn)晚報(bào)》采訪時(shí)回應(yīng),正在加大對(duì)人工智能、機(jī)器學(xué)習(xí)人才的招聘,用于開(kāi)發(fā)生成式AI產(chǎn)品。AI功能幾乎遍布蘋(píng)果的所有產(chǎn)品,例如,AppleWatch的跌倒檢測(cè)、碰撞檢測(cè)、心房顫動(dòng)檢測(cè)、心電圖等,這些都是最典型的應(yīng)用案例。相信在不遠(yuǎn)的將來(lái),我們會(huì)在siri、iphone、iwatch等產(chǎn)品中,使用上蘋(píng)果版ChatGPT。

    • ChatGPT的“地下經(jīng)濟(jì)”,給AI行業(yè)帶來(lái)了什么?

      自從ChatGPT問(wèn)世以來(lái),大模型如何落地、盈利,就成了無(wú)數(shù)創(chuàng)業(yè)者都在思考的問(wèn)題。一個(gè)尷尬的現(xiàn)實(shí)是,現(xiàn)階段C端最受歡迎的一類AI應(yīng)用,實(shí)在讓人很難以啟齒……盡管ChatGPT發(fā)布后,OpenAI十分注重模型的安全性、合規(guī)性,但還是有很多開(kāi)發(fā)者攻破了ChatGPT的安全漏洞,讓GPT實(shí)現(xiàn)了“越獄”,并開(kāi)發(fā)出了各種突破限制的AI應(yīng)用。這樣的“預(yù)演”,在C端大模型落地困難的今天,無(wú)疑提供了一種另類的“經(jīng)驗(yàn)”。

    • ChatGPT重磅升級(jí):可以看圖、聽(tīng)聲音、說(shuō)話啦!

      美東時(shí)間9月25日,OpenAI在官網(wǎng)宣布,對(duì)ChatGPT進(jìn)行重磅升級(jí)實(shí)現(xiàn)看圖、聽(tīng)聲音、輸出語(yǔ)音內(nèi)容三大功能。早在今年3月OpenAI發(fā)布GPT-4模型時(shí),就展示過(guò)看圖的功能,但由于安全、功能不完善等原因一直沒(méi)有開(kāi)放。BeMyEyes將ChatGPT的看圖功能,植入在應(yīng)用中,為盲人和弱視群體提供服務(wù)。

    • ChatGPT開(kāi)口說(shuō)話了:五種不同語(yǔ)音 語(yǔ)氣更像真人

      OpenAI宣布給聊天機(jī)器人ChatGPT增加了語(yǔ)音交談的功能。這將給谷歌、蘋(píng)果等巨頭在智能語(yǔ)音助手領(lǐng)域帶來(lái)沖擊。OpenAI工作人員表示,他們已經(jīng)測(cè)試了語(yǔ)音和圖像功能,并增加了安全措施,以確保機(jī)器人對(duì)敏感話題作出適當(dāng)?shù)幕貞?yīng)。

    • OpenAI 宣布自 GPT-4 發(fā)布以來(lái)的最大更新:ChatGPT 現(xiàn)在可以「看、聽(tīng)、說(shuō)」

      OpenAI宣布,其聊天機(jī)器人ChatGPT現(xiàn)在可以「看、聽(tīng)、說(shuō)」,或者至少能夠理解口語(yǔ),用合成的聲音回應(yīng)并處理圖像。這次更新是自引入GPT-4以來(lái)OpenAI最大的一次改進(jìn)。但該公司還指出,在此過(guò)程中轉(zhuǎn)錄被視為輸入,并可能用于改進(jìn)大型語(yǔ)言模型。