中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > Gemini1.5Pro最新資訊  > 正文

    谷歌宣布Gemini 1.5 Pro開放API 新增多項功能

    2024-04-10 09:20 · 稿源:站長之家

    站長之家(ChinaZ.com)4月10日 消息:Google宣布開放其AI模型Gemini1.5Pro的API,這一版本在原有基礎(chǔ)上進行了大幅度的功能擴展,現(xiàn)已在180多個國家提供。

    Gemini1.5Pro引入了對原生音頻(語音)的理解能力,以及文件API和系統(tǒng)指令等新功能。這使得Gemini模型能夠直接處理音頻輸入,而無需先將音頻轉(zhuǎn)換為文本。這為AI模型帶來了全新的應(yīng)用可能性,如音頻和視頻模態(tài)的處理。

    image.png

    詳情點此查看:

    https://developers.googleblog.com/2024/04/gemini-15-pro-in-public-preview-with-new-features.html

    音頻理解能力:

    https://github.com/google-gemini/cookbook/blob/main/quickstarts/Audio.ipynb

    Gemini1.5Pro大大擴展了輸入模態(tài)的范圍,現(xiàn)在它不僅能理解文本,還能理解音頻(語音)。此外,Gemini1.5Pro還可以對上傳到Google AI Studio中的視頻進行圖像(幀)和音頻(語音)的同時推理,這意味著這個模型具備了理解和處理視頻內(nèi)容的能力,不僅限于視頻的視覺部分(如圖像幀),也包括音頻部分(如對話、背景音樂等)。

    這一改進的應(yīng)用潛力巨大,包括多模態(tài)理解、內(nèi)容索引和搜索、增強的交互體驗、視頻內(nèi)容分析以及創(chuàng)意內(nèi)容生成等方面。例如,通過綜合分析視頻中的視覺信息和音頻信息,Gemini1.5Pro可以更全面地理解視頻內(nèi)容,從而幫助創(chuàng)建更詳細的內(nèi)容索引,使用戶能夠基于視頻內(nèi)容的視覺和聽覺信息進行搜索。

    此外,Gemini API也進行了一些重要的改進。比如,引入了系統(tǒng)指令引導模型響應(yīng),現(xiàn)已在Google AI Studio和Gemini API中提供。開發(fā)者可以通過定義角色、格式、目標和規(guī)則來指導模型的行為,以適應(yīng)特定用例。同時,新的JSON模式指示模型僅輸出JSON對象,該模式支持從文本或圖像中提取結(jié)構(gòu)化數(shù)據(jù)。

    Google還推出了新的嵌入模型,性能得到了顯著提升。從今天開始,開發(fā)者將能夠通過Gemini API訪問Gemini下一代文本嵌入模型。這個新模型在MTEB基準測試中取得了更強的檢索性能,超過了具有可比維度的所有現(xiàn)有模型。

    舉報

    • 相關(guān)推薦