中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > OpenAI最新資訊  > 正文

    OpenAI發(fā)布升級(jí)版ASR模型Whisper3,計(jì)劃開放API

    2023-11-07 15:00 · 稿源:站長(zhǎng)之家

    劃重點(diǎn):

    - OpenAI在開發(fā)者日發(fā)布了一系列開源模型,其中包括升級(jí)版的自動(dòng)語音識(shí)別模型Whisper3。

    - Whisper3具備多語言支持,可將音頻內(nèi)容轉(zhuǎn)錄成文本,還具備獨(dú)特的時(shí)間戳功能,適用于制作字幕。

    - OpenAI計(jì)劃未來向用戶開放Whisper3的API,以推動(dòng)語音處理應(yīng)用的發(fā)展。

    站長(zhǎng)之家(ChinaZ.com)11月7日 消息:在OpenAI的開發(fā)者日活動(dòng)中,該人工智能初創(chuàng)公司發(fā)布了一系列開源模型,其中包括了升級(jí)版的自動(dòng)語音識(shí)別(ASR)模型——Whisper3。這一模型具備多語言支持,可以將音頻內(nèi)容快速準(zhǔn)確地轉(zhuǎn)錄成文本,并具備獨(dú)特的時(shí)間戳功能,使其適用于制作字幕等應(yīng)用。

    image.png

    最初,Whisper模型主要針對(duì)英語應(yīng)用,但隨著時(shí)間的推移,它經(jīng)過升級(jí),已經(jīng)支持多種語言,盡管具體支持的語言并未明確提及。該模型以寬松的許可協(xié)議在GitHub上開源,因此開發(fā)者可以輕松獲取并使用它,被譽(yù)為目前最出色的轉(zhuǎn)錄工具之一。

    Whisper3的工作原理涉及將音頻分段成30秒的片段,然后通過編碼器和解碼器將其轉(zhuǎn)化為文本字幕。此外,該模型還具備語言識(shí)別功能,有助于實(shí)現(xiàn)多語言語音轉(zhuǎn)錄和翻譯成英語。有趣的是,最初計(jì)劃將Whisper模型與ChatGPT集成,使用戶能夠通過語音直接與聊天機(jī)器人交流,但后來OpenAI決定將該模型直接向公眾開放。

    OpenAI之所以選擇開源Whisper3,是為了為構(gòu)建有用的語音處理應(yīng)用和進(jìn)一步的魯棒語音處理研究提供基礎(chǔ)。該模型經(jīng)過了大規(guī)模數(shù)據(jù)集的訓(xùn)練,包括來自互聯(lián)網(wǎng)的超過68萬小時(shí)的數(shù)據(jù),其中三分之一來自非英語來源。

    OpenAI計(jì)劃未來將Whisper3的API向用戶開放,這將為開發(fā)者和研究人員提供更多機(jī)會(huì),以創(chuàng)造創(chuàng)新的語音處理應(yīng)用,推動(dòng)語音技術(shù)的發(fā)展。

    舉報(bào)

    • 相關(guān)推薦
    • 為編程而生?OpenAI 發(fā)布 GPT -4.1 系列模型

      OpenAI 表示,GPT-4.1 是為開發(fā)者量身定制的……

    • 剛剛,OpenAI發(fā)布GPT-image-1模型,更強(qiáng)吉卜力本來啦

      OpenAI發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持精細(xì)控制圖像敏感度、生成效率、背景、輸出格式等參數(shù),并集成吉卜力模式。Adobe、Figma等企業(yè)已將其應(yīng)用于產(chǎn)品中。API支持批量生成、蒙版編輯、透明度調(diào)整等高級(jí)功能,圖像生成成本從0.02-0.19美元/張不等。CEO Sam Altman表示該模型與ChatGPT版本差異顯著,開發(fā)者可通過API實(shí)現(xiàn)更多創(chuàng)意場(chǎng)景。新模型在?

    • 國產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標(biāo)志著中國AI進(jìn)入推理模型新時(shí)代。文章梳理了國產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點(diǎn)分析了六大國產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點(diǎn)與市場(chǎng)表現(xiàn),指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強(qiáng)調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實(shí)現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下,國產(chǎn)全棧技術(shù)路徑的重要性,認(rèn)為自主可控將成為對(duì)抗國際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競(jìng)爭(zhēng)焦點(diǎn),國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    • AI日?qǐng)?bào):百度大招!發(fā)布文心大模型X1Turbo和AI開放計(jì)劃OpenAI免費(fèi)開放輕量Deep Research;即夢(mèng)視頻3.0內(nèi)測(cè)

      【AI日?qǐng)?bào)】主要報(bào)道了AI領(lǐng)域的最新動(dòng)態(tài):1)百度發(fā)布文心大模型X1Turbo和4.5Turbo,性能價(jià)格優(yōu)勢(shì)顯著;2)百度推出AI開放計(jì)劃,降低開發(fā)者門檻;3)OpenAI免費(fèi)開放輕量版Deep Research研究工具;4)即夢(mèng)視頻3.0內(nèi)測(cè)展示流暢運(yùn)鏡和精準(zhǔn)表情捕捉能力;5)百度發(fā)布全球首個(gè)內(nèi)容操作系統(tǒng)"滄舟OS";6)百度文庫與網(wǎng)盤聯(lián)合推出GenFlow超能搭子和AI筆記工具;7)Pixverse推出MCP協(xié)議簡(jiǎn)化AI視頻創(chuàng)作;8)Tavus發(fā)布突破性唇形同步模型Hummingbird-0;9)豆包1.5深度思考模型上線,提供免費(fèi)額度;10)Adobe整合OpenAI和Google模型升級(jí)Firefly創(chuàng)意平臺(tái);11)ImageSlider2.0即將加入Gradio核心產(chǎn)品線;12)李彥宏談DeepSeek現(xiàn)存痛點(diǎn),強(qiáng)調(diào)多模態(tài)能力與降本需求。

    • 微軟上線GPT-image-1模型 通過API向開發(fā)者開放使用

      OpenAI于4月24日發(fā)布全新圖像生成模型GPT-image-1,通過API向全球開發(fā)者開放。該模型支持生成高質(zhì)量圖像,具備多級(jí)定制功能,包括控制敏感度、生成效率、背景、輸出格式等參數(shù),并推出"吉卜力模式"生成獨(dú)特風(fēng)格圖像。Adobe、Figma等多家企業(yè)已將其集成到產(chǎn)品中。API定價(jià)按token計(jì)算,低質(zhì)量圖像生成成本約0.02美元/張。OpenAI CEO Sam Altman高度評(píng)價(jià)該模型,認(rèn)為其為開發(fā)者帶來更大創(chuàng)意空間。

    • OpenAI發(fā)布o3、o4 mini模型,實(shí)現(xiàn)“看圖說話”,糊圖也行!

      從 GPT-5 開始,推理模型和非推理模型很有可能會(huì)整合在一起……

    • 首次實(shí)現(xiàn)圖像思考 OpenAI重磅發(fā)布o3/o4-mini:史上最強(qiáng)、最智能模型

      快科技4月17日消息,今日,OpenAI新款A(yù)I模型o3、o4-mini重磅發(fā)布,這是OpenAI迄今最強(qiáng)、最智能的模型。據(jù)了解,OpenAI o3/o4-mini首次具備真正的視覺推理能力,看圖識(shí)圖已經(jīng)是小菜一碟了,現(xiàn)在還會(huì)看圖思考。OpenAI o3/o4-mini能同時(shí)處理文本、圖像和音頻,并且能作為Agent智能體自動(dòng)調(diào)用網(wǎng)絡(luò)搜索、圖像生成、代碼解析等工具以及深度思考模式。通過強(qiáng)化學(xué)習(xí),OpenAI訓(xùn)練了o3/o4-mini如何?

    • AI日?qǐng)?bào): OpenAI推出gpt-image-1圖像生成API;納米AI發(fā)布MCP萬能工具箱;中國占全球AI專利60%

      【AI日?qǐng)?bào)】欄目聚焦人工智能領(lǐng)域最新動(dòng)態(tài):1) OpenAI推出ChatGPT圖像生成API,開發(fā)者可輕松集成AI繪圖功能,已生成超7億張圖片;2) 谷歌Gemini月活用戶突破3.5億,但仍落后于ChatGPT的6億用戶;3) OpenAI預(yù)測(cè)2029年收入將達(dá)1250億美元,AI代理業(yè)務(wù)成主要增長(zhǎng)點(diǎn);4) Ostris發(fā)布8B參數(shù)擴(kuò)散模型Flex.2-preview,優(yōu)化ComfyUI工作流;5) 英偉達(dá)推出多模態(tài)LLM模型Describe Anything,支持指定區(qū)域生成詳細(xì)描?

    • o3模型基準(zhǔn)測(cè)試分?jǐn)?shù)僅為10%,遠(yuǎn)低于OpenAI宣傳的25%

      OpenAI的新AI模型o3在第一方和第三方基準(zhǔn)測(cè)試中存在差異,引發(fā)公眾對(duì)其透明度和測(cè)試實(shí)踐的質(zhì)疑。去年12月,o3首次亮相時(shí)聲稱能解答超過25%的FrontierMath問題,但實(shí)際正確率僅為2%。內(nèi)部測(cè)試發(fā)現(xiàn),o3能達(dá)到超過25%的準(zhǔn)確率,但其使用的計(jì)算資源比上周OpenAI推出的模型多得多。Epoch AI發(fā)布的獨(dú)立基準(zhǔn)測(cè)試結(jié)果顯示,o3的得分約為10%,遠(yuǎn)低于OpenAI宣稱的25%。盡管如此,這并不意味著OpenAI的說法有誤,可能是因?yàn)镺penAI使用了更強(qiáng)大的內(nèi)部架構(gòu)進(jìn)行評(píng)估,并采用了更多計(jì)算資源。此外,Epoch指出其測(cè)試設(shè)置可能與OpenAI不同,并且在評(píng)估中使用了更新版本的FrontierMath。

    • 微信,OpenAI和Kimi想一起去了:大模型的盡頭依然還是社交平臺(tái)

      AI圈最近彌漫著一股微妙的氣息。人們似乎不再熱議大語言模型的最新突破、以及AI應(yīng)用的無限可能時(shí),一些代表著未來的AI巨頭,卻似乎正將目光投向互聯(lián)網(wǎng)那熟悉得不能再熟悉的角落——社交網(wǎng)絡(luò)與社區(qū)。近期的傳聞和動(dòng)作頗具代表性,在大洋彼岸,手握ChatGPT和Sora等王牌的OpenAI,據(jù)稱正內(nèi)部測(cè)試類X的社交功能,其CEO Sam Altman甚至在私下征求反饋;而在國內(nèi),憑借長(zhǎng)文本能力

    熱文

    • 3 天
    • 7天