中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > Cartesia最新資訊  > 正文

    Cartesia發(fā)布了一個擁有極快推理速度和超低延遲的語音生成模型Sonic

    2024-05-30 17:42 · 稿源:站長之家

    站長之家(ChinaZ.com) 5月30日 消息: 據(jù)來自 Cartesia最新消息,他們今天發(fā)布了 Sonic,這是他們在構(gòu)建實(shí)時多模態(tài)智能時代的第一步。Sonic 是一個極速的生成語音模型和 API,擁有令人驚嘆的低延遲(僅為135毫秒模型延遲),栩栩如生的聲音效果,目前只支持英文。

    Sonic 采用了全新的狀態(tài)空間模型架構(gòu),有效地建模高分辨率數(shù)據(jù),例如音頻和視頻。在語音方面,經(jīng)過參數(shù)匹配和優(yōu)化的 Sonic 模型在與廣泛使用的 Transformer 相同的數(shù)據(jù)集上訓(xùn)練,顯著提高了音頻質(zhì)量,包括降低20% 的困惑度、降低2倍的單詞錯誤率以及提高1分的 NISQA 質(zhì)量。

    image.png

    此外,Sonic 具有更低的延遲、更快的推理速度以及更高的吞吐量,為用戶帶來更出色的體驗(yàn)。Cartesia 還提供了 Web Playground 和低延遲 API,用戶可以立即開始體驗(yàn) Sonic 的強(qiáng)大功能。

    創(chuàng)始人在斯坦福大學(xué)攻讀博士學(xué)位期間開創(chuàng)了狀態(tài)空間模型,為 Sonic 的研發(fā)奠定了基礎(chǔ)。這種模型是第一個次線性架構(gòu),可以在語言和音頻等重要模態(tài)上匹配 Transformer,同時釋放潛在的無限上下文、恒定的狀態(tài)大小和高吞吐量的推理。

    Cartesia 表示,他們很期待與社區(qū)一起探討替代架構(gòu),并將很快分享更多信息。如果您也對使智能更快、更便宜、更易獲取感興趣,歡迎通過郵箱 join@cartesia.ai 聯(lián)系他們。

    在這個快速發(fā)展的多模態(tài)智能時代,Cartesia 的 Sonic 將引領(lǐng)行業(yè),為用戶帶來全新的體驗(yàn)和可能性。立即體驗(yàn) Sonic,探索實(shí)時多模態(tài)智能的未來!

    官方體驗(yàn)地址:https://play.cartesia.ai/

    舉報

    • 相關(guān)推薦
    • 亞馬遜推出AI語音模型Nova Sonic:價格比GPT-4o便宜80%

      亞馬遜正式推出新一代生成式AI語音模型NovaSonic,標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出,在速度、語音識別準(zhǔn)確率和對話質(zhì)量等核心性能指標(biāo)上,已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步,未來還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

    • AI日報:阿里騰訊全面支持MCP協(xié)議;階躍星辰多模態(tài)推理模型Step-R1-V-Mini;美圖WHEE圖像生成模型Miracle F1

      歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點(diǎn)內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。新鮮AI產(chǎn)品點(diǎn)擊了解:https://top.aibase.com/1、阿里巴巴已宣布全面支持MCP協(xié)議騰訊緊隨其后近日,中國人工智能領(lǐng)域迎來技術(shù)標(biāo)準(zhǔn)的變革,ModelContextProtocol成為國內(nèi)AI生態(tài)的事實(shí)標(biāo)準(zhǔn)。12.英偉達(dá)發(fā)布Llama3.1NemotronUltra253B,性能?

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時,它先畫了狗然后改為貓,但仍存在錯誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

    • 視頻生成模型Vidu Q1怎么用?Vidu Q1官網(wǎng)是什么?

      國產(chǎn)視頻生成大模型Vidu Q1在性能、價格和功能上實(shí)現(xiàn)重大突破。該模型由生數(shù)科技推出,在VBench評測中超越Sora等國內(nèi)外頂尖模型,支持1080p高清視頻生成,每秒價格低至3毛錢。其首尾幀功能僅需兩張圖即可實(shí)現(xiàn)電影級運(yùn)鏡效果,支持多元風(fēng)格生成和48kHz高采樣率混音功能。Vidu Q1已深度賦能影視、廣告、動漫等行業(yè),大幅降低創(chuàng)作門檻。

    • 不要思考過程,推理模型能力能夠更強(qiáng)

      UC伯克利和艾倫實(shí)驗(yàn)室的最新研究表明,推理模型無需依賴冗長的思考過程也能有效工作。研究人員提出的"無思考(NoThinking)"方法通過簡單提示直接生成解決方案,跳過了傳統(tǒng)推理模型中的顯性思考步驟。實(shí)驗(yàn)證明,在低資源(低token數(shù)量、少模型參數(shù))或低延遲情況下,NoThinking方法的表現(xiàn)優(yōu)于傳統(tǒng)思考方式,能減少token使用量并提高推理速度。該方法在數(shù)學(xué)問題解決、編程和形式定理證明等任務(wù)中表現(xiàn)優(yōu)異,尤其在資源受限時優(yōu)勢更明顯。研究還發(fā)現(xiàn),結(jié)合并行計(jì)算擴(kuò)展后,NoThinking能進(jìn)一步提升性能,在保持準(zhǔn)確性的同時顯著降低延遲和計(jì)算成本。這一發(fā)現(xiàn)挑戰(zhàn)了"推理模型必須依賴詳細(xì)思考過程"的傳統(tǒng)認(rèn)知。

    • 國產(chǎn)六大推理模型激戰(zhàn)OpenAI?

      2025年春節(jié)前夕,DeepSeek-R1模型發(fā)布,標(biāo)志著中國AI進(jìn)入推理模型新時代。文章梳理了國產(chǎn)大模型發(fā)展歷程:從2022年ChatGPT引發(fā)國內(nèi)追趕OpenAI熱潮,到2023年"百模大戰(zhàn)",再到2024年"AI六小虎"格局形成。重點(diǎn)分析了六大國產(chǎn)推理模型(DeepSeek、百度、阿里、科大訊飛、字節(jié)、騰訊)的技術(shù)特點(diǎn)與市場表現(xiàn),指出國產(chǎn)模型在性能上已接近GPT-4水平。特別強(qiáng)調(diào)科大訊飛星火X1憑借全國產(chǎn)化技術(shù)路線獲得政企青睞,以及DeepSeek-R1以560萬美元超低成本實(shí)現(xiàn)高性能的突破。文章還探討了英偉達(dá)芯片斷供危機(jī)下,國產(chǎn)全棧技術(shù)路徑的重要性,認(rèn)為自主可控將成為對抗國際不確定性的關(guān)鍵。最后指出,隨著推理模型成為競爭焦點(diǎn),國產(chǎn)大模型正從技術(shù)追隨轉(zhuǎn)向自主創(chuàng)新階段。

    • 谷歌Gemini整合Veo 2視頻生成模型,8秒720P視頻輕松搞定

      谷歌宣布又有一款 AI 模型將加入 Gemini,但這次它不僅僅是一個聊天機(jī)器人。

    • 字節(jié)發(fā)布豆包1.5深度思考模型:“實(shí)拍級”圖像生成

      快科技4月17日消息,據(jù)報道,今日,在火山引擎AI創(chuàng)新巡展杭州站的現(xiàn)場,字節(jié)跳動旗下火山引擎總裁譚待正式發(fā)布了備受矚目的豆包1.5深度思考模型。譚待指出,豆包1.5深度思考模型在多個關(guān)鍵領(lǐng)域展現(xiàn)出卓越性能。在數(shù)學(xué)、編程、科學(xué)推理這類專業(yè)領(lǐng)域中,它能夠精準(zhǔn)高效地處理復(fù)雜問題;在創(chuàng)意寫作等通用任務(wù)方面,同樣表現(xiàn)出色。該模型采用MoE架構(gòu),總參數(shù)為200B,激?

    • IQ 過百的 AI 模型名單發(fā)布ChatGPT、Deepseek等上榜

      人工智能IQ哪家強(qiáng)?o3 智商高達(dá) 132、Gemini 2.5 Pro Exp. 拿下 128 分、Claude 憑借 3.7 Sonnet Extended 位列第四、Deepsee R 1……

    • AI日報:騰訊混元3D生成模型2.5版本發(fā)布;海螺推出圖像人物參考功能;百度上線移動端超級智能體心響App

      本文介紹了多款A(yù)I領(lǐng)域的新產(chǎn)品和技術(shù)進(jìn)展:1)Kortix-AI推出開源通用AI智能體平臺Suna;2)騰訊混元3D生成模型升級至2.5版本;3)海螺AI推出基于單張圖像生成多角度角色圖像功能;4)百度發(fā)布"心響"App整合多智能體協(xié)作;5)Nari Labs開源媲美真人的對話語音模型Dia;6)Grok新增視覺處理和多語言支持;7)Genspark推出AI幻燈片工具;8)Character.AI發(fā)布讓靜態(tài)圖片"說話"的AvatarFX模型;9)pad.ws結(jié)合白板和代碼編輯器;10)OpenBMB開源社區(qū)推出長文本生成模型"卷姬";11)騰訊推出AI閱讀助手"企鵝讀伴";12)OpenAI有意收購Chrome瀏覽器;13)字節(jié)跳動調(diào)整AI產(chǎn)品線布局。這些創(chuàng)新展現(xiàn)了AI技術(shù)在自動化、3D生成、語音交互、內(nèi)容創(chuàng)作等領(lǐng)域的快速發(fā)展。