歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/
1、Kimi開源視覺語言模型 Kimi-VL 與 Kimi-VL-Thinking,多項基準(zhǔn)超越 GPT-4o
Moonshot AI 最近開源了 Kimi-VL 和 Kimi-VL-Thinking 兩款視覺語言模型,展現(xiàn)出卓越的多模態(tài)理解與推理能力。這些模型采用輕量級的 MoE 架構(gòu),參數(shù)僅有30億,卻在多個基準(zhǔn)測試中超越了 GPT-4o。Kimi-VL 系列在數(shù)學(xué)推理、智能體操作和高分辨率圖像處理等方面表現(xiàn)突出,支持超長上下文理解,展現(xiàn)出廣泛的應(yīng)用潛力。
【AiBase提要:】
??? Kimi-VL 和 Kimi-VL-Thinking 采用輕量級 MoE 架構(gòu),參數(shù)僅30億,運行效率高。
?? 在 MathVision 和 ScreenSpot-Pro 測試中,Kimi-VL 分別取得36.8% 和34.5% 的優(yōu)異成績,展示強(qiáng)大的推理能力。
?? 支持高達(dá)128K tokens 的上下文輸入,適用于長文檔和視頻分析,展現(xiàn)出廣泛的應(yīng)用潛力。
詳情鏈接:https://github.com/MoonshotAI/Kimi-VL https://huggingface.co/moonshotai/Kimi-VL-A3B-Instruct
2、科大訊飛旗下訊飛星辰Agent開發(fā)平臺已全面支持MCP
科大訊飛近日宣布其訊飛星辰Agent開發(fā)平臺全面支持MCP,旨在幫助開發(fā)者高效構(gòu)建Agent應(yīng)用。該平臺不僅支持輕松配置和調(diào)用行業(yè)領(lǐng)先的MCP Server,還允許一鍵發(fā)布自定義MCP Server,實現(xiàn)真正的“即插即用”。首批支持的MCP Server覆蓋多個行業(yè),推動AI應(yīng)用的中間層標(biāo)準(zhǔn)化。
【AiBase提要:】
?? 開發(fā)者可以輕松配置和調(diào)用行業(yè)領(lǐng)先的MCP Server,支持一鍵發(fā)布自定義MCP Server。
?? 首批支持20+行業(yè)精品MCP Server,涵蓋AI能力、生活服務(wù)等多個領(lǐng)域。
?? 訊飛星辰Agent開發(fā)平臺支持零代碼和低代碼創(chuàng)建模式,賦能個人和企業(yè)快速開發(fā)大模型應(yīng)用。
詳情鏈接:https://mcp.xfyun.cn/
3、昆侖萬維開源Skywork-OR1系列模型 數(shù)學(xué)代碼能力出色
昆侖萬維天工團(tuán)隊于4月13日推出了全新升級的Skywork-OR1系列模型,標(biāo)志著在邏輯推理和復(fù)雜任務(wù)求解方面的重大突破。該系列包含三款高性能模型,分別針對數(shù)學(xué)和代碼領(lǐng)域,展現(xiàn)出卓越的推理能力和性價比。Skywork-OR1-32B-Preview在競賽編程任務(wù)中表現(xiàn)尤為突出,顯示出其訓(xùn)練策略的先進(jìn)性。
【AiBase提要:】
?? Skywork-OR1系列模型在邏輯理解與復(fù)雜任務(wù)求解方面實現(xiàn)了業(yè)界領(lǐng)先的推理性能。
?? 包括Skywork-OR1-Math-7B、Skywork-OR1-7B-Preview和Skywork-OR1-32B-Preview三款高性能模型,滿足不同需求。
?? Skywork-OR1-32B-Preview在競賽編程任務(wù)中表現(xiàn)突出,接近DeepSeek-R1的能力,展現(xiàn)出優(yōu)越的性價比。
詳情鏈接:https://github.com/SkyworkAI/Skywork-OR1
4、字節(jié)跳動推出Seed-Thinking-v1.5:推理AI競賽中的新力量
字節(jié)跳動推出的新型大語言模型Seed-Thinking-v1.5在推理AI競爭中展現(xiàn)出強(qiáng)大的實力。該模型采用混合專家架構(gòu),能夠在多項基準(zhǔn)測試中超越行業(yè)巨頭,尤其是在科學(xué)、技術(shù)、數(shù)學(xué)和工程領(lǐng)域。通過技術(shù)創(chuàng)新和高效的訓(xùn)練方法,Seed-Thinking-v1.5不僅提高了推理能力,還在非推理任務(wù)中表現(xiàn)出色。
【AiBase提要:】
?? 字節(jié)跳動推出Seed-Thinking-v1.5,專注于STEM領(lǐng)域,采用混合專家架構(gòu)。
?? 在多項基準(zhǔn)測試中表現(xiàn)優(yōu)異,超越Google和OpenAI的產(chǎn)品。
?? 采用先進(jìn)的訓(xùn)練技術(shù)和強(qiáng)化學(xué)習(xí)框架,提升模型性能與效率。
5、商湯大裝置SenseCore2.0全新升級 推出1億元代金券計劃
在2025商湯技術(shù)交流日上,商湯科技宣布其大裝置SenseCore2.0全面升級,旨在為企業(yè)提供高效、靈活的全棧AI基礎(chǔ)設(shè)施服務(wù)。此次升級響應(yīng)了大模型產(chǎn)業(yè)的三大挑戰(zhàn),并通過技術(shù)創(chuàng)新顯著提升了算力利用率和推理性能。此外,商湯科技投入1億元專項代金券,助力各行業(yè)加速AI落地。
【AiBase提要:】
?? SenseCore2.0全面升級,提升AI基礎(chǔ)設(shè)施服務(wù)的性價比和靈活性。
?? 商湯與松應(yīng)科技戰(zhàn)略合作,推動具身智能技術(shù)的發(fā)展,解決智能化落地難題。
?? 投入1億元代金券,支持企業(yè)從咨詢到模型訓(xùn)練的全流程AI服務(wù)。
6、Google AI Studio開放Veo2視頻模型有限免費試用
Google AI Studio最近向部分用戶開放了Veo2視頻模型的有限免費試用,引發(fā)了廣泛關(guān)注。Veo2作為最新一代AI視頻生成工具,支持高達(dá)4K分辨率和真實的物理模擬,展現(xiàn)了其強(qiáng)大的技術(shù)實力。然而,試用權(quán)限受到嚴(yán)格限制,用戶對冷卻時間和后續(xù)使用的未知感到困惑。
【AiBase提要:】
?? Veo2視頻模型由Google DeepMind開發(fā),支持高達(dá)4K分辨率,展現(xiàn)出卓越的生成能力。
?? 試用權(quán)限有限,用戶反饋冷卻時間不明確,可能影響體驗。
?? Google對生成內(nèi)容進(jìn)行嚴(yán)格把控,確保用戶隱私和安全。
7、上海AI實驗室開源InternVL3系列多模態(tài)大型語言模型
OpenGVLab于4月11日發(fā)布了InternVL3系列模型,標(biāo)志著多模態(tài)大型語言模型領(lǐng)域的新里程碑。該系列模型包含從1B到78B的多種尺寸,具備處理文字、圖片、視頻等多種信息的能力,性能顯著提升。與前代產(chǎn)品相比,InternVL3在多模態(tài)感知和推理上有了顯著進(jìn)步,擴(kuò)展了工具使用、工業(yè)圖像分析等多個領(lǐng)域的能力。
【AiBase提要:】
?? InternVL3系列模型支持從1B到78B的多種尺寸,展現(xiàn)出卓越的多模態(tài)處理能力。
?? 與InternVL2.5相比,InternVL3在多模態(tài)感知和推理能力上有顯著提升,支持多圖像和視頻數(shù)據(jù)。
?? 模型可通過LMDeploy的api_server部署為OpenAI兼容API,用戶可輕松進(jìn)行模型調(diào)用。
詳情鏈接:https://modelscope.cn/collections/InternVL3-5d0bdc54b7d84e
8、AI“智商”大考變革!全新GAIA基準(zhǔn)超越 ARC-AGI
隨著人工智能技術(shù)的迅速發(fā)展,如何準(zhǔn)確評估AI的智能水平成為行業(yè)關(guān)注的重點。傳統(tǒng)的評估基準(zhǔn)如MMLU雖然廣泛使用,但其局限性逐漸顯現(xiàn),無法全面反映AI在實際應(yīng)用中的能力。新推出的GAIA基準(zhǔn)通過模擬真實世界的復(fù)雜問題,強(qiáng)調(diào)了AI在多步驟任務(wù)中的靈活性與專業(yè)化,標(biāo)志著AI評估方法的重大轉(zhuǎn)變。
【AiBase提要:】
?? 新基準(zhǔn)GAIA旨在評估AI在實際應(yīng)用中的能力,涵蓋多模態(tài)理解和復(fù)雜推理等關(guān)鍵技能。
?? 傳統(tǒng)基準(zhǔn)如MMLU的高分并不代表AI的真實能力,實際應(yīng)用中的表現(xiàn)差異顯著。
?? GAIA基準(zhǔn)的初步結(jié)果顯示,靈活性強(qiáng)的模型在復(fù)雜任務(wù)中表現(xiàn)優(yōu)于其他知名模型。
詳情鏈接:https://huggingface.co/gaia-benchmark
9、百元成本煉成開源視頻模型Pusa:基于Mochi微調(diào),低成本復(fù)現(xiàn)高質(zhì)量
Pusa是一個基于Mochi微調(diào)的開源視頻生成模型,具有低成本和完全開源的特點。僅需約100美元的訓(xùn)練成本,Pusa展現(xiàn)出較好的視頻生成能力,支持多種生成任務(wù)。其開放的微調(diào)流程促進(jìn)了社區(qū)的合作與發(fā)展,吸引更多研究者參與到視頻模型的研究中。
【AiBase提要:】
?? Pusa模型的訓(xùn)練成本僅為100美元,顯著低于傳統(tǒng)大型視頻模型的數(shù)萬甚至數(shù)十萬美元的成本。
?? Pusa完全開源,提供完整的代碼庫和訓(xùn)練方法,支持研究者復(fù)現(xiàn)實驗并進(jìn)行創(chuàng)新。
?? 基于Mochi的微調(diào),Pusa支持多種視頻生成任務(wù),盡管當(dāng)前分辨率為480p,但在運動保真度和提示遵循性方面表現(xiàn)出潛力。
詳情鏈接:https://top.aibase.com/tool/pusa
10、字節(jié)跳動開源項目UNO:圖片生成可以保持角色、物體一致性
字節(jié)跳動的開源項目UNO在AI圖像生成領(lǐng)域取得了重要突破,解決了以往生成圖像時角色或物體一致性的問題。通過創(chuàng)新的高一致性數(shù)據(jù)合成流程和模型設(shè)計,UNO能夠確保無論是單主體還是多主體場景,生成的圖像都能保持特征一致性。
【AiBase提要:】
?? UNO項目旨在解決AI圖像生成中的角色一致性問題,避免“臉盲癥”。
?? 采用高一致性數(shù)據(jù)合成流程和創(chuàng)新模型設(shè)計,UNO提升了圖像生成的可控性。
?? 同時支持單主體和多主體場景,確保生成結(jié)果的高度一致性。
詳情鏈接:https://huggingface.co/bytedance-research/UNO
11、小鵬汽車推新物理大模型,定位AI汽車公司
小鵬汽車創(chuàng)始人何小鵬在社交媒體上強(qiáng)調(diào)了公司作為AI汽車公司的定位,認(rèn)為人工智能的最大價值在于改變物理世界。他透露小鵬在自動駕駛領(lǐng)域的創(chuàng)新技術(shù),尤其是強(qiáng)化學(xué)習(xí)與模型蒸餾,使其在行業(yè)內(nèi)具備獨特競爭力。此外,小鵬正在訓(xùn)練一個超大規(guī)模的物理世界模型,標(biāo)志著其在AI技術(shù)應(yīng)用上的領(lǐng)先地位。
【AiBase提要:】
?? 小鵬汽車定位為AI汽車公司,強(qiáng)調(diào)AI技術(shù)在物理世界的應(yīng)用價值。
?? 引入強(qiáng)化學(xué)習(xí)與模型蒸餾技術(shù),提升自動駕駛領(lǐng)域的競爭力。
??2025年發(fā)布會將解答小鵬未來發(fā)展方向,推出新車型X9。
12、字節(jié)跳動布局AI智能眼鏡,挑戰(zhàn)下一代可穿戴設(shè)備市場
字節(jié)跳動正在積極研發(fā)一款A(yù)I智能眼鏡,旨在將先進(jìn)的人工智能功能與高質(zhì)量影像捕捉相結(jié)合,提供創(chuàng)新的用戶體驗。該設(shè)備將集成字節(jié)跳動自研的“豆包”AI模型,增強(qiáng)智能交互能力,用戶可通過語音指令等方式與眼鏡互動。項目已進(jìn)入實質(zhì)性研發(fā)階段,字節(jié)跳動與供應(yīng)鏈伙伴展開溝通,推動產(chǎn)品的功能設(shè)計與上市計劃。
【AiBase提要:】
?? 字節(jié)跳動研發(fā)AI智能眼鏡,融合先進(jìn)AI功能與影像捕捉。
?? 集成“豆包”AI模型,支持語音指令、實時翻譯等智能交互。
?? 計劃與供應(yīng)鏈伙伴溝通,推動產(chǎn)品設(shè)計與上市,挑戰(zhàn)Meta等競爭對手。
(舉報)