歡迎來到【AI日報】欄目!這里是你每天探索人工智能世界的指南,每天我們?yōu)槟愠尸F(xiàn)AI領(lǐng)域的熱點內(nèi)容,聚焦開發(fā)者,助你洞悉技術(shù)趨勢、了解創(chuàng)新AI產(chǎn)品應(yīng)用。
新鮮AI產(chǎn)品點擊了解:https://top.aibase.com/
1、智譜AI推出AutoGLM智能體:輸入指令即可模擬人類操作手機(jī)
智譜技術(shù)團(tuán)隊最近推出了基于GLM技術(shù)團(tuán)隊研究成果的新產(chǎn)品AutoGLM,這是一個智能體,能夠模擬人類操作手機(jī)執(zhí)行各種任務(wù)。AutoGLM的推出標(biāo)志著人工智能在“Phone Use”領(lǐng)域的進(jìn)步,使得AI的應(yīng)用更貼近人們的日常生活。
【AiBase提要:】
?? AutoGLM是智譜技術(shù)團(tuán)隊基于GLM技術(shù)研究成果推出的智能體,能模擬人類操作手機(jī)執(zhí)行任務(wù)。
?? AutoGLM應(yīng)用場景廣泛,可在微信、淘寶、攜程、12306、美團(tuán)等平臺完成各種任務(wù),無需復(fù)雜工作流搭建。
?? AutoGLM技術(shù)基于自研的智能體解耦合中間界面和自進(jìn)化在線課程強(qiáng)化學(xué)習(xí)框架,解決了任務(wù)規(guī)劃和動作執(zhí)行中的挑戰(zhàn)。
詳情鏈接:https://xiao9905.github.io/AutoGLM
2、敏神重磅更新Flux版ic-light模型:16通道VAE突破性能,細(xì)節(jié)保留能力驚人!
IC-Light V2基于Flux架構(gòu)橫空出世,帶來革命性圖像處理突破。16通道VAE和高分辨率特性讓其在細(xì)節(jié)保留和精準(zhǔn)度方面達(dá)到新高度,展現(xiàn)出色的適應(yīng)性。
【AiBase提要:】
? 革命性圖像處理突破:IC-Light V2采用16通道VAE和高分辨率特性,突破性能,細(xì)節(jié)保留能力驚人。
?? 多場景適應(yīng)性:IC-Light V2全能型工具,能處理油畫和動漫風(fēng)格圖像,保持原有精髓,表現(xiàn)出色。
?? 強(qiáng)大功能支持:IC-Light V2具低光處理和陰影調(diào)節(jié)功能,為攝影后期和專業(yè)圖像處理提供強(qiáng)大支持。
詳情鏈接:https://github.com/lllyasviel/IC-Light/discussions/98
3、告別配音演員?字節(jié)跳動PersonaTalk讓AI精準(zhǔn)配音,連表情細(xì)節(jié)都完美還原!
字節(jié)跳動最新開發(fā)的PersonaTalk AI模型實現(xiàn)了視頻精準(zhǔn)配音,聲音與嘴型完美同步,保留人物原有特點,讓視頻更真實自然。該模型采用注意力機(jī)制的兩階段框架,具有高度個性化的配音效果和優(yōu)秀的視覺質(zhì)量。然而,在處理非人類化身和大幅度面部姿勢時仍有局限性。字節(jié)跳動計劃限制核心模型訪問權(quán)限,防止技術(shù)濫用。
【AiBase提要:】
?? 聲音同步嘴型:PersonaTalk確保視頻中人物的嘴部動作與新語音口型完全匹配,實現(xiàn)完美同步。
?? 保留人物特點:PersonaTalk保留人物原有特點,包括說話方式、臉型和表情,保持視頻真實感。
?? 適用于不同人物:PersonaTalk不需大量數(shù)據(jù)單獨訓(xùn)練每個人物,適應(yīng)多樣化場景,提供靈活性和便利性。
詳情鏈接:https://grisoon.github.io/PersonaTalk/
4、Meta開源長視頻LLM項目LongVU:可過濾重復(fù)幀 高效精準(zhǔn)理解長視頻內(nèi)容
Meta AI團(tuán)隊推出了LongVU,一種新型的時空自適應(yīng)壓縮機(jī)制,旨在提升長視頻的語言理解能力。該技術(shù)利用DINOv2特征剔除冗余幀,通過跨模態(tài)查詢實現(xiàn)特征選擇性壓縮,在各種視頻理解基準(zhǔn)測試中表現(xiàn)優(yōu)異,尤其在長視頻理解任務(wù)中超越其他方法。長視頻內(nèi)容的快速增長需要更加高效的處理方式,LongVU的推出為多模態(tài)理解領(lǐng)域帶來新的可能性。
【AiBase提要:】
??? LongVU是一種新型的時空自適應(yīng)壓縮機(jī)制,旨在提升長視頻的語言理解能力。
?? 該技術(shù)利用DINOv2特征剔除冗余幀,并通過跨模態(tài)查詢實現(xiàn)特征選擇性壓縮。
?? LongVU在各種視頻理解基準(zhǔn)測試中表現(xiàn)優(yōu)異,尤其在長視頻理解任務(wù)中,超越了其他方法。
詳情鏈接:https://vision-cair.github.io/LongVU/
5、AI拿鐵來了!谷歌Gemini AI提供支持,但配方看起來有點黑暗
在菲律賓馬尼拉,Commune與谷歌菲律賓合作推出了AI輔助的Bibingka拿鐵,融合傳統(tǒng)節(jié)日美食風(fēng)味,展現(xiàn)現(xiàn)代飲品創(chuàng)新的可能性。這種創(chuàng)新飲品讓人感受濃厚的節(jié)日氛圍,喚起對傳統(tǒng)美食的懷念,吸引咖啡愛好者的目光。
【AiBase提要:】
?? 飲品融合濃縮咖啡、蒸奶、咸蛋等本地特色食材,呈現(xiàn)地道風(fēng)味。
?? AI技術(shù)與咖啡師手工藝完美結(jié)合,展示現(xiàn)代飲品創(chuàng)新的無限可能。
?? Commune展示了如何將文化元素融入產(chǎn)品,彰顯品牌在季節(jié)性產(chǎn)品上的創(chuàng)意,展示AI在餐飲創(chuàng)意中的潛力。
6、擺脫人工標(biāo)注魔咒!趣丸科技MaskGCT模型用10萬小時數(shù)據(jù),教會AI自己說話
趣丸科技聯(lián)合香港中文大學(xué)發(fā)布了名為MaskGCT的全新語音合成(TTS)模型,徹底顛覆了傳統(tǒng)TTS模型的玩法,實現(xiàn)了自學(xué)成才,不再依賴人工標(biāo)注。該模型采用了掩碼生成式編解碼器Transformer的架構(gòu),讓AI能靈活控制語音時長,達(dá)到了高質(zhì)量、相似度和韻律的語音合成效果。
【AiBase提要:】
?? 完全不需要人工標(biāo)注,通過10萬小時未標(biāo)注語音數(shù)據(jù)訓(xùn)練,實現(xiàn)自學(xué)成才。
?? 采用Transformer架構(gòu),將語音轉(zhuǎn)換成語義特征,再預(yù)測聲學(xué)特征,實現(xiàn)高質(zhì)量語音合成。
?? 能靈活控制語音時長,模仿不同說話者風(fēng)格,甚至跨語言進(jìn)行語音翻譯,表現(xiàn)出與真人媲美的水平。
詳情鏈接:https://huggingface.co/spaces/amphion/maskgct
7、Meta推出NotebookLM開源版“NotebookLlama”
Meta最近推出了名為NotebookLlama的新工具,是谷歌NotebookLM中備受歡迎的生成播客功能的開源版。雖然NotebookLlama能將用戶上傳的文件轉(zhuǎn)化為互動式的播客風(fēng)格摘要,但目前生成的聲音質(zhì)量較低,存在機(jī)械感和聲音重疊問題。AI生成的播客仍可能含有虛假信息,這是所有AI項目普遍存在的挑戰(zhàn)。
【AiBase提要:】
?? NotebookLlama是Meta推出的開源播客生成工具,利用Llama模型處理用戶上傳的文件。
?? 工具將文本轉(zhuǎn)換為播客風(fēng)格摘要,但聲音質(zhì)量較低,存在機(jī)械感和聲音重疊問題。
?? AI生成的播客仍可能含有虛假信息,是AI項目普遍存在的挑戰(zhàn)。
詳情鏈接:https://github.com/meta-llama/llama-recipes/tree/main/recipes/quickstart/NotebookLlama
8、AI語音轉(zhuǎn)錄工具Whisper被曝存在嚴(yán)重“幻覺”
最近,OpenAI的Whisper技術(shù)驅(qū)動的AI轉(zhuǎn)錄工具在醫(yī)療行業(yè)廣受歡迎,但研究發(fā)現(xiàn)在約1%的轉(zhuǎn)錄中會出現(xiàn)“幻覺”現(xiàn)象,甚至編造內(nèi)容。OpenAI表示正在努力改善工具性能,特別是減少幻覺現(xiàn)象。
【AiBase提要:】
?? Whisper轉(zhuǎn)錄工具在醫(yī)療行業(yè)廣泛使用,已記錄700萬次醫(yī)學(xué)對話。
?? 研究發(fā)現(xiàn)Whisper在約1%的轉(zhuǎn)錄中會出現(xiàn)“幻覺”,有時生成毫無意義內(nèi)容。
?? OpenAI表示持續(xù)努力改善工具性能,尤其在減少幻覺現(xiàn)象方面。
9、谷歌開發(fā)AI工具“Project Jarvis”,輕松操控你的電腦和瀏覽器!
谷歌最新研發(fā)的AI工具“Project Jarvis”將改變?nèi)藗兣c電腦的互動方式,讓AI應(yīng)用變得更加簡單和便利。用戶只需輸入簡單命令,AI即可自動完成各種在線任務(wù),降低了使用門檻。然而,隱私和安全問題也需引起關(guān)注,谷歌需要加強(qiáng)保障措施以保護(hù)用戶數(shù)據(jù)安全。
【AiBase提要:】
?? 谷歌研發(fā)的“Project Jarvis” AI工具可接管瀏覽器和電腦,簡化操作流程。
??? 用戶通過簡單命令,AI自動完成在線任務(wù),提高工作效率。
?? 谷歌需加強(qiáng)隱私和安全保護(hù),建立完善措施應(yīng)對潛在風(fēng)險。
10、蘋果新AI系統(tǒng)Ferret-UI2刷新UI交互體驗
蘋果公司發(fā)布的新一代人工智能系統(tǒng)Ferret-UI2在UI元素識別方面取得重大突破,展現(xiàn)出卓越的性能表現(xiàn)。該系統(tǒng)最大特點在于智能理解用戶意圖,實現(xiàn)自然語言指令操作。技術(shù)架構(gòu)自適應(yīng)多平臺,提供智能算法調(diào)整圖像分辨率,保證運算效率。競爭激烈的UI交互AI領(lǐng)域,蘋果的CAMPHOR框架增強(qiáng)了系統(tǒng)處理復(fù)雜任務(wù)能力,展望智能人機(jī)交互未來。
【AiBase提要:】
?? Ferret-UI2在UI元素識別領(lǐng)域取得重大突破,測試得分領(lǐng)先GPT-4V,展現(xiàn)卓越性能。
?? Ferret-UI2具備智能理解用戶意圖的能力,通過自然語言指令操作界面,提升用戶體驗。
?? Ferret-UI2技術(shù)架構(gòu)自適應(yīng)多平臺,智能算法調(diào)整圖像分辨率,保證運算效率。
11、Cohere推出首個圖文一體化搜索模型Embed3
Cohere公司最新推出的Embed3搜索模型實現(xiàn)了圖像搜索與文本檢索的無縫集成,為企業(yè)帶來了革命性變革。新系統(tǒng)采用統(tǒng)一存儲架構(gòu)解決了維護(hù)多個獨立數(shù)據(jù)庫的問題,支持主流圖片格式并將商業(yè)數(shù)據(jù)轉(zhuǎn)換為向量表示,大幅提升了檢索效率。更新后的模型支持超過100種語言,具備強(qiáng)大的跨平臺兼容性。
【AiBase提要:】
?? 圖像搜索與文本檢索無縫集成,革命性變革企業(yè)搜索方式。
?? 統(tǒng)一存儲架構(gòu)解決維護(hù)多個獨立數(shù)據(jù)庫問題,支持主流圖片格式。
?? 商業(yè)數(shù)據(jù)轉(zhuǎn)換為向量表示,提升檢索效率。支持超過100種語言,跨平臺兼容性強(qiáng)。
12、GPT-4超越人類分析師,財務(wù)預(yù)測準(zhǔn)確率達(dá)到60%
這篇文章介紹了芝加哥大學(xué)布斯商學(xué)院的研究結(jié)果,表明OpenAI的GPT-4在財務(wù)分析和預(yù)測方面超越了人類分析師,準(zhǔn)確率達(dá)到60%。研究采用了名為“思維鏈”的提示方式,指導(dǎo)GPT-4識別財務(wù)趨勢,展現(xiàn)出穩(wěn)健的分析能力。應(yīng)用GPT-4的交易策略取得了顯著的市場超越和高額收益,為未來投資者帶來新的盈利潛力。這項研究為生成式AI在金融領(lǐng)域的應(yīng)用指明了方向,預(yù)示著金融行業(yè)可能迎來全新的變革。
【AiBase提要:】
?? GPT-4在財務(wù)分析和預(yù)測中超越人類分析師,準(zhǔn)確率達(dá)到60%
?? 研究利用“思維鏈”提示方法,幫助GPT-4有效識別財務(wù)趨勢
?? 應(yīng)用GPT-4的交易策略實現(xiàn)了顯著的市場超越,產(chǎn)生了高額收益
13、自動駕駛也要玩“元宇宙”?極佳科技用AI腦補,讓4D場景重建更絲滑!
極佳科技推出的DriveDreamer4D框架利用世界模型的先驗知識提升4D駕駛場景重建效果,解決傳統(tǒng)方法在復(fù)雜路況下容易翻車的問題。實驗證明DriveDreamer4D在處理復(fù)雜路況時效果優(yōu)于傳統(tǒng)方法,提高重建圖像保真度和準(zhǔn)確性。雖然仍處于研究階段,但未來有望成為自動駕駛領(lǐng)域不可或缺的一部分。
【AiBase提要:】
?? DriveDreamer4D框架利用世界模型的先驗知識提升4D駕駛場景重建效果,避免傳統(tǒng)方法依賴訓(xùn)練數(shù)據(jù)導(dǎo)致翻車問題。
?? 世界模型作為AI大腦,預(yù)測未來可能發(fā)生情況,讓4D場景重建模型見多識廣,不再翻車。
??? DriveDreamer4D設(shè)計了新軌跡生成模塊(NTGM),自動生成符合交通規(guī)則的軌跡,提高模型在復(fù)雜路況下的表現(xiàn)。
詳情鏈接:https://arxiv.org/pdf/2410.13571
14、小米15內(nèi)存標(biāo)配升級,端側(cè)AI對內(nèi)存要求更高
隨著人工智能時代的全面到來,智能手機(jī)硬件配置正在經(jīng)歷革命。小米15系列取消8GB內(nèi)存版本,轉(zhuǎn)為12GB內(nèi)存標(biāo)準(zhǔn)配置,反映移動終端AI發(fā)展新方向。硬件規(guī)格升級帶來更優(yōu)秀顯示效果和更高續(xù)航能力。小米發(fā)布會展示16款新品,深度布局人車家全生態(tài)戰(zhàn)略。消費者選購新機(jī)建議選擇更大內(nèi)存版本適應(yīng)未來AI應(yīng)用普及,注意不同品牌內(nèi)存定價差異。
【AiBase提要:】
?? 端側(cè)AI需求推動內(nèi)存升級,小米15系列將以12GB內(nèi)存作為標(biāo)準(zhǔn)配置起點。
?? 硬件規(guī)格升級,小米15和15Pro配備更優(yōu)秀的顯示屏和M9發(fā)光材料,續(xù)航能力分別提升23%和38%。
?? 小米發(fā)布會展示16款新品,包括手機(jī)產(chǎn)品、小米澎湃OS2、智能穿戴設(shè)備等,體現(xiàn)全生態(tài)戰(zhàn)略深度布局。
(舉報)