??????AI應(yīng)用
Stability.ai發(fā)布開源文生圖模型SDXL Turbo
文生成圖AI平臺Stability.ai發(fā)布開源SDXL Turbo,圖像生成實時響應(yīng),僅需1秒。SDXL Turbo基于全新對抗擴散蒸餾技術(shù)(ADD),將生成步驟減至1-4步,保持高質(zhì)量。性能測試顯示,SDXL Turbo在1步驟擊敗LCM-XL的4步驟和SDXL的50步驟。雖有局限,只能用于學術(shù)研究,生成512x512固定像素圖片,但技術(shù)突破可助中小企業(yè)低成本應(yīng)用。
開源地址:https://github.com/Stability-AI/generative-models
在線體驗地址:https://clipdrop.co/stable-diffusion-turbo
論文地址:https://stability.ai/s/adversarial_diffusion_distillation.pdf
【AiBase提要:】
?? SDXL Turbo發(fā)布:Stability.ai宣布開源SDXL Turbo,實現(xiàn)文生成圖實時響應(yīng),1秒生成圖片。
?? 技術(shù)突破:基于對抗擴散蒸餾技術(shù),SDXL Turbo將生成步驟從50減至1-4步,保持高圖像質(zhì)量。
?? 應(yīng)用范圍:雖局限于學術(shù)研究,SDXL Turbo技術(shù)突破可助中小企業(yè)以低成本進行圖像生成應(yīng)用。
Pika Labs1.0版發(fā)布
AI初創(chuàng)公司Pika Labs正式發(fā)布了其令人印象深刻的AI視頻生成器的1.0版本,為視頻創(chuàng)作帶來了全新的體驗。
Pika Labs體驗網(wǎng)址:https://top.aibase.com/tool/pika-labs
【AiBase提要:】
Pika Labs發(fā)布1.0版AI視頻生成器,支持多種風格視頻創(chuàng)作。
Pika Labs成功融資5500萬美元,由知名投資者領(lǐng)投。
Pika Labs1.0支持用戶上傳視頻二次生成和編輯,而且還能局部編輯視頻內(nèi)容
字節(jié)跳動ChitChop在海外上線
字節(jié)跳動推出的大模型產(chǎn)品“ChitChop”在海外上線,由POLIGON開發(fā)和運營,提供多達200+的智能機器人服務(wù),支持創(chuàng)作、工作、AI畫畫、娛樂、AI學習和生活等六大場景,具備語音輸入和文件分析功能。
【AiBase提要:】
?? ChitChop是字節(jié)跳動的人工智能助理工具,提供200+智能機器人服務(wù)。
??? 產(chǎn)品支持創(chuàng)作、工作、AI畫畫、娛樂、AI學習和生活等六大場景。
??? ChitChop具備語音輸入功能,能自動識別語音內(nèi)容,并可進行文件分析和討論。
??????AI新鮮事
OpenAI介入調(diào)查:GPT-4在編寫代碼上偷懶
GPT-4最新版本因偷懶不愿編寫完整代碼,用戶抱怨頻出,引起廣泛關(guān)注和調(diào)查。
【AiBase提要:】
?? GPT-4最新版本存在編寫代碼懶惰的問題,用戶反映在實際需求中難以得到滿足。
?? 用戶反饋GPT-4在解釋問題上花費過多時間,而不提供實際可運行代碼,引發(fā)不滿。
?? OpenAI已介入調(diào)查,并表示將借助用戶提供的例子加以改進。
法院判決AI生成圖片具備版權(quán)
北京互聯(lián)網(wǎng)法院首次就AI生成圖片領(lǐng)域著作權(quán)侵權(quán)案作出一審判決,認定AI生成的圖片具備獨創(chuàng)性和智力投入,應(yīng)受著作權(quán)法保護,為該領(lǐng)域著作權(quán)保護樹立了重要判例。
【AiBase提要:】
??法院首次確認AI生成圖片具備獨創(chuàng)性和智力投入,應(yīng)受著作權(quán)法保護。
??在創(chuàng)作過程中,法院強調(diào)智力投入主要來自人而非人工智能模型。
???判決對涉案圖片的智力成果、獨創(chuàng)性、作品性質(zhì)及著作權(quán)歸屬等進行詳細解釋,對AI生成圖片領(lǐng)域著作權(quán)保護具有重要意義。
vivo S18系列將首批搭載藍心AI大模型
vivo宣布S18系列將成為首批采用AI大模型技術(shù)的手機,搭載自研藍心大模型,參數(shù)量級涵蓋十億、百億、千億。S18將采用驍龍7Gen3處理器,而S18Pro升級為天璣9200處理器。
【AiBase提要:】
?? 技術(shù)領(lǐng)先: vivo S18系列引領(lǐng)潮流,首批搭載覆蓋十億至千億參數(shù)級別的藍心AI大模型技術(shù)。
?? 卓越配置: S18搭載驍龍7Gen3處理器,曲面屏、超光感人像鏡頭,而S18Pro升級至天璣9200,支持Wi-Fi7等先進配置。
?? 全面布局: vivo不僅在硬件上創(chuàng)新,還推出了藍心小V助理和藍心千詢APP,拓展了基于AI大模型的應(yīng)用場景。
谷歌搜索展示AI生成圖片替代了真實照片
最新報道指出,谷歌搜索結(jié)果中以色列傳奇歌手卡瑪卡維沃·奧萊的照片實際上是由人工智能生成的,引發(fā)了對搜索準確性的擔憂。
【AiBase提要:】
?? 谷歌搜索顯示卡瑪卡維沃·奧萊的照片實為AI生成,替代了真實照片。
?? 谷歌表示正在改進Knowledge Panels,但對問題尚未解決。
?? 網(wǎng)頁指責Google對AI生成的虛假信息回應(yīng)不足,呼吁公司解決問題。
亞馬遜宣布推出新的人工智能芯片Trainium2
亞馬遜AWS推出新的人工智能芯片「Trainium2」,旨在構(gòu)建和運行AI應(yīng)用程序,同時深化與英偉達的合作,提供對Nvidia最新芯片的訪問。
【AiBase提要:】
?? 雙管齊下策略: 亞馬遜計劃推出Trainium2人工智能芯片,同時提供對Nvidia最新芯片的訪問,以滿足不斷增長的AI應(yīng)用需求。
?? 性能提升: Trainium2芯片將使AI模型性能提高四倍,為公司如OpenAI、Databricks等提供更強大的訓練工具。
?? 多元選擇: 亞馬遜強調(diào)其云計算服務(wù)AWS的多元選擇,包括Graviton4處理器和Nvidia GPU,以滿足客戶對成本效益高的云服務(wù)的需求。
一男子用AI工具洗稿競爭對手文章 “竊取”數(shù)百萬的頁面瀏覽量
人工智能生成工具在SEO領(lǐng)域引發(fā)爭議,Content Growth創(chuàng)始人通過AI文本生成器成功竊取360萬流量,引發(fā)用戶質(zhì)疑和道德?lián)鷳n。
【AiBase提要:】
?? 互聯(lián)網(wǎng)時代,強大的文本生成器如ChatGPT顛覆傳統(tǒng)SEO,引發(fā)人工智能生成內(nèi)容浪潮。
?? Content Growth創(chuàng)始人通過AI文本生成器實施SEO“搶劫”,引發(fā)用戶強烈憤怒和道德質(zhì)疑。
?? 使用Byword等人工智能生成器清洗現(xiàn)有內(nèi)容,可能欺騙搜索引擎,呼吁對人工智能內(nèi)容進行監(jiān)管和審查。
麻省理工學院推GenSim項目:利用大語言模型編寫機器人新任務(wù)
麻省理工學院的“GenSim”項目利用大型語言模型如GPT-4,通過自動生成新任務(wù)或詳細說明所需行為的每個步驟,擴大了機器人可以接受培訓的仿真任務(wù)范圍,為機器人學習提供更廣泛的模擬任務(wù)。
【AiBase提要:】
?? MIT CSAIL的“GenSim”項目通過大型語言模型生成新任務(wù)或詳細說明機器人行為步驟,拓展了機器人在仿真任務(wù)中的培訓范圍。
?? GenSim系統(tǒng)具有目標導向和探索兩種模式,利用LLM生成任務(wù)描述和行為代碼,成功訓練機械臂執(zhí)行新任務(wù),如高速放置彩色積木。
?? 經(jīng)過人類預訓練后,GenSim自動生成了100種新行為,相比手動編寫任務(wù)的基準測試,展示了在構(gòu)思新型機器人活動方面的潛力。
亞馬遜推出AI聊天機器人Amazon Q
亞馬遜在re:Invent大會上發(fā)布了面向AWS客戶的AI聊天機器人「Amazon Q」,可提供廣泛的解決方案和操作建議,涵蓋業(yè)務(wù)智能、編程和配置等多個領(lǐng)域。
【AiBase提要:】
?? Amazon Q是面向AWS客戶的聊天機器人,起始價格每用戶每年20美元,能回答廣泛問題。
?? 可連接到各應(yīng)用程序,學習企業(yè)各方面信息,生成內(nèi)容,提供可視化選項。
?? 重視隱私,Q僅返回用戶有權(quán)查看信息,管理員可控制和過濾答案。
????????大模型動態(tài)
北大提出Chat-UniVi視覺語言大模型
Chat-UniVi是由北大和中山大學研究者提出的統(tǒng)一視覺語言大模型,在短短三天訓練內(nèi)獲得130億參數(shù),通過動態(tài)視覺token和密度峰聚類算法實現(xiàn)統(tǒng)一視覺表征,在多任務(wù)中表現(xiàn)卓越。
項目地址:https://github.com/PKU-YuanGroup/Chat-UniVi
【AiBase提要:】
?? 模型簡介: Chat-UniVi是北大和中山大學研究者提出的視覺語言大模型,僅需三天訓練即可獲得130億參數(shù),實現(xiàn)統(tǒng)一的視覺表征。
?? 核心方法: 采用動態(tài)視覺token和密度峰聚類算法,大幅減少視覺token數(shù)量,提高模型性能,在多任務(wù)中超越其他大型模型。
?? 實驗成果: Chat-UniVi在圖片、視頻理解以及問答任務(wù)中表現(xiàn)卓越,使用更少的視覺token達到與其他大模型相媲美的性能水平,并開源了代碼、數(shù)據(jù)集和模型權(quán)重。
新加坡國立大學開源多模態(tài)語言模型 NExT-GPT
新加坡國立大學發(fā)布的開源多模態(tài)語言模型 NExT-GPT,通過處理文本、圖像、視頻和音頻等多樣化輸入,推動了多媒體人工智能應(yīng)用的發(fā)展,為開發(fā)者提供強大支持。
【AiBase提要:】
?? 多模態(tài)能力: NExT-GPT 提供強大的多模態(tài)語言模型,能處理文本、圖像、視頻和音頻,拓展了人工智能應(yīng)用領(lǐng)域。
?? 架構(gòu)與訓練: 采用三層架構(gòu),包括線性投影、Vicuna LLM 核心和模態(tài)特定的轉(zhuǎn)換層,通過 MosIT 技術(shù)進行中間層訓練,降低訓練成本。
?? 開源貢獻: NExT-GPT 的開源使研究者和開發(fā)者能夠創(chuàng)建能夠無縫集成文本、圖像、視頻和音頻的應(yīng)用,為多媒體人工智能應(yīng)用提供了重要貢獻。
研究人員發(fā)布Starling-7B:基于AI反饋的大語言模型
UC伯克利發(fā)布基于AI反饋強化學習的Starling-7B大語言模型,采用RLAIF技術(shù),在性能上媲美GPT-3.5,通過基準測試表現(xiàn)出色,邁向更人性化的應(yīng)用。
項目網(wǎng)址:https://huggingface.co/berkeley-nest/Starling-LM-7B-alpha
【AiBase提要:】
?? RLAIF技術(shù)介紹: Starling-7B采用了基于AI反饋的強化學習,通過優(yōu)化Openchat3.5和Mistral-7B而成。
?? 性能卓越: 在基準測試中,Starling-7B表現(xiàn)出色,對比其他模型性能提升引人矚目。
?? 邁向人性化: RLAIF主要改善了模型的實用性和安全性,未來計劃引入高質(zhì)量的人工反饋數(shù)據(jù),更好地滿足人類需求。
?????????聚焦開發(fā)者
Keras3.0正式發(fā)布
Keras3.0發(fā)布,全面支持TensorFlow、JAX和PyTorch,進行了全新的大模型訓練和部署功能引入,保持高度向后兼容性,為深度學習開發(fā)者提供更多選擇和工具。
【AiBase提要:】
?? 全面支持多框架: Keras3.0全面支持TensorFlow、JAX和PyTorch,使用戶可以選擇在不同框架上運行Keras工作流。
?? 大模型訓練和部署: 引入新的大模型訓練和部署功能,支持各種預訓練模型,保持高度向后兼容性,平滑過渡。
?? 跨框架數(shù)據(jù)pipeline: Keras3.0支持跨框架數(shù)據(jù)pipeline,包括分布式API,提高在大規(guī)模數(shù)據(jù)并行和模型并行方面的效率。
中國團隊開源大規(guī)模高質(zhì)量圖文數(shù)據(jù)集ShareGPT4V
中國團隊開源了基于GPT4-Vision構(gòu)建的圖文數(shù)據(jù)集ShareGPT4V,訓練了7B模型,涵蓋120萬條多樣性豐富的圖像-文本描述數(shù)據(jù),在多模態(tài)性能上超越同級別模型,為多模態(tài)研究和應(yīng)用提供了新的基石。
【AiBase提要:】
?? 數(shù)據(jù)集概要: ShareGPT4V基于GPT4-Vision構(gòu)建,包含120萬條圖像-文本描述數(shù)據(jù),涵蓋世界知識、對象屬性、空間關(guān)系、藝術(shù)評價等多方面。
?? 性能突破: 中國團隊的7B模型在多模態(tài)基準測試上表現(xiàn)優(yōu)異,超越同級別模型,為多模態(tài)研究和應(yīng)用提供有力支持。
??開源資源: 該數(shù)據(jù)集已開源,論文地址為
https://arxiv.org/abs/2311.12793,項目地址為https://github.com/InternLM/InternLM-XComposer/tree/main/projects/ShareGPT4V
上海AI實驗室、Meta聯(lián)合開發(fā)開源模型 可為人體生成3D空間音頻
上海AI實驗室與Meta合作推出的開源模型利用頭戴式麥克風和人體姿態(tài)信息,成功生成人體的3D空間音頻,為虛擬環(huán)境提供關(guān)鍵支持。
項目地址:https://github.com/facebookresearch/SoundingBodies
【AiBase提要:】
?? 技術(shù)突破: 上海AI實驗室與Meta的開源模型通過多模態(tài)融合,解決了音源位置未知和麥克風距離音源較遠等難題,成功實現(xiàn)了人體的3D空間音頻生成。
?? 局限性挑戰(zhàn): 雖然取得了技術(shù)進展,但該模型僅適用于渲染人體音,難以處理非自由音場傳播環(huán)境,且計算量較大,難以在資源受限的設(shè)備上部署。
?? 開源模型鏈接: 項目地址為 https://github.com/facebookresearch/SoundingBodies,為虛擬現(xiàn)實領(lǐng)域的發(fā)展提供了新的可能性,但仍需進一步優(yōu)化和拓展。
Real-ESRGAN-Video:將視頻清晰度提升至2K或4K
Real-ESRGAN-Video技術(shù)讓用戶輕松將視頻清晰度提升至2K或4K,通過簡化上傳和選擇清晰度的步驟,提供多種模型處理模式,特別適用于動畫視頻。測試結(jié)果顯示對相對清晰的視頻效果顯著,為提升視頻素材清晰度帶來新可能。
【AiBase提要:】
?? 清晰度提升: Real-ESRGAN-Video技術(shù)簡化步驟,讓用戶輕松將視頻清晰度提升至2K或4K。
?? 多模型支持: 提供多種處理模式,標準模型適用于大多數(shù)視頻,動畫專用模型更擅長處理動畫線條和顏色。
?? 測試驗證: 測試結(jié)果顯示在相對清晰的視頻上,提升效果顯著,尤其對動畫視頻的效果提升更為明顯。
(舉報)