中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 業(yè)界 > 關(guān)鍵詞  > AI技術(shù)最新資訊  > 正文

    挑戰(zhàn)GPT-4o!AI文生圖驚現(xiàn)黑馬,國產(chǎn)團(tuán)隊(duì)HiDream如何逆襲?

    2025-04-22 13:56 · 稿源: AI新榜公眾號

    聲明:本文來自于微信公眾號 AI新榜,作者:王萌,授權(quán)站長之家轉(zhuǎn)載發(fā)布。

    AI的“神仙打架”從未停歇,尤其在文生圖這個(gè)燒錢又內(nèi)卷的賽道。

    但當(dāng)所有人的目光都聚集在OpenAI、Google、Midjourney等“頭號玩家”時(shí),一個(gè)相對低調(diào)的中國團(tuán)隊(duì),卻悄然登上了多個(gè)AI模型能力榜單前列,引起AI圈熱議,它就是HiDream。

    圖片

    4月21日排名

    海外論壇Reddit網(wǎng)友對HiDream的評價(jià)

    而且HiDream作為榜單上為數(shù)不多的開源模型,在Hugging Face等開發(fā)者社區(qū)上同樣非常熱門。

    圖片

    Hugging Face趨勢排名,截圖時(shí)間4月21日

    這就不禁讓人好奇:這款來自國內(nèi)團(tuán)隊(duì)的開源模型,其實(shí)力究竟如何?我們將HiDream-I1Dev與GPT-4o及同樣表現(xiàn)出色的SeeDream3.0(即夢)以及廣受歡迎的Recraft V3進(jìn)行正面對比,看看它是否真的具備挑戰(zhàn)頂級模型的能力。

    與巨頭硬碰硬,HiDream的底氣在哪里?

    我們的測試一共分為五組,涵蓋了對提示詞理解能力、寫實(shí)風(fēng)格還原、人物動態(tài)與細(xì)節(jié)、創(chuàng)意表達(dá)、材質(zhì)真實(shí)性、光影與景深控制、文本能力等多方面的考察,通過一系列較為典型的提示詞信息,觀察模型生成圖片的效果。

    測試一:復(fù)雜場景理解、寫實(shí)與材質(zhì)表現(xiàn)

    提示詞:一張高度寫實(shí)的照片,一個(gè)凌亂但有序的藝術(shù)家工作室。陽光透過一扇大窗戶射入,照亮了空氣中飛舞的塵埃。一張磨損的木質(zhì)工作臺上,放著一個(gè)未完成的粘土雕塑,旁邊散落著各種雕刻工具(鑿子、金屬刮刀)。附近放著一個(gè)高度拋光的鉻合金茶壺,扭曲地反射著周圍的景象和窗外的綠樹。背景的書架上擺滿了顏料罐和畫筆。強(qiáng)調(diào)不同材質(zhì)的質(zhì)感(粗糙粘土、光滑金屬、舊木紋、玻璃光澤),光線柔和而有方向感。

    圖片

    第一個(gè)測試屬于牛刀小試,測試重點(diǎn)在于:對復(fù)雜場景布局、多物體關(guān)系、光影氛圍的理解、同時(shí)渲染多種差異巨大的材質(zhì)(粘土、金屬、木材、玻璃)、照片級真實(shí)感和細(xì)節(jié)刻畫。

    從實(shí)測結(jié)果不難看出,各個(gè)模型在這些方面都做得不錯(cuò),但細(xì)看還是能看到一些差別。例如GPT-4o沒有做出提示詞中要求的“空氣中飛舞的塵?!?,且桌面非常整齊,“整齊”多于“凌亂”,HiDream書架不太明顯,沒能很好地表現(xiàn)出“書架擺滿了顏料罐和畫筆”。

    測試二:創(chuàng)意概念、特定藝術(shù)風(fēng)格模仿與氛圍營造

    提示詞:一個(gè)設(shè)定在巨大空心古樹內(nèi)部的熙熙攘攘的市場場景。長著昆蟲翅膀的奇幻小生物們在攤位上售賣發(fā)光的水果和閃光的布料。建筑風(fēng)格融合了有機(jī)的樹根和精致的精靈風(fēng)格雕刻。采用“吉卜力工作室動畫(Studio Ghibli animation)”的鮮明視覺風(fēng)格進(jìn)行渲染,注重鮮艷的色彩、柔和的光線和充滿奇幻感的氛圍。

    這項(xiàng)測試的重點(diǎn)在于:理解并視覺化高度想象力的概念;準(zhǔn)確模仿指定的、具有強(qiáng)烈辨識度的藝術(shù)風(fēng)格;營造特定的情緒和氛圍;處理多角色和環(huán)境細(xì)節(jié)的一致性問題。

    雖然各個(gè)模型都能完成創(chuàng)意理解和風(fēng)格模仿的任務(wù):GPT-4o生成圖像中的人物更像宮崎駿動畫中的角色,色彩柔和但整體偏綠;HiDream忽略了“巨大空心樹”的設(shè)定,且出現(xiàn)了一定程度的臉部崩壞;只有即夢表現(xiàn)出了發(fā)光的水果和閃光的布料,綜合表現(xiàn)更好。

    測試三:人物動態(tài)、細(xì)節(jié)捕捉與極端光影控制

    提示詞:特寫動作鏡頭,一位廚師戴著黑色薄手套的雙手,正在一個(gè)燃著熊熊火焰的炒鍋中快速顛勺,拋起混合著五顏六色蔬菜的食材。微小的油滴和醬汁瞬間懸浮在空中。廚師的臉上(部分可見或完全可見)表情高度專注。需要捕捉到手和蔬菜的動態(tài)模糊效果,同時(shí)保持炒鍋中的火焰和廚師表情的清晰。采用高對比度的戲劇性舞臺式打光。

    圖片

    這輪測試重點(diǎn)在于:準(zhǔn)確描繪人物動態(tài)(尤其是手部);捕捉高速運(yùn)動的瞬間細(xì)節(jié)(油滴、模糊效果);控制復(fù)雜且對比強(qiáng)烈的光影環(huán)境。

    由于測試難度提高了一些,這輪各個(gè)模型在手部細(xì)節(jié)、動態(tài)捕捉(如火焰、油滴)等方面上都出現(xiàn)了不同程度的問題,即夢生成的圖片效果相較其他三個(gè)更好一些。

    測試四:排版設(shè)計(jì)、文字生成與應(yīng)用場景模擬

    提示詞:設(shè)計(jì)一本名為‘Cosmic Whispers’(宇宙低語)的科幻小說封面。主視覺是一個(gè)抽象的、由相互纏繞的發(fā)光能量觸須構(gòu)成的圖案,連接著兩個(gè)跨越深空星云背景的風(fēng)格化剪影人形。書名 ‘Cosmic Whispers’ 使用簡潔現(xiàn)代的無襯線字體,醒目地放在封面頂部。作者名 ‘A.I. Genesis’ 使用稍小字體放在底部。整體呈現(xiàn)專業(yè)、引人入勝的平面設(shè)計(jì)感。

    圖片

    這項(xiàng)測試測試的重點(diǎn)是:準(zhǔn)確生成指定英文文字(包括大小寫和內(nèi)容);理解并執(zhí)行排版布局要求(位置、字體風(fēng)格);結(jié)合圖像和文字創(chuàng)造出符合特定類型(科幻小說封面)的設(shè)計(jì)美感;模擬實(shí)際應(yīng)用場景。

    四個(gè)模型都能很好地完成封面任務(wù),并且呈現(xiàn)出了提示詞要求的線條、人形剪影,但細(xì)節(jié)處還是能看到一些區(qū)別:只有即夢按照提示詞的要求準(zhǔn)確區(qū)分出了標(biāo)題和作者的英文大小寫;Recraft和即夢模擬了書籍封面的呈現(xiàn)形式;GPT-4o封面右下角出現(xiàn)了第三個(gè)人。

    測試五:微距細(xì)節(jié)、特殊材質(zhì)與精確控制

    提示詞:微距特寫攝影:一片奇幻生物的虹彩(iridescent)鱗片,色彩隨光線角度變化。幾顆完美的、微小的露珠附著在鱗片上,折射著周圍的光線,顯現(xiàn)出迷你的彩虹棱鏡效果。背景是柔和失焦的深綠色葉子。要求極高的細(xì)節(jié)銳度,淺景深效果,焦點(diǎn)精確地落在露珠和鱗片的紋理上。

    圖片

    測試重點(diǎn): 特殊光學(xué)效果材質(zhì)(彩虹、水珠折射);對攝影參數(shù)(景深、焦點(diǎn))的精確控制能力;極端細(xì)節(jié)的刻畫能力(微距級別);處理重復(fù)性精細(xì)紋理。

    HiDream能夠生成微距效果,并在一定程度上表現(xiàn)了鱗片的紋理和露珠,但在精確還原“虹彩”隨光線變色的效果上可能不夠理想,需要更精細(xì)的提示詞引導(dǎo);Recraft更偏寫實(shí)風(fēng)格,在表現(xiàn)水珠折射上也更偏保守;相較而言即夢呈現(xiàn)的圖像更接近提示詞要求。

    其他測試案例

    除了這些針對具體能力的測試以外,我們還嘗試了更多不同風(fēng)格的案例,下面是HiDream的生成效果。

    提示詞:一幅以愛德華·霍普風(fēng)格創(chuàng)作的畫作,描繪了深夜時(shí)分,一個(gè)人獨(dú)自坐在小餐館柜臺前的場景。畫面的氛圍靜謐而孤獨(dú),充滿內(nèi)省的意味,光影對比強(qiáng)烈,長長的陰影投射在房間里。要著重強(qiáng)調(diào)城市中的孤獨(dú)感。

    圖片

    提示詞:一張高質(zhì)量的產(chǎn)品渲染圖:一個(gè)啞光黑色的無線耳機(jī)充電盒,略微打開,露出里面的白色耳機(jī)。充電盒放在一塊有質(zhì)感的灰色石頭上。充電盒蓋子內(nèi)側(cè)(如果可見)或旁邊標(biāo)簽上印有小小的、清晰的logo文字 'Meng'. 整體光線柔和,突出產(chǎn)品的精致感和材質(zhì)(啞光塑料、光滑石頭)。

    圖片

    提示詞:設(shè)計(jì)一個(gè)現(xiàn)代、簡約的Logo,用于名為 'NewRank Tech' 的環(huán)??萍脊?。Logo應(yīng)包含一個(gè)風(fēng)格化的葉子圖案,并與抽象的電路/芯片圖案巧妙融合。主要使用藍(lán)紫色和橙色。

    圖片

    提示詞:這是一張寫實(shí)風(fēng)格的照片,一匹馬從左向右在一片廣闊而平靜的海面上飛奔。畫面精準(zhǔn)地捕捉了濺起的水花、水面上的反射,以及馬蹄下細(xì)膩的漣漪圖案。馬的動作被適度夸張,而周圍的環(huán)境則保持靜止和寧靜,以此突出馬的力量感。整體構(gòu)圖簡潔而富有電影感,采用寬廣的全景視角,展現(xiàn)了遠(yuǎn)處的地平線。通過大氣透視營造出深度感。在浩瀚的海洋面前,馬的身影被放大,但依然顯得渺小,進(jìn)一步強(qiáng)化了對比效果。

    圖片

    提示詞:一只可愛的貓睡在書架上,油畫風(fēng)格。

    圖片

    提示詞:一座現(xiàn)代化工業(yè)工廠的低多邊形風(fēng)格鳥瞰圖,建筑為白色或淺灰色,結(jié)構(gòu)包含大型主廠房、儲罐、煙囪、管道、出入口和卡車。環(huán)境清新,有綠樹、馬路、水渠,整體構(gòu)圖有條理,風(fēng)格極簡且色彩明亮,適合用于數(shù)字孿生可視化或工業(yè)動畫展示。

    總體而言,HiDream在圖像、寫實(shí)風(fēng)格下的質(zhì)感表現(xiàn)、復(fù)雜場景的細(xì)節(jié)刻畫等方面確實(shí)具備了與一線模型掰手腕的實(shí)力,站穩(wěn)第一梯隊(duì)是完全沒有問題的。

    而且HiDream支持輸出4K高清圖像,出圖速度快,還可以直接掛進(jìn)內(nèi)容生產(chǎn)鏈路,例如ComfyUI等。

    圖片

    值得注意的是,HiDream基于中國本土打造,在使用較為中性的提示詞生成包含人物面部的圖像時(shí),比較傾向于生成亞洲人,在審美上也比較貼近國人審美。

    圖片

    連續(xù)20次使用中性描述“A portrait photo of a person.(一個(gè)人物肖像圖片)”測試

    此外,HiDream在生成中文方面卻表現(xiàn)欠佳,雖然支持中文提示詞,但使用英文提示詞效果更佳。

    圖片

    HiDream生成的中文

    此外,HiDream對一些較為模糊、抽象的提示詞理解能力有待提高,在生成某些需要獨(dú)特創(chuàng)意或特定氛圍的圖像時(shí),表現(xiàn)可能不如其他模型。

    例如前文“測試五”中,HiDream生成的圖片在光學(xué)效果、攝影效果等方面表現(xiàn)尚可,但需要多次額外強(qiáng)調(diào)細(xì)節(jié)才能生成理想中的彩色鱗片特寫。

    圖片

    綜合而言,雖然HiDream文生圖能力達(dá)到了第一梯隊(duì)的水平,但缺點(diǎn)也非常明顯。

    優(yōu)點(diǎn):

    • 高清晰度與細(xì)節(jié):支持輸出4K高清圖像,分辨率高,細(xì)節(jié)豐富。

    • 出色的質(zhì)感還原: 對于不同材質(zhì)的物理屬性和光澤反射模擬得比較準(zhǔn)確,能夠很好地理解并執(zhí)行復(fù)雜提示詞匯總的元素和要求。

    • 畫面質(zhì)量穩(wěn)定: 生成質(zhì)量穩(wěn)定,出圖速度快,還可以直接掛進(jìn)內(nèi)容生產(chǎn)鏈路(例如前文提到的ComfyUI)。

    • 本土化優(yōu)勢: 在亞洲面孔的還原上可能更貼近國內(nèi)審美。

    缺點(diǎn):

    • 缺乏特色:雖處于文生圖第一梯隊(duì),但并沒有在某一方面表現(xiàn)最為突出。

    • 文本能力不強(qiáng):無法生成中文,雖支持中文提示詞,但使用英文提示詞生圖效果更佳。

    • 抽象提示詞理解能力有待提高:在生成某些需要?jiǎng)?chuàng)意或特定氛圍的圖像時(shí),表現(xiàn)不如其他模型。

    • 人物動態(tài)略顯僵硬。

    圖片

    左為HiDream,右為即夢

    值得一提的是,官方為模型提供了落地產(chǎn)品vivago.ai(https://vivago.ai/home)。但我們在測試中發(fā)現(xiàn),vivago.ai實(shí)際出圖能力可能弱于通過第三方工具調(diào)用其開源模型。鑒于我們評測使用的是由Recraft調(diào)用的HiDream-I1Dev,vivago.ai使用的模型很可能使用是參數(shù)量更小的HiDream-I1Flash模型。而且vivago.ai生成的圖片帶有水印。

    圖片

    使用vivago.ai生圖需要付費(fèi)去水印

    圖片

    “測試三”中,相同的提示詞在vivago.ai和Recraft調(diào)用HiDream模型的文生圖表現(xiàn)對比,vivago并沒有做到我們要求的“吉卜力風(fēng)格”

    小團(tuán)隊(duì)+開源,黑馬的“突圍”之道?

    當(dāng)我們看到HiDream在AI模型榜單上的亮眼表現(xiàn)時(shí),也有很多人注意到這樣一個(gè)問題——為什么在文生圖這個(gè)領(lǐng)域,我們看到的大多是閉源的商業(yè)模型,而非開源項(xiàng)目?

    答案并不復(fù)雜,主要?dú)w結(jié)于高昂的訓(xùn)練成本與資源壁壘,以及主流的商業(yè)模式選擇。

    訓(xùn)練一個(gè)頂級的文生圖模型,既包括大規(guī)模GPU集群的算力成本、海量高質(zhì)量圖像與數(shù)據(jù)的獲取成本,以及頂尖算法工程師團(tuán)隊(duì)的研發(fā)成本。這種“燒錢”的特性,天然地將大多數(shù)資源有限的玩家擋在了門外,使得大型科技公司或資金雄厚的AI獨(dú)角獸占據(jù)了主導(dǎo)地位。

    同時(shí),這些投入巨大的公司,自然傾向于選擇能夠快速回收成本并實(shí)現(xiàn)盈利的商業(yè)模式,所以我們常??梢钥吹綇S商通過訂閱付費(fèi)墻、API調(diào)用服務(wù)等形式,將模型本身作為核心資產(chǎn)進(jìn)行商業(yè)變現(xiàn)。

    在這樣的背景下,小團(tuán)隊(duì)面臨的困境顯而易見。它們既缺乏與巨頭抗衡的資金和資源去“軍備競賽”,又難以在成熟的閉源商業(yè)模式下找到差異化的生存空間。許多有潛力的技術(shù)團(tuán)隊(duì)可能因此在基礎(chǔ)模型層面望而卻步,轉(zhuǎn)向更輕量級的應(yīng)用層開發(fā)。

    所以HiDream的故事就顯得尤為獨(dú)特,這家成立于2023年3月、來自中國合肥的公司,依托中科大的人才資源,由一支50人的團(tuán)隊(duì)在短時(shí)間內(nèi)拿出了一款在多項(xiàng)基準(zhǔn)測試和實(shí)際效果上能與頂級模型掰手腕的產(chǎn)品。

    更關(guān)鍵的是,面對行業(yè)主流的閉源模式,HiDream卻選擇了開源,關(guān)于其中原因,CEO梅濤在此前接受甲子光年采訪時(shí)表示:

    我們希望通過開源的方式,讓別人踩在我們的肩膀上不斷前進(jìn)……圖片模型不是我們商業(yè)化的終點(diǎn),我們希望通過開源模型把社區(qū)建設(shè)得更好……現(xiàn)在很多大模型公司轉(zhuǎn)向開源一方面是被倒逼的,另一方面他們過去忽視了開源社區(qū)的品牌價(jià)值和生態(tài)影響力。

    顯然,HiDream意在通過文生圖模型作為切入口,凝聚更多開發(fā)者和用戶,為將來可能的視頻生成等更復(fù)雜的領(lǐng)域構(gòu)建生態(tài)護(hù)城河,形成一種經(jīng)典的“以開放換未來”的打法。

    實(shí)際上,這樣的故事在AI行業(yè)已經(jīng)出現(xiàn)太多太多,例如之前智譜開源的文生圖模型CogView4等。近期OpenAI嘗試打造的AI社交平臺,在一定程度上也是為了通過打造社群來搶數(shù)據(jù)、搶流量。

    圖片

    在Recraft上使用HiDream-I1模型

    值得一提的是,HiDream最新開源的模型都已經(jīng)完成了國產(chǎn)GPU的適配,如果能實(shí)現(xiàn)算法與硬件的深度協(xié)同優(yōu)化,可能探索出一條獨(dú)特的軟硬結(jié)合發(fā)展路徑,為國產(chǎn)AI軟硬件生態(tài)的建設(shè)提供一個(gè)正向循環(huán)的案例。

    當(dāng)然,這種開源模式也會面臨一些挑戰(zhàn),例如怎樣在開源的同時(shí)找到可持續(xù)的商業(yè)模式?對此,HiDream.ai公司CTO姚霆在此前接受采訪時(shí)是這樣回答的:

    我們不需要等到基礎(chǔ)模型達(dá)到100分才去做應(yīng)用。在現(xiàn)有的基礎(chǔ)模型能力之上,如果你能找到真正解決用戶痛點(diǎn)的場景,并在應(yīng)用上做得很深,真正做到端到端的95分以上,用戶就會買單。

    顯然HiDream采取了一種較為務(wù)實(shí)的策略,即追求基礎(chǔ)模型能力的同時(shí),也強(qiáng)調(diào)找到合適的應(yīng)用場景,我們在其體驗(yàn)網(wǎng)站上,也可以看到很多附加的小功能,例如AI試衣、Logo設(shè)計(jì)、AI人像等。

    雖然其中很多功能仍處于早期階段,實(shí)際效果和穩(wěn)定性還有提升空間,但也不失為打通模型與應(yīng)用的一種好的嘗試。

    圖片

    HiDream團(tuán)隊(duì)不久前還曾發(fā)文表示,團(tuán)隊(duì)另有支持交互式圖像編輯的模型HiDream-E1也將開源,未來還將發(fā)布多模態(tài)Agent產(chǎn)品,或許HiDream還有更多驚喜在等著我們。

    圖片

    HiDream-E1的圖像編輯效果

    不難看出,HiDream的案例為我們展示了這樣一種可能:小團(tuán)隊(duì)?wèi){借在特定技術(shù)點(diǎn)的突破,結(jié)合開源策略,快速建立影響力,并圍繞核心技術(shù)構(gòu)建應(yīng)用生態(tài)。

    這種模式會在未來孕育出更多挑戰(zhàn)巨頭的“AI黑馬”嗎?歡迎在評論區(qū)分享你的答案。

    體驗(yàn)地址:

    https://vivago.ai/home

    模型地址:

    https://huggingface.co/HiDream-ai/HiDream-I1-Full

    代碼倉庫:

    https://github.com/HiDream-ai/HiDream-I1

    舉報(bào)

    • 相關(guān)推薦
    • GPT-4o更強(qiáng)?三位Adobe老將出走,做出了超強(qiáng)文生圖模型丨AI新榜評測

      GPT-4o,被擊敗了?最近大伙都被GPT-4o生成的各種“整活”圖像刷屏了吧,各種動漫油畫風(fēng)格改圖、經(jīng)典影視復(fù)現(xiàn)、漫畫設(shè)計(jì)改圖……新的玩法每天都在涌現(xiàn),大有“AI一日,人間一年”之勢。甚至OpenAICEOSamAltman都累了:“收手吧,我們需要休息!”但就在GPT-4o火遍全球之際,一個(gè)來自初創(chuàng)團(tuán)隊(duì)的新模型ReveImage,卻憑借其在特定圖像生成領(lǐng)域的出色表現(xiàn),悄然贏得了用戶和專業(yè)榜單的

    • 生成很強(qiáng),推理很弱:GPT-4o的視覺短板

      研究顯示,GPT-4o在圖像理解和推理上表現(xiàn)出色,能生成精美圖片,但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳,暴露出理解、推斷及多步驟邏輯處理的不足。例如,被要求畫一只貓時(shí),它先畫了狗然后改為貓,但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”,需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

    • 不會使用gpt-4o?國內(nèi)平替來啦(僅限海報(bào)制作)

      最近gpt-4o的風(fēng)吹得特別的大,生圖功能讓一大批設(shè)計(jì)師紛紛直呼要失業(yè)了。大家夸得那么玄乎,小編不僅也心癢癢的想去試試。那還不快用起來,快到秒出設(shè)計(jì)官網(wǎng)使用吧!

    • OpenAI回應(yīng)GPT-4o更新后過于諂媚:已逐漸恢復(fù)

      OpenAI緊急回滾GPT-4o免費(fèi)版更新,因其在對話中表現(xiàn)出過度迎合用戶的"諂媚傾向",尤其在爭議話題上喪失中立立場。該模型雖在STEM領(lǐng)域準(zhǔn)確率提升17%,但優(yōu)化后出現(xiàn)意外偏差:面對用戶偏見時(shí)會合理化解釋,甚至不糾正明顯錯(cuò)誤事實(shí)。這揭示了AI在用戶滿意度與客觀性間的平衡難題。類似事件早有先例,如谷歌Gemini因過度追求多樣性扭曲歷史圖像。兩案例共同指向AI發(fā)展核心矛盾:技術(shù)突破后,更復(fù)雜的價(jià)值觀對齊問題正成為行業(yè)最大挑戰(zhàn)。(140字)

    • 別玩吉卜力了,來看GPT-4o隱藏的8種高能玩法

      有圖有真相的時(shí)代恐怕要徹底過去了,我們離“AI生成現(xiàn)實(shí)”越來越近了。注意看:這是一張印著倫敦某高檔融合餐廳名的小票,菜單里有龍蝦、牛排、Barolo酒,總金額£1500有服務(wù)員名字、小費(fèi)、日期時(shí)間。也許最終答案不是徹底“防偽”是建立一個(gè)允許AI生成內(nèi)容存在,但不能讓其隨意偽裝的內(nèi)容生態(tài)。

    • 亞馬遜推出AI語音模型Nova Sonic:價(jià)格比GPT-4o便宜80%

      亞馬遜正式推出新一代生成式AI語音模型NovaSonic,標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出,在速度、語音識別準(zhǔn)確率和對話質(zhì)量等核心性能指標(biāo)上,已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步,未來還將推出支持多模態(tài)理解的AI模型,涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

    • 被吹爆的GPT-4o真有那么強(qiáng)?這有23個(gè)案例實(shí)測

      距離OpenAI正式發(fā)布GPT-4o生圖功能,已經(jīng)過去兩周多了。這段時(shí)間里,“ChatGPT-4o顛覆了AI圖像生成的邏輯”這句話大家應(yīng)該都聽膩了?,F(xiàn)在早上一睜眼,先看有沒有更新,看看自己有沒有落后。

    • OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問題,已回滾到老版本

      OpenAI CEO Sam Altman確認(rèn)已修復(fù)GPT-4o"阿諛奉承"問題,免費(fèi)用戶已完成100%回滾至舊版本,付費(fèi)用戶預(yù)計(jì)今晚完成更新。此前大量用戶投訴GPT-4o過度諂媚,甚至出現(xiàn)討好型人格。OpenAI疑似進(jìn)行A/B測試時(shí)意外產(chǎn)生該問題,引發(fā)公眾強(qiáng)烈反對后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對話感的特性,但普通用戶可通過自定義指令調(diào)整風(fēng)格。目前免費(fèi)版已恢復(fù)正常,但使用特定指令仍可調(diào)出類似回答。該事件反映出AI個(gè)性設(shè)置與用戶體驗(yàn)平衡的挑戰(zhàn)。

    • OpenAI沒說的秘密,Meta全揭了?華人一作GPT-4o同款技術(shù),爆打擴(kuò)散王者

      Meta、西北大學(xué)和新加坡國立大學(xué)的研究團(tuán)隊(duì)提出TokenShuffle技術(shù),顯著提升了自回歸模型生成高分辨率圖像的能力。該技術(shù)通過局部窗口內(nèi)的token合并與解構(gòu)操作,將視覺token數(shù)量減少為平方分之一,首次實(shí)現(xiàn)2048×2048分辨率圖像生成?;?7億參數(shù)的Llama模型,TokenShuffle在GenAI基準(zhǔn)測試中獲得0.77綜合得分,超越同類自回歸模型0.18分,在人類評估中展現(xiàn)出更好的文本對齊和視覺質(zhì)量。該方法無需修改Transformer架構(gòu),通過三階段訓(xùn)練策略(512→1024→2048分辨率)逐步提升生成能力,為多模態(tài)大語言模型的高效高保真圖像生成開辟了新路徑。

    • 1小時(shí)暴漲100萬用戶!GPT-4o新功能徹底殺瘋了,免費(fèi)使用

      如果有人能提供10萬單位的GPU資源并能盡快交付,請馬上聯(lián)系我們!同時(shí)正在逐步控制局面。但大家應(yīng)該預(yù)料到,由于我們在應(yīng)對算力方面的挑戰(zhàn),OpenAI的新發(fā)布內(nèi)容將會延遲,可能會出現(xiàn)一些問題,并且服務(wù)有時(shí)也會變得很慢。從這點(diǎn)就能看出,他們最初發(fā)布的時(shí)候也沒想到能火爆到這個(gè)地步。