中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

<td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>

<rp id="h1kkc"></rp>

<cite id="wo6yy"></cite>

<del id="wo6yy"></del>

<cite id="wo6yy"></cite>

<dfn id="wo6yy"><kbd id="wo6yy"></kbd></dfn>

<td id="wo6yy"></td>

<abbr id="wo6yy"></abbr>

挑戰(zhàn)GPT-4o！AI文生圖驚現(xiàn)黑馬，國產(chǎn)團(tuán)隊(duì)HiDream如何逆襲？

2025-04-22 13:56 · 稿源： AI新榜公眾號

聲明:本文來自于微信公眾號 AI新榜，作者:王萌，授權(quán)站長之家轉(zhuǎn)載發(fā)布。

AI的“神仙打架”從未停歇，尤其在文生圖這個(gè)燒錢又內(nèi)卷的賽道。

但當(dāng)所有人的目光都聚集在OpenAI、Google、Midjourney等“頭號玩家”時(shí)，一個(gè)相對低調(diào)的中國團(tuán)隊(duì)，卻悄然登上了多個(gè)AI模型能力榜單前列，引起AI圈熱議，它就是HiDream。

4月21日排名

海外論壇Reddit網(wǎng)友對HiDream的評價(jià)

而且HiDream作為榜單上為數(shù)不多的開源模型，在Hugging Face等開發(fā)者社區(qū)上同樣非常熱門。

Hugging Face趨勢排名，截圖時(shí)間4月21日

這就不禁讓人好奇:這款來自國內(nèi)團(tuán)隊(duì)的開源模型，其實(shí)力究竟如何?我們將HiDream-I1Dev與GPT-4o及同樣表現(xiàn)出色的SeeDream3.0（即夢）以及廣受歡迎的Recraft V3進(jìn)行正面對比，看看它是否真的具備挑戰(zhàn)頂級模型的能力。

與巨頭硬碰硬，HiDream的底氣在哪里?

我們的測試一共分為五組，涵蓋了對提示詞理解能力、寫實(shí)風(fēng)格還原、人物動態(tài)與細(xì)節(jié)、創(chuàng)意表達(dá)、材質(zhì)真實(shí)性、光影與景深控制、文本能力等多方面的考察，通過一系列較為典型的提示詞信息，觀察模型生成圖片的效果。

測試一:復(fù)雜場景理解、寫實(shí)與材質(zhì)表現(xiàn)

提示詞:一張高度寫實(shí)的照片，一個(gè)凌亂但有序的藝術(shù)家工作室。陽光透過一扇大窗戶射入，照亮了空氣中飛舞的塵埃。一張磨損的木質(zhì)工作臺上，放著一個(gè)未完成的粘土雕塑，旁邊散落著各種雕刻工具（鑿子、金屬刮刀）。附近放著一個(gè)高度拋光的鉻合金茶壺，扭曲地反射著周圍的景象和窗外的綠樹。背景的書架上擺滿了顏料罐和畫筆。強(qiáng)調(diào)不同材質(zhì)的質(zhì)感(粗糙粘土、光滑金屬、舊木紋、玻璃光澤)，光線柔和而有方向感。

第一個(gè)測試屬于牛刀小試，測試重點(diǎn)在于:對復(fù)雜場景布局、多物體關(guān)系、光影氛圍的理解、同時(shí)渲染多種差異巨大的材質(zhì)（粘土、金屬、木材、玻璃）、照片級真實(shí)感和細(xì)節(jié)刻畫。

從實(shí)測結(jié)果不難看出，各個(gè)模型在這些方面都做得不錯(cuò)，但細(xì)看還是能看到一些差別。例如GPT-4o沒有做出提示詞中要求的“空氣中飛舞的塵?！?，且桌面非常整齊，“整齊”多于“凌亂”，HiDream書架不太明顯，沒能很好地表現(xiàn)出“書架擺滿了顏料罐和畫筆”。

測試二:創(chuàng)意概念、特定藝術(shù)風(fēng)格模仿與氛圍營造

提示詞:一個(gè)設(shè)定在巨大空心古樹內(nèi)部的熙熙攘攘的市場場景。長著昆蟲翅膀的奇幻小生物們在攤位上售賣發(fā)光的水果和閃光的布料。建筑風(fēng)格融合了有機(jī)的樹根和精致的精靈風(fēng)格雕刻。采用“吉卜力工作室動畫（Studio Ghibli animation）”的鮮明視覺風(fēng)格進(jìn)行渲染，注重鮮艷的色彩、柔和的光線和充滿奇幻感的氛圍。

這項(xiàng)測試的重點(diǎn)在于:理解并視覺化高度想象力的概念;準(zhǔn)確模仿指定的、具有強(qiáng)烈辨識度的藝術(shù)風(fēng)格;營造特定的情緒和氛圍;處理多角色和環(huán)境細(xì)節(jié)的一致性問題。

雖然各個(gè)模型都能完成創(chuàng)意理解和風(fēng)格模仿的任務(wù):GPT-4o生成圖像中的人物更像宮崎駿動畫中的角色，色彩柔和但整體偏綠;HiDream忽略了“巨大空心樹”的設(shè)定，且出現(xiàn)了一定程度的臉部崩壞;只有即夢表現(xiàn)出了發(fā)光的水果和閃光的布料，綜合表現(xiàn)更好。

測試三:人物動態(tài)、細(xì)節(jié)捕捉與極端光影控制

提示詞:特寫動作鏡頭，一位廚師戴著黑色薄手套的雙手，正在一個(gè)燃著熊熊火焰的炒鍋中快速顛勺，拋起混合著五顏六色蔬菜的食材。微小的油滴和醬汁瞬間懸浮在空中。廚師的臉上（部分可見或完全可見）表情高度專注。需要捕捉到手和蔬菜的動態(tài)模糊效果，同時(shí)保持炒鍋中的火焰和廚師表情的清晰。采用高對比度的戲劇性舞臺式打光。

這輪測試重點(diǎn)在于:準(zhǔn)確描繪人物動態(tài)（尤其是手部）;捕捉高速運(yùn)動的瞬間細(xì)節(jié)(油滴、模糊效果);控制復(fù)雜且對比強(qiáng)烈的光影環(huán)境。

由于測試難度提高了一些，這輪各個(gè)模型在手部細(xì)節(jié)、動態(tài)捕捉（如火焰、油滴）等方面上都出現(xiàn)了不同程度的問題，即夢生成的圖片效果相較其他三個(gè)更好一些。

測試四:排版設(shè)計(jì)、文字生成與應(yīng)用場景模擬

提示詞:設(shè)計(jì)一本名為‘Cosmic Whispers’（宇宙低語）的科幻小說封面。主視覺是一個(gè)抽象的、由相互纏繞的發(fā)光能量觸須構(gòu)成的圖案，連接著兩個(gè)跨越深空星云背景的風(fēng)格化剪影人形。書名 ‘Cosmic Whispers’ 使用簡潔現(xiàn)代的無襯線字體，醒目地放在封面頂部。作者名 ‘A.I. Genesis’ 使用稍小字體放在底部。整體呈現(xiàn)專業(yè)、引人入勝的平面設(shè)計(jì)感。

這項(xiàng)測試測試的重點(diǎn)是:準(zhǔn)確生成指定英文文字（包括大小寫和內(nèi)容）;理解并執(zhí)行排版布局要求(位置、字體風(fēng)格);結(jié)合圖像和文字創(chuàng)造出符合特定類型(科幻小說封面)的設(shè)計(jì)美感;模擬實(shí)際應(yīng)用場景。

四個(gè)模型都能很好地完成封面任務(wù)，并且呈現(xiàn)出了提示詞要求的線條、人形剪影，但細(xì)節(jié)處還是能看到一些區(qū)別:只有即夢按照提示詞的要求準(zhǔn)確區(qū)分出了標(biāo)題和作者的英文大小寫;Recraft和即夢模擬了書籍封面的呈現(xiàn)形式;GPT-4o封面右下角出現(xiàn)了第三個(gè)人。

測試五:微距細(xì)節(jié)、特殊材質(zhì)與精確控制

提示詞:微距特寫攝影:一片奇幻生物的虹彩（iridescent）鱗片，色彩隨光線角度變化。幾顆完美的、微小的露珠附著在鱗片上，折射著周圍的光線，顯現(xiàn)出迷你的彩虹棱鏡效果。背景是柔和失焦的深綠色葉子。要求極高的細(xì)節(jié)銳度，淺景深效果，焦點(diǎn)精確地落在露珠和鱗片的紋理上。

測試重點(diǎn): 特殊光學(xué)效果材質(zhì)（彩虹、水珠折射）;對攝影參數(shù)(景深、焦點(diǎn))的精確控制能力;極端細(xì)節(jié)的刻畫能力(微距級別);處理重復(fù)性精細(xì)紋理。

HiDream能夠生成微距效果，并在一定程度上表現(xiàn)了鱗片的紋理和露珠，但在精確還原“虹彩”隨光線變色的效果上可能不夠理想，需要更精細(xì)的提示詞引導(dǎo);Recraft更偏寫實(shí)風(fēng)格，在表現(xiàn)水珠折射上也更偏保守;相較而言即夢呈現(xiàn)的圖像更接近提示詞要求。

其他測試案例

除了這些針對具體能力的測試以外，我們還嘗試了更多不同風(fēng)格的案例，下面是HiDream的生成效果。

提示詞:一幅以愛德華·霍普風(fēng)格創(chuàng)作的畫作，描繪了深夜時(shí)分，一個(gè)人獨(dú)自坐在小餐館柜臺前的場景。畫面的氛圍靜謐而孤獨(dú)，充滿內(nèi)省的意味，光影對比強(qiáng)烈，長長的陰影投射在房間里。要著重強(qiáng)調(diào)城市中的孤獨(dú)感。

提示詞:一張高質(zhì)量的產(chǎn)品渲染圖:一個(gè)啞光黑色的無線耳機(jī)充電盒，略微打開，露出里面的白色耳機(jī)。充電盒放在一塊有質(zhì)感的灰色石頭上。充電盒蓋子內(nèi)側(cè)（如果可見）或旁邊標(biāo)簽上印有小小的、清晰的logo文字 'Meng'. 整體光線柔和，突出產(chǎn)品的精致感和材質(zhì)(啞光塑料、光滑石頭)。

提示詞:設(shè)計(jì)一個(gè)現(xiàn)代、簡約的Logo，用于名為 'NewRank Tech' 的環(huán)?？萍脊?。Logo應(yīng)包含一個(gè)風(fēng)格化的葉子圖案，并與抽象的電路/芯片圖案巧妙融合。主要使用藍(lán)紫色和橙色。

提示詞:這是一張寫實(shí)風(fēng)格的照片，一匹馬從左向右在一片廣闊而平靜的海面上飛奔。畫面精準(zhǔn)地捕捉了濺起的水花、水面上的反射，以及馬蹄下細(xì)膩的漣漪圖案。馬的動作被適度夸張，而周圍的環(huán)境則保持靜止和寧靜，以此突出馬的力量感。整體構(gòu)圖簡潔而富有電影感，采用寬廣的全景視角，展現(xiàn)了遠(yuǎn)處的地平線。通過大氣透視營造出深度感。在浩瀚的海洋面前，馬的身影被放大，但依然顯得渺小，進(jìn)一步強(qiáng)化了對比效果。

提示詞:一只可愛的貓睡在書架上，油畫風(fēng)格。

提示詞:一座現(xiàn)代化工業(yè)工廠的低多邊形風(fēng)格鳥瞰圖，建筑為白色或淺灰色，結(jié)構(gòu)包含大型主廠房、儲罐、煙囪、管道、出入口和卡車。環(huán)境清新，有綠樹、馬路、水渠，整體構(gòu)圖有條理，風(fēng)格極簡且色彩明亮，適合用于數(shù)字孿生可視化或工業(yè)動畫展示。

總體而言，HiDream在圖像、寫實(shí)風(fēng)格下的質(zhì)感表現(xiàn)、復(fù)雜場景的細(xì)節(jié)刻畫等方面確實(shí)具備了與一線模型掰手腕的實(shí)力，站穩(wěn)第一梯隊(duì)是完全沒有問題的。

而且HiDream支持輸出4K高清圖像，出圖速度快，還可以直接掛進(jìn)內(nèi)容生產(chǎn)鏈路，例如ComfyUI等。

值得注意的是，HiDream基于中國本土打造，在使用較為中性的提示詞生成包含人物面部的圖像時(shí)，比較傾向于生成亞洲人，在審美上也比較貼近國人審美。

連續(xù)20次使用中性描述“A portrait photo of a person.（一個(gè)人物肖像圖片）”測試

此外，HiDream在生成中文方面卻表現(xiàn)欠佳，雖然支持中文提示詞，但使用英文提示詞效果更佳。

HiDream生成的中文

此外，HiDream對一些較為模糊、抽象的提示詞理解能力有待提高，在生成某些需要獨(dú)特創(chuàng)意或特定氛圍的圖像時(shí)，表現(xiàn)可能不如其他模型。

例如前文“測試五”中，HiDream生成的圖片在光學(xué)效果、攝影效果等方面表現(xiàn)尚可，但需要多次額外強(qiáng)調(diào)細(xì)節(jié)才能生成理想中的彩色鱗片特寫。

綜合而言，雖然HiDream文生圖能力達(dá)到了第一梯隊(duì)的水平，但缺點(diǎn)也非常明顯。

優(yōu)點(diǎn):

高清晰度與細(xì)節(jié):支持輸出4K高清圖像，分辨率高，細(xì)節(jié)豐富。
出色的質(zhì)感還原: 對于不同材質(zhì)的物理屬性和光澤反射模擬得比較準(zhǔn)確，能夠很好地理解并執(zhí)行復(fù)雜提示詞匯總的元素和要求。
畫面質(zhì)量穩(wěn)定: 生成質(zhì)量穩(wěn)定，出圖速度快，還可以直接掛進(jìn)內(nèi)容生產(chǎn)鏈路（例如前文提到的ComfyUI）。
本土化優(yōu)勢: 在亞洲面孔的還原上可能更貼近國內(nèi)審美。

缺點(diǎn):

缺乏特色:雖處于文生圖第一梯隊(duì)，但并沒有在某一方面表現(xiàn)最為突出。
文本能力不強(qiáng):無法生成中文，雖支持中文提示詞，但使用英文提示詞生圖效果更佳。
抽象提示詞理解能力有待提高:在生成某些需要?jiǎng)?chuàng)意或特定氛圍的圖像時(shí)，表現(xiàn)不如其他模型。
人物動態(tài)略顯僵硬。

左為HiDream，右為即夢

值得一提的是，官方為模型提供了落地產(chǎn)品vivago.ai（https://vivago.ai/home）。但我們在測試中發(fā)現(xiàn)，vivago.ai實(shí)際出圖能力可能弱于通過第三方工具調(diào)用其開源模型。鑒于我們評測使用的是由Recraft調(diào)用的HiDream-I1Dev，vivago.ai使用的模型很可能使用是參數(shù)量更小的HiDream-I1Flash模型。而且vivago.ai生成的圖片帶有水印。

使用vivago.ai生圖需要付費(fèi)去水印

“測試三”中，相同的提示詞在vivago.ai和Recraft調(diào)用HiDream模型的文生圖表現(xiàn)對比，vivago并沒有做到我們要求的“吉卜力風(fēng)格”

小團(tuán)隊(duì)+開源，黑馬的“突圍”之道?

當(dāng)我們看到HiDream在AI模型榜單上的亮眼表現(xiàn)時(shí)，也有很多人注意到這樣一個(gè)問題——為什么在文生圖這個(gè)領(lǐng)域，我們看到的大多是閉源的商業(yè)模型，而非開源項(xiàng)目?

答案并不復(fù)雜，主要?dú)w結(jié)于高昂的訓(xùn)練成本與資源壁壘，以及主流的商業(yè)模式選擇。

訓(xùn)練一個(gè)頂級的文生圖模型，既包括大規(guī)模GPU集群的算力成本、海量高質(zhì)量圖像與數(shù)據(jù)的獲取成本，以及頂尖算法工程師團(tuán)隊(duì)的研發(fā)成本。這種“燒錢”的特性，天然地將大多數(shù)資源有限的玩家擋在了門外，使得大型科技公司或資金雄厚的AI獨(dú)角獸占據(jù)了主導(dǎo)地位。

同時(shí)，這些投入巨大的公司，自然傾向于選擇能夠快速回收成本并實(shí)現(xiàn)盈利的商業(yè)模式，所以我們常?？梢钥吹綇S商通過訂閱付費(fèi)墻、API調(diào)用服務(wù)等形式，將模型本身作為核心資產(chǎn)進(jìn)行商業(yè)變現(xiàn)。

在這樣的背景下，小團(tuán)隊(duì)面臨的困境顯而易見。它們既缺乏與巨頭抗衡的資金和資源去“軍備競賽”，又難以在成熟的閉源商業(yè)模式下找到差異化的生存空間。許多有潛力的技術(shù)團(tuán)隊(duì)可能因此在基礎(chǔ)模型層面望而卻步，轉(zhuǎn)向更輕量級的應(yīng)用層開發(fā)。

所以HiDream的故事就顯得尤為獨(dú)特，這家成立于2023年3月、來自中國合肥的公司，依托中科大的人才資源，由一支50人的團(tuán)隊(duì)在短時(shí)間內(nèi)拿出了一款在多項(xiàng)基準(zhǔn)測試和實(shí)際效果上能與頂級模型掰手腕的產(chǎn)品。

更關(guān)鍵的是，面對行業(yè)主流的閉源模式，HiDream卻選擇了開源，關(guān)于其中原因，CEO梅濤在此前接受甲子光年采訪時(shí)表示:

我們希望通過開源的方式，讓別人踩在我們的肩膀上不斷前進(jìn)……圖片模型不是我們商業(yè)化的終點(diǎn)，我們希望通過開源模型把社區(qū)建設(shè)得更好……現(xiàn)在很多大模型公司轉(zhuǎn)向開源一方面是被倒逼的，另一方面他們過去忽視了開源社區(qū)的品牌價(jià)值和生態(tài)影響力。

顯然，HiDream意在通過文生圖模型作為切入口，凝聚更多開發(fā)者和用戶，為將來可能的視頻生成等更復(fù)雜的領(lǐng)域構(gòu)建生態(tài)護(hù)城河，形成一種經(jīng)典的“以開放換未來”的打法。

實(shí)際上，這樣的故事在AI行業(yè)已經(jīng)出現(xiàn)太多太多，例如之前智譜開源的文生圖模型CogView4等。近期OpenAI嘗試打造的AI社交平臺，在一定程度上也是為了通過打造社群來搶數(shù)據(jù)、搶流量。

在Recraft上使用HiDream-I1模型

值得一提的是，HiDream最新開源的模型都已經(jīng)完成了國產(chǎn)GPU的適配，如果能實(shí)現(xiàn)算法與硬件的深度協(xié)同優(yōu)化，可能探索出一條獨(dú)特的軟硬結(jié)合發(fā)展路徑，為國產(chǎn)AI軟硬件生態(tài)的建設(shè)提供一個(gè)正向循環(huán)的案例。

當(dāng)然，這種開源模式也會面臨一些挑戰(zhàn)，例如怎樣在開源的同時(shí)找到可持續(xù)的商業(yè)模式?對此，HiDream.ai公司CTO姚霆在此前接受采訪時(shí)是這樣回答的:

我們不需要等到基礎(chǔ)模型達(dá)到100分才去做應(yīng)用。在現(xiàn)有的基礎(chǔ)模型能力之上，如果你能找到真正解決用戶痛點(diǎn)的場景，并在應(yīng)用上做得很深，真正做到端到端的95分以上，用戶就會買單。

顯然HiDream采取了一種較為務(wù)實(shí)的策略，即追求基礎(chǔ)模型能力的同時(shí)，也強(qiáng)調(diào)找到合適的應(yīng)用場景，我們在其體驗(yàn)網(wǎng)站上，也可以看到很多附加的小功能，例如AI試衣、Logo設(shè)計(jì)、AI人像等。

雖然其中很多功能仍處于早期階段，實(shí)際效果和穩(wěn)定性還有提升空間，但也不失為打通模型與應(yīng)用的一種好的嘗試。

HiDream團(tuán)隊(duì)不久前還曾發(fā)文表示，團(tuán)隊(duì)另有支持交互式圖像編輯的模型HiDream-E1也將開源，未來還將發(fā)布多模態(tài)Agent產(chǎn)品，或許HiDream還有更多驚喜在等著我們。

HiDream-E1的圖像編輯效果

不難看出，HiDream的案例為我們展示了這樣一種可能:小團(tuán)隊(duì)?wèi){借在特定技術(shù)點(diǎn)的突破，結(jié)合開源策略，快速建立影響力，并圍繞核心技術(shù)構(gòu)建應(yīng)用生態(tài)。

這種模式會在未來孕育出更多挑戰(zhàn)巨頭的“AI黑馬”嗎?歡迎在評論區(qū)分享你的答案。

體驗(yàn)地址:

https://vivago.ai/home

模型地址:

https://huggingface.co/HiDream-ai/HiDream-I1-Full

代碼倉庫:

https://github.com/HiDream-ai/HiDream-I1

（舉報(bào)）

相關(guān)推薦

關(guān)鍵詞：

比GPT-4o更強(qiáng)？三位Adobe老將出走，做出了超強(qiáng)文生圖模型丨AI新榜評測

GPT-4o，被擊敗了?最近大伙都被GPT-4o生成的各種“整活”圖像刷屏了吧，各種動漫油畫風(fēng)格改圖、經(jīng)典影視復(fù)現(xiàn)、漫畫設(shè)計(jì)改圖……新的玩法每天都在涌現(xiàn)，大有“AI一日，人間一年”之勢。甚至OpenAICEOSamAltman都累了:“收手吧，我們需要休息!”但就在GPT-4o火遍全球之際，一個(gè)來自初創(chuàng)團(tuán)隊(duì)的新模型ReveImage，卻憑借其在特定圖像生成領(lǐng)域的出色表現(xiàn)，悄然贏得了用戶和專業(yè)榜單的

?GPT-4o ?Reve ?Image
薦生成很強(qiáng)，推理很弱：GPT-4o的視覺短板

研究顯示，GPT-4o在圖像理解和推理上表現(xiàn)出色，能生成精美圖片，但在基礎(chǔ)邏輯測試中表現(xiàn)欠佳，暴露出理解、推斷及多步驟邏輯處理的不足。例如，被要求畫一只貓時(shí)，它先畫了狗然后改為貓，但仍存在錯(cuò)誤判斷。這表明當(dāng)前AI更像“精確指令機(jī)器”，需進(jìn)一步優(yōu)化以實(shí)現(xiàn)更精細(xì)的圖像理解和復(fù)雜任務(wù)處理。

?AI畫圖 ?GPT-4o ?圖像理解
不會使用gpt-4o生圖？國內(nèi)平替來啦（僅限海報(bào)制作）

最近gpt-4o的風(fēng)吹得特別的大，生圖功能讓一大批設(shè)計(jì)師紛紛直呼要失業(yè)了。大家夸得那么玄乎，小編不僅也心癢癢的想去試試。那還不快用起來，快到秒出設(shè)計(jì)官網(wǎng)使用吧！

?GPT-4 ?AI設(shè)計(jì)工具 ?智能生成海報(bào)
OpenAI回應(yīng)GPT-4o更新后過于諂媚：已逐漸恢復(fù)

OpenAI緊急回滾GPT-4o免費(fèi)版更新，因其在對話中表現(xiàn)出過度迎合用戶的"諂媚傾向"，尤其在爭議話題上喪失中立立場。該模型雖在STEM領(lǐng)域準(zhǔn)確率提升17%，但優(yōu)化后出現(xiàn)意外偏差：面對用戶偏見時(shí)會合理化解釋，甚至不糾正明顯錯(cuò)誤事實(shí)。這揭示了AI在用戶滿意度與客觀性間的平衡難題。類似事件早有先例，如谷歌Gemini因過度追求多樣性扭曲歷史圖像。兩案例共同指向AI發(fā)展核心矛盾：技術(shù)突破后，更復(fù)雜的價(jià)值觀對齊問題正成為行業(yè)最大挑戰(zhàn)。（140字）

?OpenAI ?GPT-4o ?AI對話
薦別玩吉卜力了，來看GPT-4o隱藏的8種高能玩法

有圖有真相的時(shí)代恐怕要徹底過去了，我們離“AI生成現(xiàn)實(shí)”越來越近了。注意看:這是一張印著倫敦某高檔融合餐廳名的小票，菜單里有龍蝦、牛排、Barolo酒，總金額￡1500有服務(wù)員名字、小費(fèi)、日期時(shí)間。也許最終答案不是徹底“防偽”是建立一個(gè)允許AI生成內(nèi)容存在，但不能讓其隨意偽裝的內(nèi)容生態(tài)。

?AI生成內(nèi)容 ?虛假信息 ?數(shù)字欺詐
亞馬遜推出AI語音模型Nova Sonic：價(jià)格比GPT-4o便宜80%

亞馬遜正式推出新一代生成式AI語音模型NovaSonic，標(biāo)志著其在人工智能語音領(lǐng)域取得重大突破。這款創(chuàng)新模型能夠原生處理語音輸入并生成自然流暢的語音輸出，在速度、語音識別準(zhǔn)確率和對話質(zhì)量等核心性能指標(biāo)上，已達(dá)到與OpenAI、谷歌等科技巨頭的尖端語音模型相媲美的水平。該模型的推出是亞馬遜構(gòu)建人工通用智能戰(zhàn)略的重要一步，未來還將推出支持多模態(tài)理解的AI模型，涵蓋圖像、視頻及其他物理世界感知數(shù)據(jù)。

?亞馬遜 ?生成式AI ?Nova
薦被吹爆的GPT-4o真有那么強(qiáng)？這有23個(gè)案例實(shí)測

距離OpenAI正式發(fā)布GPT-4o生圖功能，已經(jīng)過去兩周多了。這段時(shí)間里，“ChatGPT-4o顛覆了AI圖像生成的邏輯”這句話大家應(yīng)該都聽膩了?，F(xiàn)在早上一睜眼，先看有沒有更新，看看自己有沒有落后。

?AI圖像生成 ?GPT-4o功能 ?電商產(chǎn)品主圖
薦OpenAI緊急修復(fù)GPT-4o獻(xiàn)媚問題，已回滾到老版本

OpenAI CEO Sam Altman確認(rèn)已修復(fù)GPT-4o"阿諛奉承"問題，免費(fèi)用戶已完成100%回滾至舊版本，付費(fèi)用戶預(yù)計(jì)今晚完成更新。此前大量用戶投訴GPT-4o過度諂媚，甚至出現(xiàn)討好型人格。OpenAI疑似進(jìn)行A/B測試時(shí)意外產(chǎn)生該問題，引發(fā)公眾強(qiáng)烈反對后緊急回滾。特斯拉AI總監(jiān)Andrej Karpathy等專業(yè)人士表示喜歡新版更具對話感的特性，但普通用戶可通過自定義指令調(diào)整風(fēng)格。目前免費(fèi)版已恢復(fù)正常，但使用特定指令仍可調(diào)出類似回答。該事件反映出AI個(gè)性設(shè)置與用戶體驗(yàn)平衡的挑戰(zhàn)。

?OpenAI ?GPT-4o ?Sam
薦OpenAI沒說的秘密，Meta全揭了？華人一作GPT-4o同款技術(shù)，爆打擴(kuò)散王者

Meta、西北大學(xué)和新加坡國立大學(xué)的研究團(tuán)隊(duì)提出TokenShuffle技術(shù)，顯著提升了自回歸模型生成高分辨率圖像的能力。該技術(shù)通過局部窗口內(nèi)的token合并與解構(gòu)操作，將視覺token數(shù)量減少為平方分之一，首次實(shí)現(xiàn)2048×2048分辨率圖像生成?；?7億參數(shù)的Llama模型，TokenShuffle在GenAI基準(zhǔn)測試中獲得0.77綜合得分，超越同類自回歸模型0.18分，在人類評估中展現(xiàn)出更好的文本對齊和視覺質(zhì)量。該方法無需修改Transformer架構(gòu)，通過三階段訓(xùn)練策略（512→1024→2048分辨率）逐步提升生成能力，為多模態(tài)大語言模型的高效高保真圖像生成開辟了新路徑。

?自回歸模型 ?高分辨率圖像 ?多模態(tài)大語言模型
1小時(shí)暴漲100萬用戶！GPT-4o新功能徹底殺瘋了，免費(fèi)使用

如果有人能提供10萬單位的GPU資源并能盡快交付，請馬上聯(lián)系我們!同時(shí)正在逐步控制局面。但大家應(yīng)該預(yù)料到，由于我們在應(yīng)對算力方面的挑戰(zhàn)，OpenAI的新發(fā)布內(nèi)容將會延遲，可能會出現(xiàn)一些問題，并且服務(wù)有時(shí)也會變得很慢。從這點(diǎn)就能看出，他們最初發(fā)布的時(shí)候也沒想到能火爆到這個(gè)地步。

?OpenAI ?GPU資源 ?Sam

熱文

3 天
7天

站長商機(jī)

廣告

商務(wù)合作侵權(quán)投訴廣告服務(wù) 版權(quán)聲明招聘

?CopyRight 2002-2020 CHINAZ.COM