聲明:本文來自于微信公眾號 AI新榜,作者:王萌,授權(quán)站長之家轉(zhuǎn)載發(fā)布。
AI的“神仙打架”從未停歇,尤其在文生圖這個(gè)燒錢又內(nèi)卷的賽道。
但當(dāng)所有人的目光都聚集在OpenAI、Google、Midjourney等“頭號玩家”時(shí),一個(gè)相對低調(diào)的中國團(tuán)隊(duì),卻悄然登上了多個(gè)AI模型能力榜單前列,引起AI圈熱議,它就是HiDream。
4月21日排名
海外論壇Reddit網(wǎng)友對HiDream的評價(jià)
而且HiDream作為榜單上為數(shù)不多的開源模型,在Hugging Face等開發(fā)者社區(qū)上同樣非常熱門。
Hugging Face趨勢排名,截圖時(shí)間4月21日
這就不禁讓人好奇:這款來自國內(nèi)團(tuán)隊(duì)的開源模型,其實(shí)力究竟如何?我們將HiDream-I1Dev與GPT-4o及同樣表現(xiàn)出色的SeeDream3.0(即夢)以及廣受歡迎的Recraft V3進(jìn)行正面對比,看看它是否真的具備挑戰(zhàn)頂級模型的能力。
與巨頭硬碰硬,HiDream的底氣在哪里?
我們的測試一共分為五組,涵蓋了對提示詞理解能力、寫實(shí)風(fēng)格還原、人物動態(tài)與細(xì)節(jié)、創(chuàng)意表達(dá)、材質(zhì)真實(shí)性、光影與景深控制、文本能力等多方面的考察,通過一系列較為典型的提示詞信息,觀察模型生成圖片的效果。
測試一:復(fù)雜場景理解、寫實(shí)與材質(zhì)表現(xiàn)
提示詞:一張高度寫實(shí)的照片,一個(gè)凌亂但有序的藝術(shù)家工作室。陽光透過一扇大窗戶射入,照亮了空氣中飛舞的塵埃。一張磨損的木質(zhì)工作臺上,放著一個(gè)未完成的粘土雕塑,旁邊散落著各種雕刻工具(鑿子、金屬刮刀)。附近放著一個(gè)高度拋光的鉻合金茶壺,扭曲地反射著周圍的景象和窗外的綠樹。背景的書架上擺滿了顏料罐和畫筆。強(qiáng)調(diào)不同材質(zhì)的質(zhì)感(粗糙粘土、光滑金屬、舊木紋、玻璃光澤),光線柔和而有方向感。
第一個(gè)測試屬于牛刀小試,測試重點(diǎn)在于:對復(fù)雜場景布局、多物體關(guān)系、光影氛圍的理解、同時(shí)渲染多種差異巨大的材質(zhì)(粘土、金屬、木材、玻璃)、照片級真實(shí)感和細(xì)節(jié)刻畫。
從實(shí)測結(jié)果不難看出,各個(gè)模型在這些方面都做得不錯(cuò),但細(xì)看還是能看到一些差別。例如GPT-4o沒有做出提示詞中要求的“空氣中飛舞的塵?!?,且桌面非常整齊,“整齊”多于“凌亂”,HiDream書架不太明顯,沒能很好地表現(xiàn)出“書架擺滿了顏料罐和畫筆”。
測試二:創(chuàng)意概念、特定藝術(shù)風(fēng)格模仿與氛圍營造
提示詞:一個(gè)設(shè)定在巨大空心古樹內(nèi)部的熙熙攘攘的市場場景。長著昆蟲翅膀的奇幻小生物們在攤位上售賣發(fā)光的水果和閃光的布料。建筑風(fēng)格融合了有機(jī)的樹根和精致的精靈風(fēng)格雕刻。采用“吉卜力工作室動畫(Studio Ghibli animation)”的鮮明視覺風(fēng)格進(jìn)行渲染,注重鮮艷的色彩、柔和的光線和充滿奇幻感的氛圍。
這項(xiàng)測試的重點(diǎn)在于:理解并視覺化高度想象力的概念;準(zhǔn)確模仿指定的、具有強(qiáng)烈辨識度的藝術(shù)風(fēng)格;營造特定的情緒和氛圍;處理多角色和環(huán)境細(xì)節(jié)的一致性問題。
雖然各個(gè)模型都能完成創(chuàng)意理解和風(fēng)格模仿的任務(wù):GPT-4o生成圖像中的人物更像宮崎駿動畫中的角色,色彩柔和但整體偏綠;HiDream忽略了“巨大空心樹”的設(shè)定,且出現(xiàn)了一定程度的臉部崩壞;只有即夢表現(xiàn)出了發(fā)光的水果和閃光的布料,綜合表現(xiàn)更好。
測試三:人物動態(tài)、細(xì)節(jié)捕捉與極端光影控制
提示詞:特寫動作鏡頭,一位廚師戴著黑色薄手套的雙手,正在一個(gè)燃著熊熊火焰的炒鍋中快速顛勺,拋起混合著五顏六色蔬菜的食材。微小的油滴和醬汁瞬間懸浮在空中。廚師的臉上(部分可見或完全可見)表情高度專注。需要捕捉到手和蔬菜的動態(tài)模糊效果,同時(shí)保持炒鍋中的火焰和廚師表情的清晰。采用高對比度的戲劇性舞臺式打光。
這輪測試重點(diǎn)在于:準(zhǔn)確描繪人物動態(tài)(尤其是手部);捕捉高速運(yùn)動的瞬間細(xì)節(jié)(油滴、模糊效果);控制復(fù)雜且對比強(qiáng)烈的光影環(huán)境。
由于測試難度提高了一些,這輪各個(gè)模型在手部細(xì)節(jié)、動態(tài)捕捉(如火焰、油滴)等方面上都出現(xiàn)了不同程度的問題,即夢生成的圖片效果相較其他三個(gè)更好一些。
測試四:排版設(shè)計(jì)、文字生成與應(yīng)用場景模擬
提示詞:設(shè)計(jì)一本名為‘Cosmic Whispers’(宇宙低語)的科幻小說封面。主視覺是一個(gè)抽象的、由相互纏繞的發(fā)光能量觸須構(gòu)成的圖案,連接著兩個(gè)跨越深空星云背景的風(fēng)格化剪影人形。書名 ‘Cosmic Whispers’ 使用簡潔現(xiàn)代的無襯線字體,醒目地放在封面頂部。作者名 ‘A.I. Genesis’ 使用稍小字體放在底部。整體呈現(xiàn)專業(yè)、引人入勝的平面設(shè)計(jì)感。
這項(xiàng)測試測試的重點(diǎn)是:準(zhǔn)確生成指定英文文字(包括大小寫和內(nèi)容);理解并執(zhí)行排版布局要求(位置、字體風(fēng)格);結(jié)合圖像和文字創(chuàng)造出符合特定類型(科幻小說封面)的設(shè)計(jì)美感;模擬實(shí)際應(yīng)用場景。
四個(gè)模型都能很好地完成封面任務(wù),并且呈現(xiàn)出了提示詞要求的線條、人形剪影,但細(xì)節(jié)處還是能看到一些區(qū)別:只有即夢按照提示詞的要求準(zhǔn)確區(qū)分出了標(biāo)題和作者的英文大小寫;Recraft和即夢模擬了書籍封面的呈現(xiàn)形式;GPT-4o封面右下角出現(xiàn)了第三個(gè)人。
測試五:微距細(xì)節(jié)、特殊材質(zhì)與精確控制
提示詞:微距特寫攝影:一片奇幻生物的虹彩(iridescent)鱗片,色彩隨光線角度變化。幾顆完美的、微小的露珠附著在鱗片上,折射著周圍的光線,顯現(xiàn)出迷你的彩虹棱鏡效果。背景是柔和失焦的深綠色葉子。要求極高的細(xì)節(jié)銳度,淺景深效果,焦點(diǎn)精確地落在露珠和鱗片的紋理上。
測試重點(diǎn): 特殊光學(xué)效果材質(zhì)(彩虹、水珠折射);對攝影參數(shù)(景深、焦點(diǎn))的精確控制能力;極端細(xì)節(jié)的刻畫能力(微距級別);處理重復(fù)性精細(xì)紋理。
HiDream能夠生成微距效果,并在一定程度上表現(xiàn)了鱗片的紋理和露珠,但在精確還原“虹彩”隨光線變色的效果上可能不夠理想,需要更精細(xì)的提示詞引導(dǎo);Recraft更偏寫實(shí)風(fēng)格,在表現(xiàn)水珠折射上也更偏保守;相較而言即夢呈現(xiàn)的圖像更接近提示詞要求。
其他測試案例
除了這些針對具體能力的測試以外,我們還嘗試了更多不同風(fēng)格的案例,下面是HiDream的生成效果。
提示詞:一幅以愛德華·霍普風(fēng)格創(chuàng)作的畫作,描繪了深夜時(shí)分,一個(gè)人獨(dú)自坐在小餐館柜臺前的場景。畫面的氛圍靜謐而孤獨(dú),充滿內(nèi)省的意味,光影對比強(qiáng)烈,長長的陰影投射在房間里。要著重強(qiáng)調(diào)城市中的孤獨(dú)感。
提示詞:一張高質(zhì)量的產(chǎn)品渲染圖:一個(gè)啞光黑色的無線耳機(jī)充電盒,略微打開,露出里面的白色耳機(jī)。充電盒放在一塊有質(zhì)感的灰色石頭上。充電盒蓋子內(nèi)側(cè)(如果可見)或旁邊標(biāo)簽上印有小小的、清晰的logo文字 'Meng'. 整體光線柔和,突出產(chǎn)品的精致感和材質(zhì)(啞光塑料、光滑石頭)。
提示詞:設(shè)計(jì)一個(gè)現(xiàn)代、簡約的Logo,用于名為 'NewRank Tech' 的環(huán)??萍脊?。Logo應(yīng)包含一個(gè)風(fēng)格化的葉子圖案,并與抽象的電路/芯片圖案巧妙融合。主要使用藍(lán)紫色和橙色。
提示詞:這是一張寫實(shí)風(fēng)格的照片,一匹馬從左向右在一片廣闊而平靜的海面上飛奔。畫面精準(zhǔn)地捕捉了濺起的水花、水面上的反射,以及馬蹄下細(xì)膩的漣漪圖案。馬的動作被適度夸張,而周圍的環(huán)境則保持靜止和寧靜,以此突出馬的力量感。整體構(gòu)圖簡潔而富有電影感,采用寬廣的全景視角,展現(xiàn)了遠(yuǎn)處的地平線。通過大氣透視營造出深度感。在浩瀚的海洋面前,馬的身影被放大,但依然顯得渺小,進(jìn)一步強(qiáng)化了對比效果。
提示詞:一只可愛的貓睡在書架上,油畫風(fēng)格。
提示詞:一座現(xiàn)代化工業(yè)工廠的低多邊形風(fēng)格鳥瞰圖,建筑為白色或淺灰色,結(jié)構(gòu)包含大型主廠房、儲罐、煙囪、管道、出入口和卡車。環(huán)境清新,有綠樹、馬路、水渠,整體構(gòu)圖有條理,風(fēng)格極簡且色彩明亮,適合用于數(shù)字孿生可視化或工業(yè)動畫展示。
總體而言,HiDream在圖像、寫實(shí)風(fēng)格下的質(zhì)感表現(xiàn)、復(fù)雜場景的細(xì)節(jié)刻畫等方面確實(shí)具備了與一線模型掰手腕的實(shí)力,站穩(wěn)第一梯隊(duì)是完全沒有問題的。
而且HiDream支持輸出4K高清圖像,出圖速度快,還可以直接掛進(jìn)內(nèi)容生產(chǎn)鏈路,例如ComfyUI等。
值得注意的是,HiDream基于中國本土打造,在使用較為中性的提示詞生成包含人物面部的圖像時(shí),比較傾向于生成亞洲人,在審美上也比較貼近國人審美。
連續(xù)20次使用中性描述“A portrait photo of a person.(一個(gè)人物肖像圖片)”測試
此外,HiDream在生成中文方面卻表現(xiàn)欠佳,雖然支持中文提示詞,但使用英文提示詞效果更佳。
HiDream生成的中文
此外,HiDream對一些較為模糊、抽象的提示詞理解能力有待提高,在生成某些需要獨(dú)特創(chuàng)意或特定氛圍的圖像時(shí),表現(xiàn)可能不如其他模型。
例如前文“測試五”中,HiDream生成的圖片在光學(xué)效果、攝影效果等方面表現(xiàn)尚可,但需要多次額外強(qiáng)調(diào)細(xì)節(jié)才能生成理想中的彩色鱗片特寫。
綜合而言,雖然HiDream文生圖能力達(dá)到了第一梯隊(duì)的水平,但缺點(diǎn)也非常明顯。
優(yōu)點(diǎn):
高清晰度與細(xì)節(jié):支持輸出4K高清圖像,分辨率高,細(xì)節(jié)豐富。
出色的質(zhì)感還原: 對于不同材質(zhì)的物理屬性和光澤反射模擬得比較準(zhǔn)確,能夠很好地理解并執(zhí)行復(fù)雜提示詞匯總的元素和要求。
畫面質(zhì)量穩(wěn)定: 生成質(zhì)量穩(wěn)定,出圖速度快,還可以直接掛進(jìn)內(nèi)容生產(chǎn)鏈路(例如前文提到的ComfyUI)。
本土化優(yōu)勢: 在亞洲面孔的還原上可能更貼近國內(nèi)審美。
缺點(diǎn):
缺乏特色:雖處于文生圖第一梯隊(duì),但并沒有在某一方面表現(xiàn)最為突出。
文本能力不強(qiáng):無法生成中文,雖支持中文提示詞,但使用英文提示詞生圖效果更佳。
抽象提示詞理解能力有待提高:在生成某些需要?jiǎng)?chuàng)意或特定氛圍的圖像時(shí),表現(xiàn)不如其他模型。
人物動態(tài)略顯僵硬。
左為HiDream,右為即夢
值得一提的是,官方為模型提供了落地產(chǎn)品vivago.ai(https://vivago.ai/home)。但我們在測試中發(fā)現(xiàn),vivago.ai實(shí)際出圖能力可能弱于通過第三方工具調(diào)用其開源模型。鑒于我們評測使用的是由Recraft調(diào)用的HiDream-I1Dev,vivago.ai使用的模型很可能使用是參數(shù)量更小的HiDream-I1Flash模型。而且vivago.ai生成的圖片帶有水印。
使用vivago.ai生圖需要付費(fèi)去水印
“測試三”中,相同的提示詞在vivago.ai和Recraft調(diào)用HiDream模型的文生圖表現(xiàn)對比,vivago并沒有做到我們要求的“吉卜力風(fēng)格”
小團(tuán)隊(duì)+開源,黑馬的“突圍”之道?
當(dāng)我們看到HiDream在AI模型榜單上的亮眼表現(xiàn)時(shí),也有很多人注意到這樣一個(gè)問題——為什么在文生圖這個(gè)領(lǐng)域,我們看到的大多是閉源的商業(yè)模型,而非開源項(xiàng)目?
答案并不復(fù)雜,主要?dú)w結(jié)于高昂的訓(xùn)練成本與資源壁壘,以及主流的商業(yè)模式選擇。
訓(xùn)練一個(gè)頂級的文生圖模型,既包括大規(guī)模GPU集群的算力成本、海量高質(zhì)量圖像與數(shù)據(jù)的獲取成本,以及頂尖算法工程師團(tuán)隊(duì)的研發(fā)成本。這種“燒錢”的特性,天然地將大多數(shù)資源有限的玩家擋在了門外,使得大型科技公司或資金雄厚的AI獨(dú)角獸占據(jù)了主導(dǎo)地位。
同時(shí),這些投入巨大的公司,自然傾向于選擇能夠快速回收成本并實(shí)現(xiàn)盈利的商業(yè)模式,所以我們常??梢钥吹綇S商通過訂閱付費(fèi)墻、API調(diào)用服務(wù)等形式,將模型本身作為核心資產(chǎn)進(jìn)行商業(yè)變現(xiàn)。
在這樣的背景下,小團(tuán)隊(duì)面臨的困境顯而易見。它們既缺乏與巨頭抗衡的資金和資源去“軍備競賽”,又難以在成熟的閉源商業(yè)模式下找到差異化的生存空間。許多有潛力的技術(shù)團(tuán)隊(duì)可能因此在基礎(chǔ)模型層面望而卻步,轉(zhuǎn)向更輕量級的應(yīng)用層開發(fā)。
所以HiDream的故事就顯得尤為獨(dú)特,這家成立于2023年3月、來自中國合肥的公司,依托中科大的人才資源,由一支50人的團(tuán)隊(duì)在短時(shí)間內(nèi)拿出了一款在多項(xiàng)基準(zhǔn)測試和實(shí)際效果上能與頂級模型掰手腕的產(chǎn)品。
更關(guān)鍵的是,面對行業(yè)主流的閉源模式,HiDream卻選擇了開源,關(guān)于其中原因,CEO梅濤在此前接受甲子光年采訪時(shí)表示:
我們希望通過開源的方式,讓別人踩在我們的肩膀上不斷前進(jìn)……圖片模型不是我們商業(yè)化的終點(diǎn),我們希望通過開源模型把社區(qū)建設(shè)得更好……現(xiàn)在很多大模型公司轉(zhuǎn)向開源一方面是被倒逼的,另一方面他們過去忽視了開源社區(qū)的品牌價(jià)值和生態(tài)影響力。
顯然,HiDream意在通過文生圖模型作為切入口,凝聚更多開發(fā)者和用戶,為將來可能的視頻生成等更復(fù)雜的領(lǐng)域構(gòu)建生態(tài)護(hù)城河,形成一種經(jīng)典的“以開放換未來”的打法。
實(shí)際上,這樣的故事在AI行業(yè)已經(jīng)出現(xiàn)太多太多,例如之前智譜開源的文生圖模型CogView4等。近期OpenAI嘗試打造的AI社交平臺,在一定程度上也是為了通過打造社群來搶數(shù)據(jù)、搶流量。
在Recraft上使用HiDream-I1模型
值得一提的是,HiDream最新開源的模型都已經(jīng)完成了國產(chǎn)GPU的適配,如果能實(shí)現(xiàn)算法與硬件的深度協(xié)同優(yōu)化,可能探索出一條獨(dú)特的軟硬結(jié)合發(fā)展路徑,為國產(chǎn)AI軟硬件生態(tài)的建設(shè)提供一個(gè)正向循環(huán)的案例。
當(dāng)然,這種開源模式也會面臨一些挑戰(zhàn),例如怎樣在開源的同時(shí)找到可持續(xù)的商業(yè)模式?對此,HiDream.ai公司CTO姚霆在此前接受采訪時(shí)是這樣回答的:
我們不需要等到基礎(chǔ)模型達(dá)到100分才去做應(yīng)用。在現(xiàn)有的基礎(chǔ)模型能力之上,如果你能找到真正解決用戶痛點(diǎn)的場景,并在應(yīng)用上做得很深,真正做到端到端的95分以上,用戶就會買單。
顯然HiDream采取了一種較為務(wù)實(shí)的策略,即追求基礎(chǔ)模型能力的同時(shí),也強(qiáng)調(diào)找到合適的應(yīng)用場景,我們在其體驗(yàn)網(wǎng)站上,也可以看到很多附加的小功能,例如AI試衣、Logo設(shè)計(jì)、AI人像等。
雖然其中很多功能仍處于早期階段,實(shí)際效果和穩(wěn)定性還有提升空間,但也不失為打通模型與應(yīng)用的一種好的嘗試。
HiDream團(tuán)隊(duì)不久前還曾發(fā)文表示,團(tuán)隊(duì)另有支持交互式圖像編輯的模型HiDream-E1也將開源,未來還將發(fā)布多模態(tài)Agent產(chǎn)品,或許HiDream還有更多驚喜在等著我們。
HiDream-E1的圖像編輯效果
不難看出,HiDream的案例為我們展示了這樣一種可能:小團(tuán)隊(duì)?wèi){借在特定技術(shù)點(diǎn)的突破,結(jié)合開源策略,快速建立影響力,并圍繞核心技術(shù)構(gòu)建應(yīng)用生態(tài)。
這種模式會在未來孕育出更多挑戰(zhàn)巨頭的“AI黑馬”嗎?歡迎在評論區(qū)分享你的答案。
體驗(yàn)地址:
https://vivago.ai/home
模型地址:
https://huggingface.co/HiDream-ai/HiDream-I1-Full
代碼倉庫:
https://github.com/HiDream-ai/HiDream-I1
(舉報(bào))