站長之家(ChinaZ.com)2月21日 消息:靈活視覺變換器(FiT)是一種全新的Transformer架構(gòu)圖像生成模型,專門設計用于創(chuàng)造沒有分辨率和寬高比限制的圖像。
相較于傳統(tǒng)將圖像視為固定分辨率網(wǎng)格的方法,F(xiàn)iT將圖像視為一系列可變大小的圖像塊(Token)。這種獨特的處理方式使得FiT能夠在訓練和應用過程中靈活適應不同的圖像寬高比,提高了對不同分辨率的適應能力,并避免了由于裁剪圖像而產(chǎn)生的偏差。
項目地址:https://top.aibase.com/tool/fit
FiT通過精心設計的網(wǎng)絡結(jié)構(gòu)和一些不需要額外訓練的技術(shù),在圖像分辨率的擴展方面展現(xiàn)出極大的靈活性。實驗結(jié)果顯示,F(xiàn)iT在處理各種不同分辨率的圖像方面表現(xiàn)出卓越的性能,無論是在其訓練的分辨率范圍內(nèi)還是超出這一范圍,都能夠取得出色的效果。
FiT的推出為生成不受分辨率和寬高比限制的圖像提供了一種全新的解決方案。該模型在訓練和推理過程中無需專門適配對應的圖片比例和分辨率,同時在美學表現(xiàn)方面也表現(xiàn)不俗。FiT的問世將為圖像生成領域帶來新的可能性,為用戶提供更加靈活多樣的圖像生成體驗。
(舉報)