站長之家(ChinaZ.com)4月15日 消息:香港中文大學終身教授賈佳亞團隊最近推出了一款名為Mini-Gemini的多模態(tài)模型,該模型在多模態(tài)任務榜單上取得了顯著成績,其性能堪比GPT-4與DALLE3的結合。
Mini-Gemini模型以其更精確的圖像理解能力、更高質量的訓練數據和更強的圖像解析推理能力而著稱。模型能夠結合圖像推理和生成,提供了從2B到34B不同規(guī)模的版本,其中最強版本在多個指標上與Google Gemini Pro和GPT-4V相比毫不遜色。
項目地址:https://top.aibase.com/tool/mini-gemini
試玩地址: https://103.170.5.190:7860/
Mini-Gemini模型的代碼、模型和數據已經全部開源,可以在Github、論文地址和模型及數據的Huggingface頁面上找到。這一開放性的舉措使得Mini-Gemini迅速登上了PaperWithCode的熱榜,受到了廣泛關注。
Mini-Gemini的圖像理解和生成能力通過Demo形式得到了展示,用戶可以在線與自定義圖像進行對話。這一功能使得Mini-Gemini在實際應用場景中表現出色,尤其是在需要對高清圖像進行解析并用圖像形式展現的任務中。例如,Mini-Gemini能夠根據圖片內容對做面包的過程進行指導,也能根據電腦圖片中的參數進行準確對比。
此外,Mini-Gemini在保留圖像理解和推理能力的同時,還具備了圖像生成能力,類似于ChatGPT與生成模型的結合。通過抽象的多模態(tài)指令,模型能夠進行推理并生成合適的圖片。例如,當用戶提出兩個毛線團能做什么時,Mini-Gemini不僅能識別圖片內容并給出建議,還能生成相應的毛線小熊圖片。
Mini-Gemini的技術背后,采用了名為Gemini的視覺雙分支信息挖掘方法,通過使用卷積網絡(ConvNet)對高分辨率圖像進行編碼,并利用Transformer中的Attention機制來挖掘每個低分辨率Query對應的高分辨率區(qū)域。在圖像生成方面,Mini-Gemini結合了SDXL技術,通過LLM生成的文本鏈接兩個模型,類似于DALLE3的流程。
在數據方面,Mini-Gemini通過收集和優(yōu)化訓練數據,實現了對圖像理解、推理和生成的統(tǒng)一流程。即使在僅使用2-3M數據的情況下,Mini-Gemini也能在各種Zero-shot榜單上與大廠使用大量數據訓練出的模型相媲美,展現了其高效性和實用性。這一成果不僅為開源社區(qū)帶來了新的活力,也為多模態(tài)模型的發(fā)展和應用開辟了新的可能性。
(舉報)