1. 為什么湖倉正在成為企業(yè)數(shù)據(jù)架構(gòu)的必選項(xiàng)?
越來越多的企業(yè)正在通過實(shí)時(shí)數(shù)據(jù)處理能力構(gòu)建核心競(jìng)爭(zhēng)力——用戶期待 APP 準(zhǔn)確捕捉需求并實(shí)時(shí)響應(yīng),企業(yè)員工追求業(yè)務(wù)系統(tǒng)的秒級(jí)反饋,這些場(chǎng)景背后是千億級(jí)數(shù)據(jù)資產(chǎn)的敏捷調(diào)度。
據(jù) IDC 預(yù)測(cè),2025 年全球數(shù)據(jù)量將突破 175 ZB,非結(jié)構(gòu)化數(shù)據(jù)占比超過 80%,到 2027 年全球數(shù)據(jù)生成量更將突破 300 ZB。
企業(yè)正迎來數(shù)據(jù)價(jià)值釋放的黃金階段,而湖倉(Lakehouse)成為其中的關(guān)鍵引擎:
多模態(tài)數(shù)據(jù)融合:隨著 AI 應(yīng)用深入,結(jié)構(gòu)化、半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)的協(xié)同分析正創(chuàng)造新的業(yè)務(wù)場(chǎng)景。湖倉架構(gòu)原生支持多源異構(gòu)數(shù)據(jù)統(tǒng)一管理,讓視頻分析、文檔解析等跨模態(tài)分析成為可能。
性價(jià)持續(xù)突破:采用存算分離架構(gòu)(如 S3/OSS 對(duì)象存儲(chǔ)),企業(yè)存儲(chǔ)成本可降至傳統(tǒng)數(shù)倉的 10%,同時(shí)通過彈性計(jì)算資源調(diào)度,實(shí)現(xiàn)實(shí)時(shí)查詢與批量處理的靈活成本控制。
湖倉架構(gòu)(Lakehouse)正成為企業(yè)實(shí)現(xiàn)數(shù)據(jù)價(jià)值的戰(zhàn)略性基礎(chǔ)設(shè)施。
據(jù)資料統(tǒng)計(jì),全球?qū)崟r(shí) Lakehouse 市場(chǎng)規(guī)模預(yù)計(jì)將從 2025 年的 2.85 億美元增長(zhǎng)到 2031 年的 12.41 億美元,這些數(shù)據(jù)進(jìn)一步印證了湖倉架構(gòu)的戰(zhàn)略價(jià)值。
通過開放表格式(Iceberg/Hudi/Paimon 等),配合流批一體引擎(如 Flink+StarRocks),企業(yè)可實(shí)現(xiàn)“One Data,All Analytics”,并以較低的成本獲得 PB 級(jí)存儲(chǔ)和亞秒級(jí)查詢響應(yīng)。
過去一年里,湖倉生態(tài)鏈條內(nèi)工具快速發(fā)展壯大,逐漸帶領(lǐng)體系走向成熟:
開放表格式統(tǒng)一:Snowflake 開源 Polaris Catalog、Databricks 收購?Tabular,推動(dòng) Iceberg 成為跨云數(shù)據(jù)湖事實(shí)標(biāo)準(zhǔn);AWS S3 與?Azure?Data Lake Storage 全面支持 Iceberg,云廠商“站隊(duì)”開放生態(tài)。
元數(shù)據(jù)層競(jìng)爭(zhēng):Unity Catalog 與 Polaris Catalog 開源,標(biāo)志著元數(shù)據(jù)管理從“私有協(xié)議”走向“開放協(xié)作”,企業(yè)可跨引擎統(tǒng)一管理權(quán)限、血緣與模型。
在數(shù)字化轉(zhuǎn)型深水區(qū),湖倉架構(gòu)為企業(yè)提供了“彈性擴(kuò)展-性能突出-成本可控”三重價(jià)值的解決方案。
2. Lakehouse 三大核心技術(shù)演進(jìn)
存儲(chǔ)層:統(tǒng)一數(shù)據(jù)源,低成本支撐全場(chǎng)景分析
存儲(chǔ)層實(shí)現(xiàn)了“Single Source Of Truth”,支撐 AI 訓(xùn)練、BI 分析等場(chǎng)景的統(tǒng)一存儲(chǔ)與用數(shù),避免了傳統(tǒng)架構(gòu)中數(shù)據(jù)流轉(zhuǎn)產(chǎn)生的損耗,顯著降低企業(yè)存儲(chǔ)成本。
通過開放表格式,存儲(chǔ)層支持的數(shù)據(jù)類型也從結(jié)構(gòu)化擴(kuò)展到 JSON 等半結(jié)構(gòu)化數(shù)據(jù),以及面向 AI 場(chǎng)景的視頻、音頻等非結(jié)構(gòu)化數(shù)據(jù)。
另外,存儲(chǔ)層還引入了主鍵索引、向量倒排索引等多級(jí)索引體系來提升數(shù)據(jù)訪問效率,同時(shí)支持從批量操作到流式實(shí)時(shí)讀寫的多種處理模式,滿足企業(yè)全方位數(shù)據(jù)需求。
計(jì)算引擎層:多元拓展,較好的性價(jià)比
計(jì)算引擎層呈多元融合發(fā)展趨勢(shì),典型的如 Spark(批處理)、Flink(流處理)、StarRocks(實(shí)時(shí)分析)等引擎正在積極拓展自身功能便捷,打破傳統(tǒng)細(xì)分界限,向統(tǒng)一引擎進(jìn)化。
同時(shí),引擎層更加注重性價(jià)比的提升,通過支持 ARM 架構(gòu)、GPU 等新型硬件,以及引入全局緩存等創(chuàng)新機(jī)制,優(yōu)化計(jì)算效率,在保持引擎專業(yè)特性的同時(shí)也有更高的資源利用率。
以 StarRocks 為例,作為查詢引擎,性能和性價(jià)比仍是 StarRocks 優(yōu)化重點(diǎn),并將持續(xù)增強(qiáng)對(duì)湖生態(tài)支持,讓原本需要多個(gè)引擎才能完成的任務(wù)用一個(gè)統(tǒng)一引擎完成,數(shù)據(jù)處理更便捷和智能:
提升性價(jià)比,提供更好的統(tǒng)計(jì)信息收集、索引和物化視圖支持以提升性能。
跟進(jìn)存儲(chǔ)層新演進(jìn),支持半結(jié)構(gòu)化類型、DELETE Vector 等實(shí)時(shí)場(chǎng)景優(yōu)化功能。
實(shí)現(xiàn)完整的讀寫、DDL、存儲(chǔ)過程、Table 遷移等功能。
開展數(shù)據(jù)存儲(chǔ)優(yōu)化工作,如 Compaction 服務(wù)和數(shù)據(jù)自動(dòng)布局優(yōu)化。
元數(shù)據(jù)層:從目錄管理邁向數(shù)據(jù)智能
元數(shù)據(jù)層的管理范圍已從傳統(tǒng)的表、視圖擴(kuò)展到 AI 模型、特征、指標(biāo)等多維度數(shù)據(jù)資產(chǎn)。通過提供統(tǒng)一的元數(shù)據(jù)服務(wù),實(shí)現(xiàn)對(duì)不同計(jì)算引擎的無縫對(duì)接。在數(shù)據(jù)治理方面,元數(shù)據(jù)層也提供了全方位的權(quán)限管理、調(diào)度編排和數(shù)據(jù)血緣分析能力。
另外,元數(shù)據(jù)層也開始與 AI、BI 技術(shù)深度融合,支持?jǐn)?shù)據(jù)資產(chǎn)的智能發(fā)現(xiàn)與管理。目前市場(chǎng)上 Unity Catalog、Gravitino 等解決方案都在積極完善產(chǎn)品能力,推動(dòng)著元數(shù)據(jù)管理向更智能化方向發(fā)展。
3. 2025 年 4 大趨勢(shì)預(yù)測(cè)
隨著 Lakehouse 架構(gòu)在 2024 年獲得國(guó)際主流認(rèn)可,2025 年將進(jìn)入更深層次的發(fā)展階段?;趯?duì)市場(chǎng)動(dòng)態(tài)和用戶實(shí)踐的調(diào)研,我們認(rèn)為接下來將有以下四大關(guān)鍵趨勢(shì):
趨勢(shì)一:開放表格式(Iceberg)成為事實(shí)標(biāo)準(zhǔn)
隨著越來越多企業(yè)選擇將傳統(tǒng)架構(gòu)(如 Hadoop、ClickHouse 等)遷移到基于開放表格式的湖倉上來,全球市場(chǎng)的開放表格式呈現(xiàn)出“雙軌并行”的競(jìng)爭(zhēng)格局。
海外市場(chǎng)中,Apache Iceberg?憑借其成熟的生態(tài)系統(tǒng)和主流云廠商的支持,已確立主導(dǎo)地位,成為開放湖格式的事實(shí)標(biāo)準(zhǔn)。而在國(guó)內(nèi)市場(chǎng),Apache Paimon?則是一部分頭部互聯(lián)網(wǎng)企業(yè)的首要技術(shù)選擇。
二者競(jìng)合關(guān)系類似于 Spark 與 Flink 的市場(chǎng)格局,兩者將在不同場(chǎng)景下相互補(bǔ)充。值得注意的是,Paimon 也已支持生成 Iceberg 兼容的元數(shù)據(jù),為用戶提供更靈活的技術(shù)選擇。
趨勢(shì)二:接口標(biāo)準(zhǔn)化催生出模塊化搭建湖倉的機(jī)會(huì),更靈活、高性價(jià)比
隨著開放標(biāo)準(zhǔn)的確立與生態(tài)成熟,模塊化湖倉架構(gòu)將獲得更多企業(yè)(尤其是頭部企業(yè))認(rèn)可。企業(yè)可以根據(jù)業(yè)務(wù)需求,通過存儲(chǔ)、引擎、元數(shù)據(jù)的靈活組合,實(shí)現(xiàn)特出性價(jià)比。
這種轉(zhuǎn)變的主要推動(dòng)因素:
開放標(biāo)準(zhǔn)日益成熟,使組件之間的協(xié)作更加靈活
企業(yè)希望避免被單一供應(yīng)商鎖定,實(shí)現(xiàn)自由的技術(shù)選型
降本增效核心訴求,即更高的性價(jià)比
特別是有一定技術(shù)實(shí)力的頭部企業(yè),更傾向于通過靈活組合存儲(chǔ)、計(jì)算引擎和元數(shù)據(jù)管理能力,構(gòu)建最適合自身需求的數(shù)據(jù)架構(gòu),而非選擇單一廠商的一體化解決方案。
趨勢(shì)三:實(shí)時(shí)湖倉將成為國(guó)內(nèi)企業(yè)升級(jí)的核心切入點(diǎn)
實(shí)時(shí)數(shù)據(jù)處理需求正從“T+1”和小時(shí)級(jí)向秒級(jí)分析演進(jìn),這使得實(shí)時(shí)湖倉成為企業(yè)數(shù)據(jù)架構(gòu)升級(jí)的優(yōu)選切入點(diǎn)。相比傳統(tǒng)架構(gòu),實(shí)時(shí)湖倉方案具有兩大優(yōu)勢(shì):滿足業(yè)務(wù)實(shí)時(shí)性要求和顯著降低 TCO(總體擁有成本)。
憑借其出色的流批一體特性,Paimon?在實(shí)時(shí)場(chǎng)景中表現(xiàn)突出,正獲得越來越多國(guó)內(nèi)企業(yè)青睞, Paimon+StarRocks 的組合也成為企業(yè)實(shí)現(xiàn)實(shí)時(shí)湖倉的選擇之一。
鏡舟匯總和梳理了過去 1-2 年 StarRocks 在互聯(lián)網(wǎng)、金融等行業(yè)的標(biāo)桿案例,觀察到湖倉技術(shù)在中國(guó)落地仍需經(jīng)歷三個(gè)階段:
短期:企業(yè)會(huì)選擇以實(shí)時(shí)湖倉為切入點(diǎn),通過 Paimon+StarRocks 組合完成快速部署,以響應(yīng)業(yè)務(wù)側(cè)需求。同時(shí)這一階段,存算分離將作為重點(diǎn)方案并行發(fā)展。
中期:隨著生態(tài)系統(tǒng)逐步完善,開放湖格式將覆蓋更多場(chǎng)景,企業(yè)會(huì)將選擇近實(shí)時(shí)及部分離線業(yè)務(wù)遷移到湖倉上來,向統(tǒng)一數(shù)據(jù)存儲(chǔ)與應(yīng)用靠攏。
長(zhǎng)期:傳統(tǒng)數(shù)倉將逐步被湖倉替代,形成真正統(tǒng)一的 Lakehouse 架構(gòu),并支持將 AI 和數(shù)據(jù)分析場(chǎng)景深度融合,進(jìn)一步實(shí)現(xiàn)數(shù)據(jù)智能。
趨勢(shì)四:AI 原生 Lakehouse 成為新的基礎(chǔ)設(shè)施
湖倉正在成為企業(yè) AI 基礎(chǔ)設(shè)施的重要組成部分。據(jù)畢馬威人工智能報(bào)告顯示,86%的海外企業(yè)計(jì)劃統(tǒng)一其分析數(shù)據(jù)以支持 AI 開發(fā)。而在國(guó)內(nèi),這一趨勢(shì)同樣明顯,諸如騰訊、Bilibili、小紅書等頭部互聯(lián)網(wǎng)企業(yè)的湖倉架構(gòu)均涉及了不同程度的 AI 應(yīng)用。
AI 訓(xùn)練數(shù)據(jù)需求將推動(dòng)更多企業(yè)從傳統(tǒng)數(shù)倉遷移到 Lakehouse 架構(gòu),例如非結(jié)構(gòu)化數(shù)據(jù)處理、向量檢索等能力訴求。湖倉一體能夠支持實(shí)時(shí)流處理與機(jī)器學(xué)習(xí),滿足模型訓(xùn)練需求。
這四大趨勢(shì)相互影響、相互促進(jìn),共同推動(dòng)著湖倉技術(shù)的演進(jìn)。不過無論是否考慮選擇湖倉架構(gòu),企業(yè)都需要對(duì)自身技術(shù)現(xiàn)狀進(jìn)行全面評(píng)估。
4.?企業(yè)數(shù)據(jù)平臺(tái)選型建議
1. 當(dāng)前企業(yè)現(xiàn)有架構(gòu)評(píng)估
首先,企業(yè)需要分析當(dāng)前的數(shù)據(jù)規(guī)模和增長(zhǎng)趨勢(shì),判斷是否面臨存儲(chǔ)成本過高的問題,是否對(duì)實(shí)時(shí)分析著迫切訴求,以此衡量現(xiàn)有架構(gòu)對(duì)經(jīng)營(yíng)與效率產(chǎn)生的影響。其次,要評(píng)估現(xiàn)有技術(shù)棧的能力和局限性,包括查詢性能瓶頸、運(yùn)維復(fù)雜度、上下游拓展適配,以及對(duì)新興 AI 應(yīng)用的支持能力等。
同時(shí),遷移成本也是一大考量因素。除了基礎(chǔ)設(shè)施投入成本,還涉及技術(shù)、運(yùn)維團(tuán)隊(duì)培訓(xùn)成本、業(yè)務(wù)中斷風(fēng)險(xiǎn)等方面。
通過綜合評(píng)估,企業(yè)能夠更清晰地認(rèn)識(shí)到湖倉架構(gòu)是否真正適合自己,以及遷移方案。
2. 技術(shù)選型分析與建議,因需施策
鏡舟科技基于過去在湖倉領(lǐng)域的實(shí)踐經(jīng)驗(yàn),梳理了不同業(yè)務(wù)需求下的技術(shù)選型方向,供企業(yè)參考:
注重實(shí)時(shí)分析
有此類場(chǎng)景需求的企業(yè),可以優(yōu)先關(guān)注 StarRocks+Paimon 的組合架構(gòu),這種方案不僅能夠滿足秒級(jí)查詢需求,還能通過流批一體化處理提供更實(shí)時(shí)的數(shù)據(jù)洞察。
以餓了么為例,餓了么從離線數(shù)倉 + 實(shí)時(shí)的 Lamda 架構(gòu),升級(jí)到 Flink + Paimon + StarRocks Lakehouse 方案,支撐實(shí)時(shí)交易補(bǔ)貼自助分析、以及客戶滿意度服務(wù)大屏等場(chǎng)景。相比實(shí)時(shí)數(shù)倉,在增加 15% 查詢延時(shí)下,減少約 90%的存儲(chǔ)成本,減少約 50% Flink 計(jì)算開銷。
注重降本增效
以降本增效為主要目標(biāo)的企業(yè),選型時(shí)可以考慮存算分離架構(gòu)配合智能緩存策略,成本優(yōu)勢(shì)顯著,且性能接近存算一體。通過彈性的資源調(diào)度和完善的數(shù)據(jù)生命周期管理,企業(yè)可以在滿足實(shí)時(shí)場(chǎng)景需求、保證性能的同時(shí)大幅降低運(yùn)營(yíng)成本。
注重 AI 應(yīng)用拓展
開放湖格式(如 Iceberg)在這一場(chǎng)景下具備一定優(yōu)勢(shì),它能夠支持多引擎訪問,滿足不同 AI 訓(xùn)練場(chǎng)景的數(shù)據(jù)需求,同時(shí)通過統(tǒng)一的數(shù)據(jù)管理降低存儲(chǔ)成本,這也解釋了為什么越來越多的互聯(lián)網(wǎng)企業(yè)開始將 AI 相關(guān)的數(shù)據(jù)遷移到湖倉架構(gòu)。
湖倉架構(gòu)下的數(shù)據(jù)平臺(tái)理想實(shí)踐:小紅書
架構(gòu)升級(jí)不僅需要技術(shù)選型,更需要深入理解業(yè)務(wù)需求,并在實(shí)踐中不斷優(yōu)化和調(diào)整。
小紅書作為國(guó)內(nèi)領(lǐng)先的互聯(lián)網(wǎng)企業(yè),通過采用 StarRocks + Iceberg 的湖倉架構(gòu),實(shí)現(xiàn)了顯著的技術(shù)突破:
查詢性能:P90 查詢響應(yīng)時(shí)間提升 3 倍,穩(wěn)定在 10 秒以內(nèi)
存儲(chǔ)效率:相比原 ClickHouse 架構(gòu)節(jié)省 50% 存儲(chǔ)空間
數(shù)據(jù)治理:引入智能排序鍵選擇機(jī)制,持續(xù)優(yōu)化查詢效率
架構(gòu)靈活性:支持多種 Join 策略,提升數(shù)據(jù)自助分析能力
通過一系列創(chuàng)新性的技術(shù)方案,包括實(shí)現(xiàn) DataCache 本地緩存、引入 Z-Order 智能排序、支持靈活的 Join 策略等,將 P90 查詢響應(yīng)時(shí)間提升了 3 倍。同時(shí),通過數(shù)據(jù)跳過(Data Skipping)機(jī)制的優(yōu)化,他們?cè)诖鎯?chǔ)效率上也取得了突破性進(jìn)展,相比原架構(gòu)節(jié)省了 50%的存儲(chǔ)空間。
5.?結(jié)語
在數(shù)據(jù)要素價(jià)值化與 AI 爆發(fā)的雙重驅(qū)動(dòng)下,湖倉一體(Lakehouse)已從技術(shù)概念演進(jìn)為支撐企業(yè)數(shù)字化轉(zhuǎn)型的核心底座。建議企業(yè)關(guān)注三個(gè)重點(diǎn)方向:
1. 建立面向開放表格式的數(shù)據(jù)治理體系,通過 Iceberg/Hudi/Paimon/Delta?Lake?等標(biāo)準(zhǔn)接口實(shí)現(xiàn)跨平臺(tái)數(shù)據(jù)引用;
2. 將實(shí)時(shí)湖倉能力建設(shè)納入戰(zhàn)略優(yōu)先級(jí),借助 StarRocks 等實(shí)時(shí)引擎釋放流式數(shù)據(jù)價(jià)值;
3. 在 AI 基礎(chǔ)設(shè)施規(guī)劃中,預(yù)留非結(jié)構(gòu)化數(shù)據(jù)處理能力,構(gòu)建支持多模態(tài)數(shù)據(jù)應(yīng)用的未來架構(gòu)。
作為開源項(xiàng)目 StarRocks 的主要貢獻(xiàn)者,鏡舟科技也憑借對(duì)其深度優(yōu)化和全棧技術(shù)整合能力,將 StarRocks 的高性能 OLAP 引擎與現(xiàn)代湖倉架構(gòu)相結(jié)合,助力企業(yè)以低成本、高 ROI 投入湖倉浪潮。
(推廣)