中文字幕欧美日韩|日韩性色一区二区三区|精品久久久久久久久久岛国|一区二区国产盗摄精品

    <td id="h1kkc"><tr id="h1kkc"></tr></td><noscript id="h1kkc"><tbody id="h1kkc"></tbody></noscript>
    <rp id="h1kkc"></rp>
    首頁 > 傳媒 > 關鍵詞  > 數據分析技術最新資訊  > 正文

    StarRocks 3.0引領Lakehouse湖倉架構,實現One data, all analytics業(yè)務價值

    2024-06-24 14:43 · 稿源: 站長之家用戶

    大數據時代數據分析技術不斷演進,從數據倉庫到數據湖,再到數據湖倉,企業(yè)如何選擇合適的數據分析架構?本文將深入探討數據湖倉(Lakehouse)的概念,以及StarRocks3.0如何引領這一創(chuàng)新架構,實現數據的有效分析與決策支持。

    一、數據倉庫的演進與挑戰(zhàn)

    數據倉庫自1980年代以來一直是企業(yè)數據分析的核心。關系型數據庫、日志文件等數據源的數據經過 ETL 處理,統(tǒng)一存儲到數據倉庫,用于服務 BI 報表、數據挖掘等分析場景。

    數據倉庫在數據質量、事務處理、查詢性能、數據治理等方面有明顯的優(yōu)勢,但隨著數據分析的需求越來越大,數據倉庫的方案也面臨一些挑戰(zhàn)。

    1.數據多樣化:除了結構化的數據,半結構化、非結構化的數據越來越多。

    2.數據孤島問題:數據倉庫面向主題管理,導致數據分散形成孤島,難以形成全局統(tǒng)一的數據分析。

    3.成本與擴展性:大數據量增長帶來數據存儲成本與橫向擴展的問題。

    4.高 級數據分析支持:數據倉庫能很好的支持 BI 相關應用,但隨著 AI 的發(fā)展,AI 應用與數據倉庫的數據交互效率不高,制約了 AI 應用的發(fā)展。

    二、數據湖的創(chuàng)新與發(fā)展

    2010年,數據湖概念的提出為企業(yè)提供了一種新的數據存儲與分析方式。

    如果把數據倉庫/集市類比為瓶裝水,數據湖則是以更加原生態(tài)方式存儲數據的大池子。數據湖的核心優(yōu)勢是統(tǒng)一與開放,數據基于對象存儲、HDFS 等系統(tǒng)實現低成本、可擴展的 數據存儲,并作為企業(yè)數據的 Single Source of Truth(SSOT);同時數據的數據格式是開放的,便于不同的應用靈活訪問。

    數據湖解決了數據成本與擴展性、數據多樣性、數據孤島等問題,并同時滿足 BI 與 AI 應用對數據分析的訴求;但數據湖在數據分析性能、數據管理與治理方面仍然存在較大的挑戰(zhàn)。

    三、湖倉分層架構的融合與應用

    業(yè)界探索數據倉庫與數據湖的融合,湖倉分層架構應運而生。

    數據倉庫與數據湖各有長處,業(yè)界持續(xù)在探索兩者如何更好的融合,在過去幾年湖倉分層的架構的到廣泛的應用。企業(yè)數據統(tǒng)一寫到數據湖,作為統(tǒng)一存儲,湖上開放的數據可以服務 AI、ML 等應用場景;數據湖上部分數據經過 ETL 處理導入到數據倉庫服務 BI 等 OLAP 分析場景。

    湖倉分層架構融合了數據湖與數據倉庫的優(yōu)勢,但面臨一些問題與挑戰(zhàn)。部分數據從數據湖導入到數據倉庫,數據鏈路的增長影響數據分析的時效性,兩份數據也會帶來冗余存儲、數據口徑不一致的問題;另外,對于數據倉庫里加工產生的數據,仍然很難有效的服務 AI 場景。

    四、數據湖倉的興起

    數據湖倉作為新一代數據分析架構,兼具數據倉庫與數據湖的優(yōu)勢。

    新興的數據倉庫如 Snowflake、Redshift、BigQuery 均采用云原生存算分離架構演進,并且支持直接查詢開放數據湖的能力。數據湖在事務支持、查詢性能等方面的能力不如數據倉庫,近年來隨著新興數據湖格式如 Iceberg、Hudi、Delta Lake 等的發(fā)展,事務支持能力得到提升。

    另外,在查詢性能上,通過不斷優(yōu)化數據湖上的數據分布以及增加緩存機制等技術的演進,數據湖上的數據分析性能已經大幅提升,達到接近數據倉庫的水平。

    從數據湖和數據倉庫的演進來看,兩者在不斷的融合,并逐步往數據湖倉的方向演進,兼具數據湖與數據倉庫的優(yōu)勢。數據湖倉作為一種新的數據分析架構,用戶采用湖倉就能方便將數據源和數據應用連接在一起。

    數據湖倉兼具數據倉庫與數據湖的優(yōu)勢,湖倉具備開放統(tǒng)一的數據存儲能力,并基于統(tǒng)一存儲直接服務批處理、流處理、交互式分析等多種分析場景,實現湖倉 One data,all analytics 的業(yè)務價值。

    五、StarRocks??3.0:湖倉技術創(chuàng)新

    StarRocks2.0版本憑借其優(yōu)異的查詢性能在業(yè)界得到廣泛應用,很多用戶采用湖倉分層架構,并將 Hive、Iceberg 等數據湖里的數據部分導入到 StarRocks 服務 OLAP 分析場景。

    StarRocks3.0的存算分離架構、極速湖倉分析和物化視圖技術,為用戶提供了有效、靈活的數據分析解決方案。

    特性1:存算分離架構

    StarRocks 存算分離2023年4月正式發(fā)布,目前已有上百家用戶上線存算分離架構。與存算一體架構相比,保持了原有簡潔的架構;同時極大的降低數據存儲成本,提升計算的彈性能力。

    訪問遠端對象存儲的延時相比本地存儲有數量級的提升,StarRocks 通過 Data Cache 機制提升數據訪問性能,確保熱數據與存算一體架構接近。根據實際測試,存算分離緩存命中的情況與存算一體架構相比性能完全相同;在完全冷查詢時,性能大概是存算一體的30-50%。

    在存算分離架構下,StarRocks 可以方便的支持 Multi-warehouse 的能力;多個 Warehouse 共享一份數據,不同 Warehouse 應用在不同的 Workload,計算資源可以進行物理隔離,并且可以按需獨立彈性伸縮。

    特性2:極速湖倉分析

    StarRocks3.0提供統(tǒng)一 Catalog 管理的能力,用戶不僅能有效分析導入到 StarRocks 的數據,同時也支持直接分析開放數據湖 Apache Hive、Apache Iceberg、Apache Hudi、Apache Paimon 的數據,分析性能相比業(yè)界同類產品快3-5倍。

    StarRocks 在查詢層 CBO、向量化、Runtime filter 等技術可以無縫應用到開放數據湖分析,但湖上數據分析還面臨一些其他挑戰(zhàn)。湖上數據一般以原始格式存儲,數據組織上沒有針對查詢優(yōu)化,同時訪問遠端對象存儲/HDFS 的延時相比本地盤更高。StarRocks 通過 I/O 合并、延遲物化、Data cache 等一系列關鍵技術加速湖上數據分析。另外,為了讓用戶平滑的獲得 StarRocks 極速湖倉分析性能,StarRocks 實現了 Trino 方言的兼容,用戶可以采用 StarRocks 無縫直替 Trino。

    特性3:物化視圖

    StarRocks 物化視圖提供了一種從預建模到后建模的方法,大大縮短業(yè)務建模以及上線時間。業(yè)務可以直接查詢原始數據,借助 StarRocks 極 致的查詢性能,已經能滿足絕大部分場景的需求;如果直接查詢性能不滿足,則可以按需構建物化視圖來加速查詢,StarRocks 支持物化視圖的透明查詢改寫,實現業(yè)務無感的情況下實現查詢加速。

    湖倉應用:基于?StarRocks?構建?Lakehouse

    基于 StarRocks,用戶可以有效的構建 Lakehouse 數據分析架構,用戶可以選擇 StarRocks 內表或開放數據湖 Apache Iceberg、Apache Hudi、Apache Paimon 做為統(tǒng)一的數據存儲,基于 StarRocks 服務BI報表、Ad-hoc 等多樣化的分析場景,對于業(yè)務性能要求高的查詢,通過物化視圖技術實現按需透明加速。

    六、互聯(lián)網用戶的湖倉最 佳實踐案例

    本段落分析了騰訊微信、攜程旅行等企業(yè)如何利用StarRocks實現數據的準實時分析和查詢性能的顯著提升。

    1.騰訊微信:數據寫入到 Iceberg,基于StarRocks實現準實時分析,數據新鮮度從小時/天到分鐘即,查詢性能提升3-6倍。

    2.攜程旅行:數據統(tǒng)一存儲在Hive,通過 StarRocks直接服務BI報表,交互式分析。重點業(yè)務場景按需創(chuàng)建物化視圖查詢加速,查詢性能提升10+倍

    結語

    Lakehouse 兼具數據倉庫與數據湖的優(yōu)勢,是下一代數據分析架構的演進趨勢;StarRocks 是構建 Lakehouse 的佳選,已在微信、小紅書、攜程、平安銀行等數十個大型企業(yè)落地實踐,幫助企業(yè)實現 One data、all analytics 的業(yè)務價值。

    推廣

    特別聲明:以上內容(如有圖片或視頻亦包括在內)均為站長傳媒平臺用戶上傳并發(fā)布,本平臺僅提供信息存儲服務,對本頁面內容所引致的錯誤、不確或遺漏,概不負任何法律責任,相關信息僅供參考。站長之家將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。任何單位或個人認為本頁面內容可能涉嫌侵犯其知識產權或存在不實內容時,可及時向站長之家提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明(點擊查看反饋聯(lián)系地址)。本網站在收到上述法律文件后,將會依法依規(guī)核實信息,溝通刪除相關內容或斷開相關鏈接。

    • 相關推薦
    • 鏡舟科技基于 StarRocks 構建湖倉一體架構,支撐某大型電網企業(yè)國產化升級

      某大型電網企業(yè)聯(lián)合鏡舟科技與騰訊云,基于開源分析型數據庫StarRocks及騰訊TBDS大數據平臺,構建電力行業(yè)國產化湖倉一體架構。該項目實現PB級電力數據統(tǒng)一管理,解決數據鏈路復雜、資源瓶頸、高并發(fā)查詢等五大挑戰(zhàn),查詢性能提升近8600倍。方案采用分層架構:Flink實時數據處理層、TBDS數據湖存儲層、StarRocks分析加速層及可視化應用層,完成全棧國產化適配驗證,支持業(yè)務平滑遷移。通過統(tǒng)一元數據目錄和實時入湖機制,形成完整數據處理閉環(huán),為能源行業(yè)核心系統(tǒng)國產化升級提供可復制的技術范本。

    • 首位LOL世界冠軍上單去世 :年僅36歲 是Fnatic戰(zhàn)隊前職業(yè)選手

      Fnatic戰(zhàn)隊前職業(yè)選手Maciej "Shushei" Ratuszniak因癌癥去世,享年37歲。這位波蘭籍電競選手是《英雄聯(lián)盟》S1全球總決賽冠軍,曾帶領Fnatic戰(zhàn)隊在2011年DreamHack賽事中奪冠。Shushei以創(chuàng)新的游戲風格聞名,開創(chuàng)了"AP酒桶古拉加斯"打法,其研發(fā)的"傳送支援"戰(zhàn)術后來被拳頭公司采納,并成為S1冠軍皮膚的設計靈感。作為電競先驅,他激勵了無數玩家,被官方譽為"游戲傳奇"。前隊友xPeke等紛紛表示哀悼,稱其戰(zhàn)術創(chuàng)新奠定了Fnatic的黃金時代。整個電競圈對其離世深表惋惜。

    • MCP協(xié)議和Function Calling 、 AI Agents的區(qū)別是什么?MCP優(yōu)勢有哪些

      MCP、FunctionCalling和AIAgents是三種重要的技術手段,它們在實現AI模型與外部系統(tǒng)交互方面各有特點。本文將詳細對比這三種技術,并深入探討MCP的多項顯著優(yōu)勢。隨著MCP技術的不斷發(fā)展,我們有理由相信,它將在未來的AI領域發(fā)揮越來越重要的作用。

    • 數勢科技SwiftAgent 3.0發(fā)布 從智能分析到智能決策

      在全球數字化轉型浪潮中,企業(yè)數據價值挖掘的瓶頸日益凸顯:數據口徑混亂、分析門檻高、決策鏈路長等問題導致大量數據資產“沉睡”。數勢科技于今日正式發(fā)布SwiftAgent 3.0,基于DeepSeek R1/V3 大模型與行業(yè)領先的智能引擎,重構企業(yè)數據分析與決策范式,實現從“數據可視化”到“決策自動化”的跨越式升級。企業(yè)數據分析的三大核心痛點:數據孤島與語義鴻溝跨部門數據

    • Meta說他們的 Llama 4 偏見少了!但,“虛假對等”才是真偏見

      Meta公司稱,相比之前的版本,他們最新的人工智能模型Llama4的政治偏見更少了。其中一部分便是通過允許該模型回答更多帶有政治爭議性的問題來實現這一點的。下次當你使用Meta的AI產品時,它可能會為“通過服用馬用鎮(zhèn)靜劑來治療新冠病毒”這種觀點說好話!

    • 易鑫宣布年內推出汽車金融行業(yè)首個Agentic大模型

      4 月15日,易鑫(02858.HK)在香港舉行的“2 025 世界互聯(lián)網大會亞太峰會”上宣布,將于年內推出汽車金融行業(yè)首個Agentic大模型。該模型通過自主決策智能體深度結合汽車金融場景需求,有望從根本上解決行業(yè)中長期存在的效率瓶頸和痛點。易鑫首席AI科學家、高級副總裁張磊現場演講易鑫首席AI科學家、高級副總裁張磊在大會“人工智能大模型論壇”做主題演講時,發(fā)布了這?

    • OpenAI高管計劃收購谷歌Chrome:對ChatGPT搜索至關重要

      OpenAI高管Nick Turley在谷歌反壟斷庭審中透露,若法院裁定谷歌必須出售Chrome瀏覽器以恢復搜索市場競爭,OpenAI有意收購。庭審揭露OpenAI曾主動尋求與谷歌合作獲取搜索技術支持,但遭拒絕。目前ChatGPT仍依賴微軟必應搜索技術。Turley承認搜索功能對ChatGPT至關重要,但實現80%查詢使用自有搜索技術仍需數年時間。他支持司法部要求谷歌共享搜索數據的提議,認為這將加速ChatGPT技術改進。這場訴訟揭示了AI領域激烈競爭的冰山一角,檢方擔憂谷歌搜索壟斷可能延伸至AI領域。

    • Intel Panther Lake首發(fā)版本曝光!其它等明年

      快科技5月2日消息,根據最新消息,今年底英特爾將推出PantherLake處理器的首個SKU4P 8E 0LPE 4Xe版本,其他配置版本則要等到2026年初才會發(fā)布。4P 8E配置版本與此前傳聞的4P 8E 4LPE 12Xe版本有所不同,該版本版本不包含LPE核顯,搭配的是4個Xe3GPU核心。該版本TDP為45W,明顯高于LunarLake的17W至28W,綜合來看,這一配置顯然更適合游戲筆記本,因為在這種設備中,集成顯卡的重要性相對較低。目前PantherLake已曝光的SKU共有四個,具體如下:4P-Cores 8E-Cores 0LP-ECores 4Xe3Cores(45W)4P-Cores 8E-Cores 4LP-ECores 12Xe3Cores(25W)4P

    • OpenAI沒說的秘密,Meta全揭了?華人一作GPT-4o同款技術,爆打擴散王者

      Meta、西北大學和新加坡國立大學的研究團隊提出TokenShuffle技術,顯著提升了自回歸模型生成高分辨率圖像的能力。該技術通過局部窗口內的token合并與解構操作,將視覺token數量減少為平方分之一,首次實現2048×2048分辨率圖像生成?;?7億參數的Llama模型,TokenShuffle在GenAI基準測試中獲得0.77綜合得分,超越同類自回歸模型0.18分,在人類評估中展現出更好的文本對齊和視覺質量。該方法無需修改Transformer架構,通過三階段訓練策略(512→1024→2048分辨率)逐步提升生成能力,為多模態(tài)大語言模型的高效高保真圖像生成開辟了新路徑。

    • Antropic加入“AI語音助手”賽道,能追上OpenAI、谷歌們嗎?

      隨著 AI 語音產品的出現,人們對其模仿他人說話風格的擔憂也在加劇……

    熱文

    • 3 天
    • 7天