湖倉一體項(xiàng)目

本項(xiàng)目以Apache Hudi為項(xiàng)目核心框架，基于海量電商行業(yè)的真實(shí)用戶行為日志數(shù)據(jù)和業(yè)務(wù)數(shù)據(jù)，構(gòu)建了一套完整可實(shí)施、可落地的湖倉一體系統(tǒng)。項(xiàng)目以Hudi作為核心數(shù)據(jù)組織框架、Flink作為數(shù)據(jù)計(jì)算引擎、HiveCatalog作為元數(shù)據(jù)持久化介質(zhì)，并沿用了數(shù)據(jù)倉庫建模理論提供的合理的數(shù)據(jù)分層結(jié)構(gòu)，進(jìn)行了完整的數(shù)據(jù)調(diào)研、指標(biāo)體系構(gòu)建流程。
湖倉一體項(xiàng)目旨在為企業(yè)提供一種高效、可擴(kuò)展、易維護(hù)的數(shù)據(jù)處理方案，可以滿足多種數(shù)據(jù)場景的需求。其摒棄了繁復(fù)的緩慢變化維度處理方案、避免了全量與增量表的分類構(gòu)建，為數(shù)據(jù)倉庫提供了極低延遲，并自動解決了小文件問題。
通過學(xué)習(xí)本項(xiàng)目，可以幫助學(xué)員對大數(shù)據(jù)的組織、存儲、分析處理等操作有更透徹的認(rèn)知，領(lǐng)略大數(shù)據(jù)前沿技術(shù)，掌控大數(shù)據(jù)的技術(shù)脈搏。

適學(xué)人群

技術(shù)轉(zhuǎn)型者

IT小白向大數(shù)據(jù)領(lǐng)域邁進(jìn)
掌握實(shí)用技能
高校畢業(yè)生

增長經(jīng)驗(yàn)
搭建完善的項(xiàng)目
接觸廣泛技術(shù)面
IT從業(yè)者

學(xué)習(xí)前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
要求課程基礎(chǔ)

Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎(chǔ)框架

學(xué)習(xí)收獲

熟練使用Hudi

充分掌握數(shù)據(jù)湖概念與構(gòu)建流程

熟練應(yīng)用數(shù)倉建模理論

熟練掌握Hudi與其他大數(shù)據(jù)框架的集成

技術(shù)點(diǎn)

采用當(dāng)前大廠非常流行的Hudi和Flink框架，實(shí)現(xiàn)湖倉一體架構(gòu)；
多方參考大廠數(shù)倉分層體系，合理數(shù)據(jù)分層，降低數(shù)據(jù)耦合度，提高數(shù)據(jù)分析效率，降低數(shù)據(jù)計(jì)算成本。
采用Flink CDC監(jiān)控業(yè)務(wù)數(shù)據(jù)變動情況，做到更實(shí)時(shí)更準(zhǔn)確的變動數(shù)據(jù)采集。
采用Flume采集用戶行為日志數(shù)據(jù)，適配組件全面調(diào)研，給出詳細(xì)貼近實(shí)戰(zhàn)的配置文件，自定義采集組件，解決時(shí)間戳零點(diǎn)漂移，優(yōu)化小文件存儲帶來問題，提供更多實(shí)戰(zhàn)經(jīng)驗(yàn)；
真實(shí)數(shù)據(jù)ETL實(shí)操，掌握如何對原始數(shù)據(jù)進(jìn)行清洗、脫敏、數(shù)據(jù)分類、整合；

使用Hudi集成Hive、Flink，F(xiàn)linkSQL完成分層計(jì)算，HiveCatalog管理元數(shù)據(jù)；
ODS層、DWD層、DIM層、DWS層和ADS層之間采用Flink流式處理，省去了離線數(shù)倉中的調(diào)度環(huán)節(jié)，真正做到湖倉一體。
采用SuperSet對調(diào)度采集至RDBMS數(shù)據(jù)庫中的結(jié)果數(shù)據(jù)進(jìn)行多圖表、儀表盤可視化展示；
分析總結(jié)項(xiàng)目搭建過程中遇到的問題，增加開發(fā)經(jīng)驗(yàn)，提升實(shí)戰(zhàn)問題解決能力。

湖倉一體項(xiàng)目

技術(shù)轉(zhuǎn)型者

高校畢業(yè)生

IT從業(yè)者

要求課程基礎(chǔ)