IT小白向大數(shù)據(jù)領(lǐng)域邁進(jìn)
掌握實(shí)用技能
增長經(jīng)驗(yàn)
搭建完善的項(xiàng)目
接觸廣泛技術(shù)面
學(xué)習(xí)前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎(chǔ)框架
熟練使用Hudi
充分掌握數(shù)據(jù)湖概念與構(gòu)建流程
熟練應(yīng)用數(shù)倉建模理論
熟練掌握Hudi與其他大數(shù)據(jù)框架的集成
采用當(dāng)前大廠非常流行的Hudi和Flink框架,實(shí)現(xiàn)湖倉一體架構(gòu);
多方參考大廠數(shù)倉分層體系,合理數(shù)據(jù)分層,降低數(shù)據(jù)耦合度,提高數(shù)據(jù)分析效率,降低數(shù)據(jù)計(jì)算成本。
采用Flink CDC監(jiān)控業(yè)務(wù)數(shù)據(jù)變動情況,做到更實(shí)時(shí)更準(zhǔn)確的變動數(shù)據(jù)采集。
采用Flume采集用戶行為日志數(shù)據(jù),適配組件全面調(diào)研,給出詳細(xì)貼近實(shí)戰(zhàn)的配置文件,自定義采集組件,解決時(shí)間戳零點(diǎn)漂移,優(yōu)化小文件存儲帶來問題,提供更多實(shí)戰(zhàn)經(jīng)驗(yàn);
真實(shí)數(shù)據(jù)ETL實(shí)操,掌握如何對原始數(shù)據(jù)進(jìn)行清洗、脫敏、數(shù)據(jù)分類、整合;
使用Hudi集成Hive、Flink,F(xiàn)linkSQL完成分層計(jì)算,HiveCatalog管理元數(shù)據(jù);
ODS層、DWD層、DIM層、DWS層和ADS層之間采用Flink流式處理,省去了離線數(shù)倉中的調(diào)度環(huán)節(jié),真正做到湖倉一體。
采用SuperSet對調(diào)度采集至RDBMS數(shù)據(jù)庫中的結(jié)果數(shù)據(jù)進(jìn)行多圖表、儀表盤可視化展示;
分析總結(jié)項(xiàng)目搭建過程中遇到的問題,增加開發(fā)經(jīng)驗(yàn),提升實(shí)戰(zhàn)問題解決能力。