渴望技術(shù)轉(zhuǎn)型
轉(zhuǎn)換行業(yè)的IT小白
有一定技術(shù)基礎(chǔ)
希望增長(zhǎng)經(jīng)驗(yàn)
接觸更廣技術(shù)面
從事一定年限技術(shù)開發(fā)
目標(biāo)突破自我
學(xué)習(xí)大數(shù)據(jù)技術(shù)
突破職業(yè)瓶頸
Linux、Hadoop
Java、Hive、Flume
Kafka等基礎(chǔ)框架
充分了解在線教育行業(yè)的業(yè)務(wù)數(shù)據(jù)體系熟悉在線教育行業(yè)的離線指標(biāo)體系熟悉在線教育行業(yè)的實(shí)時(shí)指標(biāo)體系
數(shù)據(jù)采集策略數(shù)據(jù)建模理論了解認(rèn)識(shí)多種數(shù)據(jù)倉(cāng)庫(kù)技術(shù)模塊充分掌握多種大數(shù)據(jù)技術(shù)框架的協(xié)調(diào)應(yīng)用
數(shù)據(jù)清洗思路離線數(shù)據(jù)分析經(jīng)驗(yàn)實(shí)時(shí)數(shù)據(jù)分析經(jīng)驗(yàn)定時(shí)調(diào)度
數(shù)據(jù)可視化接口編寫性能優(yōu)化集群運(yùn)維任務(wù)部署
項(xiàng)目涵蓋40多個(gè)Shell腳本,6大類用戶行為日志數(shù)據(jù),25張業(yè)務(wù)數(shù)據(jù)原始表格,100多張?jiān)诰€教育大數(shù)據(jù)表格,100多個(gè)在線教育統(tǒng)計(jì)指標(biāo);
充分調(diào)研各大廠數(shù)倉(cāng)建模體系,以阿里巴巴的數(shù)據(jù)倉(cāng)庫(kù)建模理論為最終藍(lán)本,搭建實(shí)用且貼近生產(chǎn)實(shí)際的數(shù)倉(cāng)建模體系;
應(yīng)用建模理論,提出可實(shí)踐性強(qiáng)的數(shù)倉(cāng)搭建理論過程,數(shù)據(jù)調(diào)研→明確數(shù)據(jù)域→構(gòu)建業(yè)務(wù)總線矩陣→維度模型設(shè)計(jì)→明確統(tǒng)計(jì)指標(biāo)→匯總模型設(shè)計(jì)→分層構(gòu)建數(shù)倉(cāng);
多方參考大廠數(shù)倉(cāng)分層體系,合理數(shù)據(jù)分層,降低數(shù)據(jù)耦合度,提高數(shù)據(jù)分析效率,降低數(shù)據(jù)計(jì)算成本。
實(shí)戰(zhàn)式數(shù)據(jù)模擬策略,模擬生成全面的原始數(shù)據(jù),針對(duì)真實(shí)數(shù)據(jù)執(zhí)行數(shù)據(jù)采集工作;
采用Flume采集用戶行為日志數(shù)據(jù),適配組件全面調(diào)研,給出詳細(xì)貼近實(shí)戰(zhàn)的配置文件,自定義采集組件,解決時(shí)間戳零點(diǎn)漂移,優(yōu)化小文件存儲(chǔ)帶來問題,提供更多實(shí)戰(zhàn)經(jīng)驗(yàn);
采用流行數(shù)據(jù)采集框架DataX采集業(yè)務(wù)數(shù)據(jù),提供詳細(xì)配置文件及腳本解讀,掌握更多腳本編寫技巧;
采用Maxwell監(jiān)控業(yè)務(wù)數(shù)據(jù)變動(dòng)情況,做到更實(shí)時(shí)更準(zhǔn)確的變動(dòng)數(shù)據(jù)采集,靈活使用Maxwell框架,全面掌握使用技巧;
真實(shí)數(shù)據(jù)ETL實(shí)操,掌握如何對(duì)原始數(shù)據(jù)進(jìn)行清洗、脫敏、數(shù)據(jù)分類、整合;
基于業(yè)務(wù)總線矩陣構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)DWD層,完成事務(wù)型事實(shí)表、周期型事實(shí)表、累積快照事實(shí)表搭建和數(shù)據(jù)裝載;
基于業(yè)務(wù)總線矩陣構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)DIM層,針對(duì)緩慢變化維度,構(gòu)建拉鏈表;
基于指標(biāo)體系分析構(gòu)建DWS層,將相同粒度、統(tǒng)計(jì)周期的派生指標(biāo)整合統(tǒng)計(jì)為寬表,提高計(jì)算結(jié)果復(fù)用性;
安裝部署受各大廠歡迎的DolphinScheduler工作流調(diào)度系統(tǒng),實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)搭建全流程定時(shí)自動(dòng)化調(diào)度以及故障自動(dòng)郵件告警;
采用SuperSet對(duì)調(diào)度采集至RDBMS數(shù)據(jù)庫(kù)中的結(jié)果數(shù)據(jù)進(jìn)行多圖表、儀表盤可視化展示;
采用Echarts,結(jié)合SpringBoot對(duì)結(jié)果數(shù)據(jù)進(jìn)行可視化展示,充分掌握數(shù)據(jù)展示接口編寫流程;
基于企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的海量數(shù)據(jù)計(jì)算業(yè)務(wù),對(duì)CPU配置、內(nèi)存分配、任務(wù)提交、任務(wù)執(zhí)行計(jì)劃等方面進(jìn)行全面的性能調(diào)優(yōu);
項(xiàng)目涵蓋幾十個(gè)Flink實(shí)時(shí)計(jì)算任務(wù)、幾十個(gè)實(shí)時(shí)計(jì)算指標(biāo)、上萬行實(shí)時(shí)開發(fā)代碼。
參照大廠實(shí)際數(shù)倉(cāng)建模理論,分層構(gòu)建實(shí)時(shí)數(shù)據(jù)倉(cāng)庫(kù),ODS層、DIM層、DWD層、DWS層、ADS層,分層計(jì)算,數(shù)據(jù)分流,提高效率,降低耦合度;
使用HBase+Phoenix的組合存儲(chǔ)DIM層維度數(shù)據(jù),大大提高響應(yīng)速度;
使用Flink CDC結(jié)合MySQL動(dòng)態(tài)配置表,動(dòng)態(tài)獲取維度表配置,實(shí)現(xiàn)數(shù)據(jù)動(dòng)態(tài)自動(dòng)分流;
采用Redis進(jìn)行旁路緩存,提高響應(yīng)速度,并使用Flink提供的異步IO進(jìn)行優(yōu)化;
提供針對(duì)多種場(chǎng)景的雙流Join解決方案,深入分析各種解決方案的優(yōu)劣,培養(yǎng)問題解決能力;
靈活運(yùn)用Flink的狀態(tài)編程實(shí)現(xiàn)數(shù)據(jù)去重,計(jì)算去重類指標(biāo);
對(duì)所有指標(biāo)計(jì)算需求提供基于Table API和Flink SQL的兩種解決方案,滿足不同企業(yè)開發(fā)需求,培養(yǎng)多角度開發(fā)能力;
使用FlinkCEP技術(shù)實(shí)現(xiàn)不同用戶行為模式的識(shí)別,完成用戶跳出行為的篩選;
采用Doris存儲(chǔ)最終寬表數(shù)據(jù),大大提高數(shù)據(jù)查詢效率,并為用戶提供即席查詢、可視化報(bào)表展示的多樣可能性;
采用SpringBoot編寫數(shù)據(jù)展示接口對(duì)接SugarBI實(shí)現(xiàn)數(shù)據(jù)可視化大屏展示,熟練掌握數(shù)據(jù)展示接口的編寫流程
詳細(xì)講解生產(chǎn)環(huán)境中會(huì)產(chǎn)生的反壓?jiǎn)栴},對(duì)反壓原因、反壓定位、反壓處理進(jìn)行詳細(xì)分解;
多角度分析大數(shù)據(jù)分析中常見的數(shù)據(jù)傾斜問題,提供詳盡的問題定位策略和多種解決方案;
? 詳細(xì)講解生產(chǎn)環(huán)境中常見的故障:非法配置異常、Java 堆空間異常、直接緩沖存儲(chǔ)器異常、元空間異常、網(wǎng)絡(luò)緩沖區(qū)數(shù)量不足、超出容器內(nèi)存異常、Checkpoint 失敗、Checkpoint 慢、Kafka動(dòng)態(tài)發(fā)現(xiàn)分區(qū)、Watermark不更新、依賴沖突、超出文件描述符限制、臟數(shù)據(jù)導(dǎo)致數(shù)據(jù)轉(zhuǎn)發(fā)失敗等,令學(xué)員在短時(shí)間內(nèi)掌握生產(chǎn)環(huán)境中常見到、難解決的開發(fā)難題,迅速增長(zhǎng)經(jīng)驗(yàn),提升能力。