IT小白向大數(shù)據(jù)領(lǐng)域邁進(jìn)
掌握實(shí)用技能
增長(zhǎng)經(jīng)驗(yàn)
搭建完善的項(xiàng)目
接觸廣泛技術(shù)面
學(xué)習(xí)前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎(chǔ)框架
全面了解新能源車(chē)企的數(shù)據(jù)分析流程
充分熟悉汽車(chē)傳感器分析的離線(xiàn)指標(biāo)體系
熟練掌握數(shù)據(jù)倉(cāng)庫(kù)技術(shù)框架的協(xié)同應(yīng)用
熟練應(yīng)用數(shù)倉(cāng)建模理論
項(xiàng)目包含數(shù)十個(gè) Shell 腳本、多個(gè)傳感器日志數(shù)據(jù)和數(shù)十個(gè)統(tǒng)計(jì)指標(biāo)。
深入研究各大企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)建模體系,并以阿里巴巴的數(shù)據(jù)倉(cāng)庫(kù)建模理論作為基準(zhǔn),構(gòu)建實(shí)用、貼近實(shí)際生產(chǎn)且具有廣泛應(yīng)用性的數(shù)據(jù)倉(cāng)庫(kù)建模體系。
根據(jù)建模理論,提出強(qiáng)實(shí)踐性的數(shù)據(jù)倉(cāng)庫(kù)搭建理論過(guò)程,包括數(shù)據(jù)調(diào)研、明確數(shù)據(jù)域、構(gòu)建業(yè)務(wù)總線(xiàn)矩陣、維度模型設(shè)計(jì)、明確統(tǒng)計(jì)指標(biāo)、匯總模型設(shè)計(jì)和分層構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)。
參考大型企業(yè)的數(shù)據(jù)倉(cāng)庫(kù)分層體系,合理劃分?jǐn)?shù)據(jù)層次,降低數(shù)據(jù)耦合度,提高數(shù)據(jù)分析效率并降低數(shù)據(jù)計(jì)算成本。
采用實(shí)戰(zhàn)式數(shù)據(jù)模擬策略,生成全面的原始數(shù)據(jù),并針對(duì)實(shí)際數(shù)據(jù)進(jìn)行數(shù)據(jù)采集。
使用 Flume 收集傳感器日志數(shù)據(jù),深入研究適配組件,提供詳細(xì)的實(shí)戰(zhàn)配置文件,自定義采集組件,解決時(shí)間戳漂移和優(yōu)化小文件存儲(chǔ)問(wèn)題,分享更多實(shí)戰(zhàn)經(jīng)驗(yàn)。
采用當(dāng)前流行的數(shù)據(jù)采集框架 DataX 收集業(yè)務(wù)數(shù)據(jù),提供詳細(xì)的配置文件和腳本解讀,掌握更多腳本編寫(xiě)技巧。
真實(shí)數(shù)據(jù)ETL實(shí)踐,學(xué)會(huì)對(duì)原始數(shù)據(jù)進(jìn)行清洗、脫敏、數(shù)據(jù)分類(lèi)和整合。
基于業(yè)務(wù)總線(xiàn)矩陣,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的DWD層,完成事務(wù)型事實(shí)表、周期型事實(shí)表和累積快照事實(shí)表的搭建與數(shù)據(jù)裝載。
通過(guò)Hive窗口的靈活運(yùn)用從日志數(shù)據(jù)中提取關(guān)鍵業(yè)務(wù)過(guò)程,構(gòu)建相應(yīng)的事實(shí)表,為下游分析做準(zhǔn)備。
為連續(xù)型度量構(gòu)建相應(yīng)的周期快照事實(shí)表,為下游統(tǒng)計(jì)提供便利。
根據(jù)業(yè)務(wù)總線(xiàn)矩陣,構(gòu)建數(shù)據(jù)倉(cāng)庫(kù)的 DIM 層,并針對(duì)緩慢變化維度構(gòu)建拉鏈表。
依據(jù)指標(biāo)體系分析,構(gòu)建 DWS 層,整合相同粒度、統(tǒng)計(jì)周期的派生指標(biāo)為寬表,提高計(jì)算結(jié)果復(fù)用性。
基于多個(gè)主題的指標(biāo),分析統(tǒng)計(jì)數(shù)十個(gè)指標(biāo),構(gòu)建 ADS 層。
安裝部署業(yè)內(nèi)主流的工作流調(diào)度系統(tǒng) DolphinScheduler,實(shí)現(xiàn)數(shù)據(jù)倉(cāng)庫(kù)搭建全流程定時(shí)自動(dòng)化調(diào)度及故障自動(dòng)郵件告警。
使用 SuperSet 對(duì)調(diào)度采集至 RDBMS 數(shù)據(jù)庫(kù)中的結(jié)果數(shù)據(jù)進(jìn)行多圖表、儀表盤(pán)可視化展示。
采用 Echarts 結(jié)合 SpringBoot 對(duì)結(jié)果數(shù)據(jù)進(jìn)行可視化展示,充分掌握數(shù)據(jù)展示接口編寫(xiě)流程。
針對(duì)企業(yè)級(jí)數(shù)據(jù)倉(cāng)庫(kù)的海量數(shù)據(jù)計(jì)算業(yè)務(wù),基于對(duì)任務(wù)執(zhí)行計(jì)劃等的分析全面優(yōu)化 CPU 配置、內(nèi)存分配等,提升任務(wù)提交性能。