IT小白向大數據領域邁進
掌握實用技能
增長經驗
搭建完善的項目
接觸廣泛技術面
學習前沿技術
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎框架
深入了解保險業(yè)務流程
學會構建保險行業(yè)的數據處理平臺
充分掌握多種大數據技術框架的協(xié)調應用
熟練應用數倉建模理論
該項目涉及數十個Shell腳本、若干業(yè)務數據表格和數十張保險大數據表格,以及幾十個保險業(yè)務統(tǒng)計指標。
基于數倉建模理論,該項目執(zhí)行完整的數倉搭建過程,包括數據調研、明確數據域、構建業(yè)務總線矩陣、設計維度模型、明確統(tǒng)計指標、設計匯總模型以及分層構建數倉。
數倉分層合理化,降低了數據之間的耦合度,提高了數據分析效率,同時也降低了數據計算成本。
該項目采用實戰(zhàn)式數據模擬策略,模擬生成全面的原始數據,并進行了真實數據采集工作。
采用了流行數據采集框架DataX采集業(yè)務數據,并提供詳細的配置文件和腳本解讀,以幫助掌握更多的腳本編寫技巧。
該項目使用Maxwell監(jiān)控業(yè)務數據變動情況,實現(xiàn)了更實時、更準確的數據采集,靈活使用Maxwell框架,全面掌握使用技巧。
基于業(yè)務總線矩陣構建了數據倉庫DWD層,完成了周期型快照事實表和累積型快照事實表的搭建和數據裝載。
基于業(yè)務總線矩陣構建了數據倉庫DIM層。
基于指標體系分析構建了DWS層,將相同粒度、統(tǒng)計周期的派生指標整合統(tǒng)計為寬表,提高計算結果復用性。
安裝部署了廣受歡迎的工作流調度系統(tǒng)DolphinScheduler,實現(xiàn)了數據倉庫搭建全流程的定時自動化調度,同時還可進行故障自動郵件告警。
采用SuperSet對從RDBMS數據庫中調度采集的結果數據進行了多種圖表和儀表盤的可視化展示。
針對企業(yè)級數據倉庫的海量數據計算業(yè)務,進行了全面的性能調優(yōu),包括CPU配置、內存分配、任務提交和任務執(zhí)行計劃等方面,以提高數據計算效率。