IT小白向大數(shù)據(jù)領(lǐng)域邁進(jìn)
掌握實(shí)用技能
增長經(jīng)驗(yàn)
搭建完善的項(xiàng)目
接觸廣泛技術(shù)面
學(xué)習(xí)前沿技術(shù)
突破職業(yè)瓶頸
掌握核心技能
Linux、Hadoop
Java、Hive
Flume、Kafka
等基礎(chǔ)框架
深入了解醫(yī)療問診業(yè)務(wù)流程
學(xué)會構(gòu)建醫(yī)療問診行業(yè)的數(shù)據(jù)處理平臺
充分掌握多種大數(shù)據(jù)技術(shù)框架的協(xié)調(diào)應(yīng)用
熟練應(yīng)用數(shù)倉建模理論
該項(xiàng)目涉及數(shù)十個(gè)Shell腳本、若干業(yè)務(wù)數(shù)據(jù)表格和數(shù)十張醫(yī)療問診大數(shù)據(jù)表格,以及幾十個(gè)醫(yī)療問診統(tǒng)計(jì)指標(biāo)。
基于數(shù)倉建模理論,該項(xiàng)目執(zhí)行完整的數(shù)倉搭建過程,包括數(shù)據(jù)調(diào)研、明確數(shù)據(jù)域、構(gòu)建業(yè)務(wù)總線矩陣、設(shè)計(jì)維度模型、明確統(tǒng)計(jì)指標(biāo)、設(shè)計(jì)匯總模型以及分層構(gòu)建數(shù)倉。
數(shù)倉分層合理化,降低了數(shù)據(jù)之間的耦合度,提高了數(shù)據(jù)分析效率,同時(shí)也降低了數(shù)據(jù)計(jì)算成本。
該項(xiàng)目采用實(shí)戰(zhàn)式數(shù)據(jù)模擬策略,模擬生成全面的原始數(shù)據(jù),并進(jìn)行了真實(shí)數(shù)據(jù)采集工作。
采用了流行數(shù)據(jù)采集框架DataX采集業(yè)務(wù)數(shù)據(jù),并提供詳細(xì)的配置文件和腳本解讀,以幫助掌握更多的腳本編寫技巧。
該項(xiàng)目使用Maxwell監(jiān)控業(yè)務(wù)數(shù)據(jù)變動情況,實(shí)現(xiàn)了更實(shí)時(shí)、更準(zhǔn)確的數(shù)據(jù)采集,靈活使用Maxwell框架,全面掌握使用技巧。
該項(xiàng)目進(jìn)行了真實(shí)數(shù)據(jù)ETL實(shí)踐,掌握了如何對原始數(shù)據(jù)進(jìn)行清洗、脫敏、分類和整合等技術(shù)。
基于業(yè)務(wù)總線矩陣構(gòu)建了數(shù)據(jù)倉庫DWD層,完成了周期型快照事實(shí)表和累積型快照事實(shí)表的搭建和數(shù)據(jù)裝載。
基于業(yè)務(wù)總線矩陣構(gòu)建了數(shù)據(jù)倉庫DIM層。
基于指標(biāo)體系分析構(gòu)建了DWS層,將相同粒度、統(tǒng)計(jì)周期的派生指標(biāo)整合統(tǒng)計(jì)為寬表,提高計(jì)算結(jié)果復(fù)用性。
安裝部署了廣受歡迎的工作流調(diào)度系統(tǒng)DolphinScheduler,實(shí)現(xiàn)了數(shù)據(jù)倉庫搭建全流程的定時(shí)自動化調(diào)度,同時(shí)還可進(jìn)行故障自動郵件告警。
采用SuperSet對從RDBMS數(shù)據(jù)庫中調(diào)度采集的結(jié)果數(shù)據(jù)進(jìn)行了多種圖表和儀表盤的可視化展示。
針對企業(yè)級數(shù)據(jù)倉庫的海量數(shù)據(jù)計(jì)算業(yè)務(wù),進(jìn)行了全面的性能調(diào)優(yōu),包括CPU配置、內(nèi)存分配、任務(wù)提交和任務(wù)執(zhí)行計(jì)劃等方面,以提高數(shù)據(jù)計(jì)算效率。