大數據培訓之大數據技術生態(tài)體系
大數據技術生態(tài)體系如圖2-26所示。
圖2-26? 大數據技術生態(tài)體系
圖中涉及的技術名詞解釋如下:
1)Sqoop:Sqoop是一款開源的工具,主要用于在Hadoop、Hive與傳統的數據庫(MySql)間進行數據的傳遞,可以將一個關系型數據庫(例如 :MySQL,Oracle 等)中的數據導進到Hadoop的HDFS中,也可以將HDFS的數據導進到關系型數據庫中。
2)Flume:Flume是Cloudera提供的一個高可用的,高可靠的,分布式的海量日志采集、聚合和傳輸的系統,Flume支持在日志系統中定制各類數據發(fā)送方,用于收集數據;同時,Flume提供對數據進行簡單處理,并寫到各種數據接受方(可定制)的能力。
3)Kafka:Kafka是一種高吞吐量的分布式發(fā)布訂閱消息系統,有如下特性:
(1)通過O(1)的磁盤數據結構提供消息的持久化,這種結構對于即使數以TB的消息存儲也能夠保持長時間的穩(wěn)定性能。
(2)高吞吐量:即使是非常普通的硬件Kafka也可以支持每秒數百萬的消息。
(3)支持通過Kafka服務器和消費機集群來分區(qū)消息。
(4)支持Hadoop并行數據加載。
4)Storm:Storm用于“連續(xù)計算”,對數據流做連續(xù)查詢,在計算時就將結果以流的形式輸出給用戶。
5)Spark:Spark是當前最流行的開源大數據內存計算框架。可以基于Hadoop上存儲的大數據進行計算。
6)Oozie:Oozie是一個管理Hdoop作業(yè)(job)的工作流程調度管理系統。
7)Hbase:HBase是一個分布式的、面向列的開源數據庫。HBase不同于一般的關系數據庫,它是一個適合于非結構化數據存儲的數據庫。
8)Hive:Hive是基于Hadoop的一個數據倉庫工具,可以將結構化的數據文件映射為一張數據庫表,并提供簡單的SQL查詢功能,可以將SQL語句轉換為MapReduce任務進行運行。 其優(yōu)點是學習成本低,可以通過類SQL語句快速實現簡單的MapReduce統計,不必開發(fā)專門的MapReduce應用,十分適合數據倉庫的統計分析。
10)R語言:R是用于統計分析、繪圖的語言和操作環(huán)境。R是屬于GNU系統的一個自由、免費、源代碼開放的軟件,它是一個用于統計計算和統計制圖的優(yōu)秀工具。
11)Mahout:Apache Mahout是個可擴展的機器學習和數據挖掘庫。
12)ZooKeeper:Zookeeper是Google的Chubby一個開源的實現。它是一個針對大型分布式系統的可靠協調系統,提供的功能包括:配置維護、名字服務、 分布式同步、組服務等。ZooKeeper的目標就是封裝好復雜易出錯的關鍵服務,將簡單易用的接口和性能高效、功能穩(wěn)定的系統提供給用戶。
想要了解跟多關于大數據培訓課程內容歡迎關注尚硅谷大數據培訓,尚硅谷除了這些技術文章外還有免費的高質量大數據培訓課程視頻供廣大學員下載學習。