更新時間:2024-04-13 20:11:39作者:佚名
--------
從大數據中可以學到什么?
1.Linux
lucene:全文搜索引擎架構
Solr:基于Lucene的全文搜索服務器,可配置、可擴展、優化查詢性能、提供完整的功能管理接口。
2. Hadoop
hadoop通用
HDFS:分布式存儲系統,包括NameNode、DataNode。
NameNode:元數據、DataNode。 DataNode:存儲數據。 yarn:可以理解為MapReduce的協調機制。 本質上是Hadoop的處理和分析機制,分為ResourceManager和NodeManager。
MapReduce:用于編寫程序的軟件框架。
Hive:數據倉庫,可以用SQL查詢,可以運行Map/Reduce程序。 用于計算趨勢或網站日志,不應用于實時查詢,因為需要很長時間才能返回結果。
HBase:數據庫。 非常適合大數據的實時查詢。 Facebook使用Hbase存儲消息數據并對消息進行實時分析
ZooKeeper:大規模分發的可靠協調系統。 Hadoop的分布式同步是通過Zookeeper實現的,比如多個NameNode、主備切換等。
Sqoop:數據庫互傳,關系型數據庫到HDFS互傳
Mahout:可擴展的機器學習和數據挖掘庫。 用于推薦挖掘、聚合、分類和頻繁項集挖掘。
Chukwa:一個用于監控大型分布式系統的開源收集系統,基于 HDFS 和 Map/Reduce 框架構建。 顯示、監控和分析結果。 Ambari:用于配置、管理和監控Hadoop集群,基于Web且用戶友好。
2.Cloudera
Cloudera Manager:管理監控診斷集成
Cloudera CDH:(Cloudera的Distribution,包括Apache Hadoop)Cloudera對Hadoop做了相應的改變,發行版本稱為CDH。
Cloudera Flume:日志收集系統,支持自定義日志系統中的各種數據發送器來收集數據。
Cloudera Impala:為Apache Hadoop的HDFS和HBase中存儲的數據提供直接查詢交互式SQL。 Cloudera Hue:Web管理器大數據學什么,包括hue ui、hui server、hui db。 Hue為所有CDH組件提供了shell接口接口,mr可以用hue來編寫。
3. 機器學習/R
R:統計分析和圖形的語言和操作環境,目前是Hadoop-R
mahout:提供機器學習領域經典算法的可擴展實現,包括聚類、分類、推薦過濾、頻繁子項挖掘等,并且可以通過Hadoop擴展到云端。
4. 風暴
Storm:分布式、容錯的實時流式計算系統,可用于實時分析、在線機器學習、信息流處理、連續計算、分布式RPC、消息實時處理和更新數據庫。
Kafka:一種高吞吐量的分布式發布訂閱消息系統大數據學什么,可以處理消費者規模網站中的所有操作流數據(瀏覽、搜索等)。 與Hadoop的日志數據和離線分析相比,可以實現實時處理。目前采用Hadoop的并行加載機制來統一在線和離線消息處理。
Redis:用C語言編寫的,支持網絡的日志型、鍵值數據庫,可以基于內存、持久化。
5. 火花
Scala:一種類似于Java的完全面向對象的編程語言。
Spark:Spark是一個通用的并行框架,類似于用Scala語言實現的Hadoop MapReduce。 除了Hadoop MapReduce的優點之外,它與MapReduce的不同之處在于作業的中間輸出結果可以保存在內存中,因此不需要讀寫HDFS。 因此,Spark可以更適合需要迭代的MapReduce算法,例如數據挖掘和機器學習。 它可以與Hadoop文件系統并行運行。 使用 Mesos 的第三方集群框架可以支持此行為。
火花 SQL:
Spark Streaming:基于Spark構建的實時計算框架,擴展了Spark處理大數據流數據的能力。
Spark MLlib:MLlib是Spark常用機器學習算法的實現庫。 目前(2014.05)它支持二元分類、回歸、聚類和協同過濾。 它還包括低級梯度下降優化基本算法。 MLlib依賴于jblas線性代數庫,而jblas本身依賴于遠程Fortran程序。
Spark GraphX:GraphX是Spark中用于圖和圖并行計算的API。 它可以在Spark之上提供一站式數據解決方案,并且可以方便高效地完成圖計算的全套管道操作。
jblas:一個快速線性代數庫(JAVA)。 ATLAS ART 實現基于 BLAS 和 LAPACK(矩陣計算事實上的行業標準),并為所有計算過程使用先進的基礎設施,使其速度非常快。
Fortran:最早的高級計算機編程語言,廣泛應用于科學和工程計算領域。
BLAS:基本線性代數子程序庫,有大量已編寫的線性代數運算程序。
LAPACK:著名的開放軟件,包括求解科學和工程計算中最常見的數值線性代數問題,例如求解線性方程、線性最小二乘問題、特征值問題和奇異值問題等。
ATLAS:BLAS 線性算法庫的優化版本。
Spark Python:Spark是用scala語言編寫的,但是為了推廣和兼容性,提供了java和python接口。
6.Python
Python:一種面向對象的解釋型計算機編程語言。7。 云計算平臺 Docker:開源應用容器引擎 kvm:(鍵盤視頻鼠標) openstack:開源云計算管理平臺項目
--------
大數據工程師的技能要求:
----------