大数据基础知识理解

发表于 2024-11-14 分类于大数据

大数据基础，目标是了解所有大数据基础组件，构建集群的概念

学习内容

大数据中间件及其组件一览

Hadoop：NameNode、DataNode、Zkfc、HttpFS、JournalNode、ResourceManager、NodeManager、TimeLineServer、JobHistoryServer

Flink：FlinkResource、FlinkServer

Kafka：Broker、MirrorMaker、KafkaUI

ZooKeeper：quorumpeer

Hive：MetricController、MetaStore、WebHCat、HiveServer

HBase：HMaster、ThriftServer、RegionServer、RESTServer、MetricController

Spark：JDBCServer、JobHistory、SparkResource、IndexServer

Guardian：TokenServer

OMSServer：OMSServer

Ranger：rangerAdmin、UserSync、PolicySync、TagSync、RangerKMS

JobGateway：JobServer、JobBalance

HDFS

Hadoop 分布式文件系统，在大规模分布式服务器集群上，对数据分片后进行并行读写及冗余存储

设计目标：管理数以千计的服务器、数以万计的磁盘，将这么大规模的服务器计算资源当作一个单一的存储系统进行管理，对应用程序提供数以 PB 计的存储容量，让应用程序像使用普通文件系统一样存储大规模的文件数据。

优势

劣势

负责管理文件系统的命名空间以及客户端对文件的访问

负责文件数据的存储和读写操作，HDFS 将文件数据分割成若干数据块（Block），每个 DataNode 存储一部分数据块，这样文件就分布存储在整个 HDFS 服务器集群中