Hadoop常见问题

hdfs文件系统中的角色 NameNode:是HDFS的主节点,负责管理文件系统的命名空间和元数据信息。维护了整个文件系统的目录树结构以及文件和数据块的映射关系 - 重要组件 - fsimage:它是在NameNode启动时对整个文件系统的快照。NameNode启动的时候,会读取fsimage并跟edit logs合并,得到完整的文件系统快照 - edit logs:它是在NameNode启动后,对文件系统的改动序列。改动会通过edit logs写入文件系统 SecondaryNameNode: - 作用:为了避免edit logs文件越来越大,NameNode重启会花费很长时间,SNN的职责
阅读更多

Spark原理和实践

Spark概念 Spark 是一个基于内存的大数据分布式计算框架 RDD: Partition: Job: Task: Driver: Executor: Spark为什么比MapReduce执行更快 * DAG 执行模型:Spark 将整个计算构建成一个有向无环图(DAG),可对多步算子进行统一调度和优化;MapReduce 则强制每个 Job 都是单一的 Map→Shuffle→Reduce,阶段之间无融合 * 算子融合(Pipelining):对多个窄依赖算子(如 map、filter)进行链式执行,在同一个 Task 中完成,不产生中间写盘;MapReduce 每步都要落盘并重新
阅读更多