Spark源码解析 - 分布式计算执行流程
将DF的action操作转为RDD操作
以DataSet#head这个action算子为例
1
2
3
4
5
6
org.apache.spark.sql.Dataset#head:2728
org.apache.spark.sql.Dataset#collectFromPlan:3715
org.apache.spark.sql.execution.TakeOrderedAndProjectExec#executeCollect // 这里是调用了SparkPlan子类UnaryExecNode类型的TakeOrderedAndProjectExec重写的executeCollect
阅读更多