项目回顾

大数据离线任务调度系统 定义 大数据离线任务调度系统 是指用于 管理、编排和执行批处理(离线)数据任务 的平台,它确保 数据在正确的时间、以正确的依赖关系顺序、在正确的计算资源上被处理,以支持数据仓库建设、ETL流程、数据分析、数据报表等工作。 上下游关联:上层是数据开发平台、BI平台、机器学习平台等等,下层是Spark、MR、异步数据源同步引擎等底层引擎 运行频率:一般是分钟级、小时级、日级 痛点问题 * 调度时延高:对于到达就绪时间的任务,旧架构下采取轮询的模式从DB查询任务,时延较高 * 有状态服务:服务内存中存储DAG结构,服务重启或故障情况下需要恢复内存状态 * 单点问题:服
阅读更多