项目回顾
大数据离线任务调度系统
定义
大数据离线任务调度系统 是指用于 管理、编排和执行批处理(离线)数据任务 的平台,它确保 数据在正确的时间、以正确的依赖关系顺序、在正确的计算资源上被处理,以支持数据仓库建设、ETL流程、数据分析、数据报表等工作。
上下游关联:上层是数据开发平台、BI平台、机器学习平台等等,下层是Spark、MR、异步数据源同步引擎等底层引擎
运行频率:一般是分钟级、小时级、日级
痛点问题
* 调度时延高:对于到达就绪时间的任务,旧架构下采取轮询的模式从DB查询任务,时延较高
* 有状态服务:服务内存中存储DAG结构,服务重启或故障情况下需要恢复内存状态
* 单点问题:服
阅读更多