Corona深入剖析系列-Corona总结
Corona可看做下一代MapReduce框架,它解决了MRv1中存在的扩展性、单点故障等不足,但是,相比于YARN,它仍存在一些不足或者当前未考虑的点,本文对介绍了Corona优缺点。
{关注大规模数据处理,包括Hadoop,YARN,Spark,Flink,Presto等}
Corona可看做下一代MapReduce框架,它解决了MRv1中存在的扩展性、单点故障等不足,但是,相比于YARN,它仍存在一些不足或者当前未考虑的点,本文对介绍了Corona优缺点。
CoronaTaskTracker类似于MRv1中的TaskTracker,是每个节点上的代理服务,负责向ClusterManager和CoronaJobTracker汇报心跳信息,接收来自CoronaTaskTracker的命令,并进行处理。本文介绍了CoronaTaskTracker实现。
在Corona中,ClusterManager负责整个集群的资源管理,包括:(1)维护各个节点的资源使用情况,(2)将各个节点中的资源按照一定的约束分配(比如每个pool使用的资源不能超过其上线,任务分配时应考虑负载均衡等)给各个应用程序。本文介绍了ClusterManager实现。
CoronaJobTracker实际上是一个单Job版本的JobTracker,它是在MRv1的JobTracker基础上修改而来的,它只负责管理一个Job的生命周期,包括该Job的创建、并行化、任务失败时重启、任务运行慢时为其额外启动一个备份任务等。本文介绍了CoronaJobTracker实现。
Hadoop Corona是facebook开源的下一代MapReduce框架。其基本设计动机和Apache的YARN一致,本文介绍了Hadoop Corona设计架构与基本原理。