时间:2024-07-08 07:01:12
Hadoop和Spark区别,为什么Spark比Hadoop处理速度快?
(1)是MR更精致的实现,基于DAG有向无环图的计算模式。stage内部是pipeline:无需等待,可最大化使用集群资源;减少OOM发生;可以精准控制每个partition依赖及其内部计算;基于lineage的算子流动式函数编程,节省中间结果产生,并可以最快恢复。
(2)基于线程的复用,轻量级别的;
(3)基于内存的数据迭代处理,充分利用内存,缓存数据,内存中进行数据交换速度快;
(4)spark是粗粒度资源申请,也就是当提交spark application的时候,application会将所有的资源申请完毕,如果申请不到资源就等待,如果申请到资源才执行application,task在执行的时候就不需要自己去申请资源,task执行快,当最后一个task执行完之后task才会被释放。
《spark比hadoop计算的速度快》不代表本网站观点,如有侵权请联系我们删除
精彩推荐
点击排行