spark比hadoop计算的速度快

时间：2024-07-08 07:01:12

Hadoop和Spark区别，为什么Spark比Hadoop处理速度快？

（1）是MR更精致的实现，基于DAG有向无环图的计算模式。stage内部是pipeline：无需等待，可最大化使用集群资源；减少OOM发生；可以精准控制每个partition依赖及其内部计算；基于lineage的算子流动式函数编程，节省中间结果产生，并可以最快恢复。

（2）基于线程的复用，轻量级别的；

（3）基于内存的数据迭代处理，充分利用内存，缓存数据，内存中进行数据交换速度快；

（4）spark是粗粒度资源申请，也就是当提交spark application的时候，application会将所有的资源申请完毕，如果申请不到资源就等待，如果申请到资源才执行application，task在执行的时候就不需要自己去申请资源，task执行快，当最后一个task执行完之后task才会被释放。

# 爱玩数码 #

《spark比hadoop计算的速度快》不代表本网站观点，如有侵权请联系我们删除

精彩文章

精彩推荐

点击排行