首页 / 爱玩数码 / 正文

简述spark工作原理

时间:2024-05-30 14:00:46

spark原理 

Spark是一个基于内存计算的大数据并行计算框架,它提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。Spark的核心是弹性分布式数据集(RDD),它支持粗粒度写操作和精确到每条记录的读取操作,使得RDD可以用来作为分布式索引。Spark的执行模型抽象为通用的有向无环图执行计划(DAG),这可以将多Stage的任务串联或者并行执行,而无须将Stage中间结果输出到HDFS中。Spark的优势包括中间结果输出、数据格式和内存布局以及执行策略等方面。相对于MapReduce,Spark可以带来上百倍的性能提升。

《简述spark工作原理》不代表本网站观点,如有侵权请联系我们删除

点击排行

成长网提供支持 骄阳网版权所有网站地图 网站地图2 主办单位:广州小漏斗信息技术有限公司 粤ICP备20006251号

联系我们 关于我们 版权申明