时间:2024-05-30 14:00:46
spark原理
Spark是一个基于内存计算的大数据并行计算框架,它提高了在大数据环境下数据处理的实时性,同时保证了高容错性和高可伸缩性。Spark的核心是弹性分布式数据集(RDD),它支持粗粒度写操作和精确到每条记录的读取操作,使得RDD可以用来作为分布式索引。Spark的执行模型抽象为通用的有向无环图执行计划(DAG),这可以将多Stage的任务串联或者并行执行,而无须将Stage中间结果输出到HDFS中。Spark的优势包括中间结果输出、数据格式和内存布局以及执行策略等方面。相对于MapReduce,Spark可以带来上百倍的性能提升。
《简述spark工作原理》不代表本网站观点,如有侵权请联系我们删除
精彩推荐
点击排行