词条信息

admin
admin
超级管理员
词条创建者 发短消息   

相关词条

热门词条

更多>>
什么是端口?到底是做什么的呢?
端口一般指两种,一种是硬件比如路由器或者交换机的插网线的端口,一种是软件的逻辑的概念,比如http的80端口!...
7种进阶方法让你快速测试端口连通性
Ping是Windows、Linux和Unix系统下的一个检查网络连通性的命令工具,对于大部分互联网用户来说很...
电脑开机,总需要按F1,是什么原因造成的?
一.主板掉电这个说法是行业内的叫法了,一般是主板的CMOS电池没电了导致的。也是最常见的一种提示你按F1的提示...
社保降费对个人有什么影响?
下调城镇职工基本养老保险单位缴费比例是政府给企业发的一个大红包,特别是对于企业来说是一个利好,但是对个人来说有...
车辆“出险”对下年保费的影响,到底有多大?
【出险对交强险的影响】【出险对商业险的影响】车辆“出险”对下年保费的影响,到底有多大?这里有必要先提下车险第三...

精选图集

更多>>
简易百科旧版 >>所属分类 >> 大数据   

大数据基础之Spark

标签: 大数据 Spark

顶[0] 发表评论(0) 编辑词条

目录

一、背景编辑本段回目录


Spark 是 2010 年由 UC Berkeley AMPLab 开源的一款基于内存的分布式计算框架,2013 年被Apache 基金会接管,是当前大数据领域最为活跃的开源项目之一(http://spark.apache.org/)。


Spark 在 MapReduce 计算框架的基础上,支持计算对象数据可以直接缓存到内存中,大大提高了整体计算效率。特别适合于数据挖掘与机器学习等需要反复迭代计算的场景。


二、特性编辑本段回目录


高效:Spark提供 Cache 机制,支持需要反复迭代的计算或者多次数据共享,基于Spark 的内存计算比 Hadoop MapReduce 快100倍。


易用:Spark提供 20 多种数据集操作类型,并支持使用 Python 和 Scala 脚本开发应用。


先进架构:Spark采用 Scala 语言编写,基于 DAG 图的执行引擎,减少多次计算之间中间结果写到 HDFS 的开销。


三、应用场景编辑本段回目录


Spark之上有四种应用工具库。


Spark Streaming: 用于流式计算。


MLlib:用于机器学习(聚类、协同过滤等)。


Spark SQL:用于处理结构化数据。


GraphX:用于图和图并行计算的API。


目前主要应用在广告精准投放系统、日志报表即时查询、以及推荐系统等业务场景。这些应用场景的共同特点是计算量大且效率要求高。


四、部署模式编辑本段回目录


Spark有三种部署模式。


Standalone:使用Spark自带的集群管理器。


Spark on Mesos:使用 Mesos 管理资源。


Spark on YARN:使用 YARN 管理资源。


五、任务流程编辑本段回目录


Spark重要组件包括 Driver Program(Driver) 和Executor。以 Standalone(Driver 运行在 Client)模式为例介绍任务执行流程。


1. 客户端运行用户程序,启动 Driver。


2. Driver将作业转换为DAG图(类似数据处理的流程图),根据策略将DAG图划分为多个Stage,最终生成一系列最小可执行的Task。


3. Driver根据Task的需求,向Master申请运行Task所需的资源。


4. Master为Task调度分配满足需求的Worker节点,在Worker节点启动Exeuctor。


5. Exeuctor启动后向Driver注册。


6. Driver将Task调度到Exeuctor执行。


7. Executor执行结果写入文件或返回Driver。

 

 

附件列表


按字母顺序浏览:A B C D E F G H I J K L M N O P Q R S T U V W X Y Z

→我们致力于为广大网民解决所遇到的各种电脑技术问题
 如果您认为本词条还有待完善,请 编辑词条

上一篇大数据的10个未来发展趋势
下一篇如何学习编程和做好DBA

0
1. 本站部分内容来自互联网,如有任何版权侵犯或其他问题请与我们联系,我们将立即删除或处理。
2. 本站内容仅供参考,如果您需要解决具体问题,建议您咨询相关领域专业人士。
3. 如果您没有找到需要的百科词条,您可以到百科问答提问或创建词条,等待高手解答。

关于本词条的提问

查看全部/我要提问>>