当前位置: 首页 > news >正文

如何做拍卖网站黑马it培训班出来现状

如何做拍卖网站,黑马it培训班出来现状,深圳手机商城网站设计公司,营销型网站建设论文文章作者邮箱:yugongshiye@sina.cn 地址:广东惠州 ▲ 本章节目的 ⚪ 了解Spark的DAG; ⚪ 掌握Spark的RDD的依赖关系; ⚪ 了解Spark对于DAG的Stage的划分; 一、DAG概念 1. 概述 Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关…

文章作者邮箱:yugongshiye@sina.cn              地址:广东惠州

 ▲ 本章节目的

⚪ 了解Spark的DAG;

⚪ 掌握Spark的RDD的依赖关系;

⚪ 了解Spark对于DAG的Stage的划分;

一、DAG概念

1. 概述

Spark会根据用户提交的计算逻辑中的RDD的转换和动作来生成RDD之间的依赖关系,同时这个计算链也就生成了逻辑上的DAG。接下来以“Word Count”为例,详细描述这个DAG生成的实现过程。

2. 案例1解释

Spark Scala版本的Word Count程序如下:

val file=sc.textFile("hdfs://hadoop01:9000/hello1.txt")

val counts = file.flatMap(line => line.split(" "))

           .map(word => (word, 1))

           .reduceByKey(_ + _)

 counts.saveAsTextFile("hdfs://...")

file和counts都是RDD,其中file是从HDFS上读取文件并创建了RDD,而counts是在file的基础上通过flatMap、map和reduceByKey这三个RDD转换生成的。最后,counts调用了动作saveAsTextFile,用户的计算逻辑就从这里开始提交的集群进行计算。

 上图展示的是word count案例的计算链,Spark底层会将这个计算链抽象为一个DAG(有向无环图)。关键的是,这个DAG记录了RDD之间的依赖关系,借助RDD之间的依赖关系,可以实现数据容错。比如上图中,RDD1是RDD2的父RDD。反之RDD2是RDD1的子RDD。从分区的角度,有父分区和子分区的概念。

即当某个子分区数据丢失,借助RDD之间的依赖关系,可以从上游的父分区进行恢复。

那么上面这5行代码的具体实现是什么呢?

1. 行1:sc是org.apache.spark.SparkContext的实例,它是用户程序和Spark的交互接口,会负责连接到集群管理者,并根据用户设置或者系统默认设置来申请计算资源,完成RDD的创建等。

sc.textFile("hdfs://...")就完成了一个org.apache.spark.rdd.HadoopRDD的创建,并且完成了一次RDD的转换:通过map转换到一个org.apache.spark.rdd.MapPartitions-RDD。也就是说,file实际上是一个MapPartitionsRDD,它保存了文件的所有行的数据内容。

2. 行2:将file中的所有行的内容,以空格分隔为单词的列表,然后将这个按照行构成的单词列表合并为一个列表。最后,以每个单词为元素的列表被保存到MapPartitionsRDD。

3. 行3:将第2步生成的MapPartittionsRDD再次经过map将每个单词word转为(word,1)的元组。这些元组最终被放到一个MapPartitionsRDD中。

4. 行4:首先会生成一个MapPartitionsRDD,起到m

http://www.yidumall.com/news/44201.html

相关文章:

  • 学影视后期大概多少钱搜索引擎优化概述
  • 犀牛云做网站一年多少钱自媒体怎么入门
  • 天津网站开发百度搜索技巧
  • 不限关键词做网站平台营销app
  • 在本地怎么做网站搜索量排行
  • 做毕设网站多少钱2023年8月新冠又来了
  • 网站独立开发推广神器
  • 网站建设公司 2018引擎优化seo是什么
  • 国外那些网站是做菠菜的网站模板之家免费下载
  • 网站模板编辑工具百度上怎么免费开店
  • 北京最新防疫信息搜索引擎优化的内容包括
  • 电脑网站怎么做的官网优化 报价
  • 电影网站建设公司品牌推广营销平台
  • 北京做网站制作公司广州seo成功案例
  • 网站技术实现方案宣传方式有哪些
  • 做网站那家比较好怎么在百度制作自己的网站
  • 深圳罗湖网站制作公司哪家好成都网络营销推广
  • 全国最新实时疫情seo的全称是什么
  • 摄影师如何做网站网络建站公司
  • 深圳 网站公司百姓网推广怎么收费标准
  • 织梦网站栏目不显示不出来站外推广渠道有哪些
  • 简洁文章类织梦网站模板b2b
  • 网站开发 荣誉资质广州百度网站推广
  • 河南企起网站建设新闻发稿发布平台
  • 公司想做网站费用要多少钱活动营销推广方案
  • 网站建设 学习什么seo博客是什么意思
  • 做网站公司赚钱seo优化公司排名
  • 营销策划与推广大众点评seo关键词优化
  • 常用网站png网站推广的技术有哪些
  • 四川建设网官网公共监管平台福州百度seo排名