当前位置: 首页 > news >正文

中华衣柜网seo整站优化外包

中华衣柜网,seo整站优化外包,绵阳专业网站建设,云南招聘网查找满足指定条件的app_id查询条件: 表名、时间、节点名时间限定: 最好适当放大, 不知道什么原因有点不准eventLog的存放路径: spark.history.fs.logDirectory 1. spark-sql 先限定时间段;数据是逐行读入的, 但 app_id要按整个文件过滤, 按每个条件打标;按app_id粒度聚合, 查…
  1. 查找满足指定条件的app_id
  2. 查询条件: 表名、时间、节点名
  3. 时间限定: 最好适当放大, 不知道什么原因有点不准
  4. eventLog的存放路径: spark.history.fs.logDirectory

1. spark-sql 

  • 先限定时间段;
  • 数据是逐行读入的, 但 app_id要按整个文件过滤, 按每个条件打标;
  • 按app_id粒度聚合, 查找符合条件的数据;
-- 设定时区
set spark.sql.session.timeZone=GMT+8;-- 创建数据源视图
create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T08:00:00', 'modifiedBefore'='2023-08-21T14:00:00' );with tmp as ( -- 打标数据selectinput_file_name() as file_name,if( value like '%tbl_name%', 1, 0) as table_name,if( value like '%core-1-7%', 1, 0) as host_01,if( value like '%core-1-10%', 1, 0) as host_02fromview_name
),
tmp2 as ( -- 汇总到app_id粒度selectfile_name,sum(table_name) as table_name,sum(host_01) as host_01,sum(host_02) as host_02fromtmpgroup byfile_name
)
select*
fromtmp2
wheretable_name > 0
order byfile_name
;

2. 整文件读取

  • 先初步过滤app_id;
  • 整个文件读取成一行;
  • 按条件进行过滤;
import spark.implicits._// 寻找可能的APP_ID
val sql_create_view ="""|create temporary view view_name using text options ('path'='hdfs://hdfs-cluster/spark-history/*', 'modifiedAfter'='2023-08-21T00:00:00', 'modifiedBefore'='2023-08-21T23:00:00' )|""".stripMargin
val sql_filter_app_id ="""|select|   split( input_file_name(), 'history/')[1]  as file_name|from|    view_name|where|    value like '%trandw.dwd_log_app_open_di%'|group by|    split( input_file_name(), 'history/')[1]|""".stripMargin
spark.sql(sql_create_view)
val df_app_ids = spark.sql(sql_filter_app_id)
val app_ids = df_app_ids.collect().map(_.getString(0)).mkString(",")// 整个文件读取成一行
val rdd = spark.sparkContext.wholeTextFiles(s"hdfs://hdfs-cluster/spark-history/{${app_ids}}",20).repartition(12)
val df = rdd.toDF("file_name", "value")
df.createOrReplaceTempView("tmp")// 过滤数据
val sql_str ="""|select|   file_name|from|    tmp|where|    value like '%tbl_name%'|    and value like '%core-1-7%'|    and  value like '%core-1-10%'|""".stripMarginspark.sql(sql_str).show(1)

http://www.yidumall.com/news/44799.html

相关文章:

  • 做网站公众号多少钱杭州谷歌推广
  • 手机做网站用什么软件东莞seo
  • 东莞南城网站制作公司网络营销团队
  • 网站icon怎么做的电商网站建设价格
  • 做网站要钱嘛东莞建设企业网站
  • wordpress后台打开太慢seo常用方法
  • 江苏建设人才考试网官方网站株洲发布最新通告
  • 网站建设公司创意百度自然搜索排名优化
  • wordpress怎么上传图片重庆seo推广外包
  • h5网站开发多少钱百度整站优化
  • 石龙做网站百度seo规则最新
  • 最专业的做网站公司有哪些怎么在百度免费推广
  • wordpress+判断标签aso优化{ }贴吧
  • 微信哪里可以做视频网站seo站长工具查询
  • 赤裸做爰游戏漫画网站今日大新闻
  • 做网站大概多钱深圳网站建设 手机网站建设
  • 没技术怎么做网站百度广告代理
  • 建行手机网站网站关键词优化有用吗
  • 局域网访问wordpressseo如何提高网站排名
  • 网站做app安全吗搜索网站排行
  • 网站制作在哪里比较好开封网站推广公司
  • 网站建设优化的技巧百度电话
  • 网站建设营销方案app拉新平台
  • PC端网站开发以及设计费用营销策划公司是干什么的
  • 网站建设公司上海做网站公司哪家好网盘搜索
  • 哪个网站专做水果批发怎样制作网页设计
  • 建站之星(sitestar)网站建设系统搜索引擎营销ppt
  • asp网站开发教程入门搜索关键词查询工具
  • 武汉网站设计与制作域名注册局
  • 华为网站开发小广告多的网站