当前位置: 首页 > news >正文

专题网站开发 交互方法江苏seo和网络推广

专题网站开发 交互方法,江苏seo和网络推广,自己做的网站不备案行吗,仿做国外产品网站出路大数据系列之:读取parquet文件统计数据量 一、Spark读取parquet文件统计数据量二、parquet-tools统计parquet文件数据量三、实际应用案例 一、Spark读取parquet文件统计数据量 首先,创建一个 SparkSession 对象: val spark SparkSession.b…

大数据系列之:读取parquet文件统计数据量

  • 一、Spark读取parquet文件统计数据量
  • 二、parquet-tools统计parquet文件数据量
  • 三、实际应用案例

一、Spark读取parquet文件统计数据量

  1. 首先,创建一个 SparkSession 对象:
val spark = SparkSession.builder().appName("Parquet Data Count").getOrCreate()
  1. 然后,使用 SparkSession 读取 Parquet 文件并将其转换为 DataFrame:
val data = spark.read.format("parquet").load("/path/to/hdfs/parquet/file")
  1. 最后,使用 DataFrame 的 count 方法进行数据量统计:
val count = data.count()

二、parquet-tools统计parquet文件数据量

下载parquet-tools工具

使用 Hadoop 命令行工具:

  1. 首先,使用 Hadoop 命令行工具 hadoop 运行以下命令:
hadoop fs -cat /path/to/hdfs/parquet/file | parquet-tools rowcount
  1. 该命令将读取 Parquet 文件并使用 parquet-tools 工具来统计数据量,并输出结果。

三、实际应用案例

读取hdfs上的parquet文件:

%sparkval data = spark.read.format("parquet").load("/optics/ods_optics_prod/packing_data_item_1h_a/datetime=2023122514/part-00000-2675f81c-3c90-4af7-a489-bd8ce5cfec2c-c000.zstd.parquet")

查看数据量:

%spark
val count = data.count()count: Long = 433173
http://www.yidumall.com/news/24457.html

相关文章:

  • 无锡做食品网站的公司电脑培训
  • 泰州做网站公司宁波seo优化外包公司
  • 自己怎么做网站游戏安卓优化大师官方版本下载
  • 个体户做盈利网站网站免费优化软件
  • 网站上怎么引用视频代运营一家店铺多少钱
  • 旅游网站名称设计优化大师电脑版
  • 餐饮行业做网站的数据手机优化大师为什么扣钱
  • 企业网站有哪些举几个例子营销策划公司简介
  • 许昌哪个网站做苗木电商大数据查询平台
  • 母婴网站建设 社区中国今天刚刚发生的新闻
  • 怎样做网站内链长沙seo网络推广
  • b站推广网站mmm不安装抖音引流推广怎么做
  • 网站上可以做文字链接么西安百度推广怎么做
  • 微网站系统电商怎么做新手入门
  • 西安房地产网站建设资源平台
  • 山西网站制作公司最新app推广
  • 广东东莞招聘网最新招聘信息深圳seo排名哪家好
  • 网站建站建设哪家好企业网站快速建站
  • 手机网站在线客服系收录好的网站
  • 项目信息网官网热狗seo外包
  • 怎么免费做网站俄罗斯搜索引擎入口
  • tp3.2.3网站开发实例许昌正规网站优化公司
  • 张槎网站建设重庆森林电影
  • 做情色网站需要多少钱如何做网站 新手 个人 教程
  • 济南网站建设哪家公司好社区推广方法有哪些
  • 正规网站建设报价百度点击率排名有效果吗
  • jsp 数据库做网站新闻头条今日要闻国内新闻最新
  • 做的好的h游戏下载网站有哪些旺道seo软件技术
  • 网站前台模板设计能搜任何网站的浏览器
  • 永久免费自助网站推广方案设计