当前位置: 首页 > news >正文

单招网站开发百度广告搜索推广

单招网站开发,百度广告搜索推广,建设好网站靠什么赚钱,学校网站建设所使用的技术文章目录 一、实战概述二、提出任务三、完成任务(一)准备数据1、在虚拟机上创建文本文件2、上传文件到HDFS指定目录 (二)实现步骤1、启动Hive Metastore服务2、启动Hive客户端3、基于HDFS数据文件创建Hive外部表4、利用Hive SQL实…

文章目录

  • 一、实战概述
  • 二、提出任务
  • 三、完成任务
    • (一)准备数据
      • 1、在虚拟机上创建文本文件
      • 2、上传文件到HDFS指定目录
    • (二)实现步骤
      • 1、启动Hive Metastore服务
      • 2、启动Hive客户端
      • 3、基于HDFS数据文件创建Hive外部表
      • 4、利用Hive SQL实现去重
      • 5、检查是否实现去重

一、实战概述

  • 在本次实战任务中,我们利用Hive大数据处理框架对三个文本文件(ips01.txt、ips02.txt、ips03.txt)中的IP地址进行了整合与去重。首先,在虚拟机上创建了这三个文本文件,并将它们上传至HDFS的/deduplicate/input目录下作为原始数据源。接着,启动了Hive Metastore服务和客户端,以管理和访问元数据信息。

  • 通过Hive SQL语句创建了一个外部表unique_ips,该表的每一行存储一个IP地址,字段间采用换行符\n进行分隔,这样便能正确读取到HDFS上的原始IP列表数据。为了实现去重目标,进一步创建了新的内部表deduplicated_ips,并使用DISTINCT关键字从unique_ips表中提取出不重复的IP地址记录。

  • 最后,执行SQL查询语句查看deduplicated_ips表的内容,如果输出结果中不存在重复IP,则表示去重过程顺利完成。整个过程展示了Hive在处理大规模文本数据时,能够高效地进行数据加载、表结构定义、数据清洗以及数据去重等操作,充分体现了其在大数据处理领域的强大功能与便捷性。

二、提出任务

  • ips01.txt
192.168.1.1
172.16.0.1
10.0.0.1
192.168.1.2
192.168.1.3
172.16.0.2
10.0.0.2
192.168.1.1
172.16.0.1
10.0.0.3
  • ips02.txt
192.168.1.4
172.16.0.3
10.0.0.4
192.168.1.5
192.168.2.1
172.16.0.4
10.0.1.1
192.168.1.1
172.16.0.1 
10.0.0.1 
  • ips03.txt
192.168.1.6
172.16.1.1
10.0.2.1
192.168.1.7
192.168.3.1
172.16.0.5
10.0.0.5
192.168.1.1
172.16.0.1
10.0.0.3
  • 目标是将这三个文本文件中的IP地址整合并去除重复项,最终得到一个仅包含唯一IP地址的结果集。
192.168.1.1
172.16.0.1
10.0.0.1
192.168.1.2
192.168.1.3
172.16.0.2
10.0.0.2
192.168.1.4
172.16.0.3
10.0.0.3
192.168.1.5
192.168.2.1
172.16.0.4
10.0.1.1
192.168.1.6
172.16.1.1
10.0.2.1
192.168.1.7
192.168.3.1
172.16.0.5
10.0.0.5

三、完成任务

(一)准备数据

1、在虚拟机上创建文本文件

  • 在master虚拟机上使用文本编辑器创建三个文件:ips01.txt, ips02.txt, ips03.txt,并确保每个文件内存储的是纯文本格式的IP地址列表。

2、上传文件到HDFS指定目录

  • 在master虚拟机上创建HDFS上的/deduplicate/input目录,用于存放待处理的原始数据文件。
    hdfs dfs -mkdir -p /deduplicate/input
    
  • 将本地创建的三个文本文件上传至HDFS的/deduplicate/input目录
    hdfs dfs -put ips01.txt /deduplicate/input/
    hdfs dfs -put ips02.txt /deduplicate/input/
    hdfs dfs -put ips03.txt /deduplicate/input/
    

(二)实现步骤

1、启动Hive Metastore服务

  • 启动Hive Metastore服务,确保Hive可以正确管理和访问元数据信息

2、启动Hive客户端

  • 打开Hive客户端连接到Hive服务

3、基于HDFS数据文件创建Hive外部表

  • 基于HDFS数据文件创建Hive外部表,执行语句
    CREATE EXTERNAL TABLE unique_ips (ip STRING)
    ROW FORMAT DELIMITED FIELDS TERMINATED BY '\n'
    LOCATION '/deduplicate/input';
    
  • 这里创建了一个名为unique_ips的外部表,字段为单列ip,每一行代表一个IP地址。由于我们的数据文件中每个IP地址占一行,所以字段间用换行符\n分隔。

4、利用Hive SQL实现去重

CREATE TABLE deduplicated_ips AS
SELECT DISTINCT ip FROM unique_ips;

通过上述SQL语句,我们在Hive内部创建了一个新的表deduplicated_ips,其中存储了从unique_ips表中提取的所有不重复的IP地址。

5、检查是否实现去重

  • 最后,检查deduplicated_ips表的内容以确认去重是否成功执行

    SELECT * FROM deduplicated_ips;
    
  • 若输出结果中没有重复的IP地址,则说明去重任务已经顺利完成。

  • 通过以上步骤,我们成功地利用Hive框架完成了对多个文本文件中的IP地址进行去重的任务,展示了Hive在大数据处理中的强大能力和便捷性。

http://www.yidumall.com/news/95292.html

相关文章:

  • title 网站建设站长工具综合权重查询
  • 枣强网站建设电话杭州百度推广开户
  • wordpress 横排显示seo交流网
  • 东莞百姓网交友站长之家seo一点询
  • 做网站用什么字体最明显b站推广入口2023
  • 做商业网站厦门百度推广排名优化
  • 外贸建站优化软件开发需要学什么
  • 网页制作与网站开发感想宁波优化推广选哪家
  • wordpress 优惠码大连seo建站
  • 最专业的手机网站制作推广计划方案模板
  • 蓝冠在线网站建设产品推广找哪家公司
  • 网络绿化网站建设哪家权威关键词排名哪里查
  • 做仿站如何修改网站管理权限中国国家培训网官网查询
  • 民宿网站开发dfd图省好多会员app
  • wordpress页面调用子页面内容seo网络推广企业
  • 模板网站下载上google必须翻墙吗
  • 电子商务网站建设与维护试卷有什么可以做推广的软件
  • 怎么网站是谁做的抖音关键词搜索指数
  • apache发布多个网站网站百度推广
  • wordpress验证google站长拉新充场app推广平台
  • 网站建设齐齐哈尔优化大师win7官方免费下载
  • 全国今日新增疫情最新情况西安网站seo技术厂家
  • 合肥网站开发怎么发帖子做推广
  • 深圳好点的网站建设公司日本积分榜最新排名
  • 做网站必须要公网ip郑州seo顾问阿亮
  • 企业网站建设的经费预算seo排名工具给您好的建议下载官网
  • 专业制作网站用哪些软件爱上链外链购买平台
  • 成都疫情严重吗南宁百度seo公司
  • 网站现在一般做多大尺寸seo网络排名优化哪家好
  • 网站建设是啥工作靠谱的代运营公司有哪些