当前位置: 首页 > news >正文

中天建设集团有限公司第一建设公司整站优化cms

中天建设集团有限公司第一建设公司,整站优化cms,廊坊哪里有做网站建设的,做网站用什么笔记本配置1、Apache Hive 概述 1.1、分布式SQL计算 对数据进行统计分析,SQL是目前最为方便的编程工具。 大数据体系中充斥着非常多的统计分析场景 所以,使用SQL去处理数据,在大数据中也是有极大的需求的。 MapReduce支持程序开发(Java…

1、Apache Hive 概述

1.1、分布式SQL计算

对数据进行统计分析,SQL是目前最为方便的编程工具。

大数据体系中充斥着非常多的统计分析场景
所以,使用SQL去处理数据,在大数据中也是有极大的需求的。
在这里插入图片描述

MapReduce支持程序开发(Java、Python等)
但不支持SQL开发
在这里插入图片描述

1.2、分布式SQL计算 - Hive

Apache Hive是一款分布式SQL计算的工具, 其主要功能是:

  • 将SQL语句 翻译成MapReduce程序运行
  • 基于Hive为用户提供了分布式SQL计算的能力
    写的是SQL、执行的是MapReduce。

在这里插入图片描述

1.3、为什么使用Hive

使用Hadoop MapReduce直接处理数据所面临的问题

  • 人员学习成本太高 需要掌握java、Python等编程语言。
  • MapReduce实现复杂查询逻辑开发难度太大 。

使用Hive处理数据的好处

  • 操作接口采用类SQL语法,提供快速开发的能力(简单、容易上手)。
  • 底层执行MapReduce,可以完成分布式海量数据的SQL处理。

2、模拟实现Hive功能

如果让您设计Hive这款软件,要求能够实现

  • 用户只编写sql语句
  • Hive自动将sql转换MapReduce程序并提交运行
  • 处理位于HDFS上的结构化数据。

如何实现?

2.1、元数据管理

假设有如下结构化文本数据存储在HDFS中。
在这里插入图片描述

假设要执行: SELECT city, COUNT(*) FROM t_user GROUP BY city;

对这个SQL翻译成MapReduce程序,会出现哪些困难?

针对SQL:SELECT city, COUNT(*) FROM t_user GROUP BY city;若翻译成MapReduce程序,有如下问题:

  • 数据文件在哪里?
  • 使用什么符号作为列的分隔符?
  • 哪些列可以作为city使用?
  • city列是什么类型的数据?

在这里插入图片描述
在这里插入图片描述

所以,我们可以总结出来第一个点, 即构建分布式SQL计算, 需要拥有:元数据管理功能,即:

  • 数据位置
  • 数据结构
  • 等对数据进行描述

2.2、解析器

解决了元数据管理后,我们还有一个至关重要的步骤, 即完成SQL到MapReduce转换的功能。
在这里插入图片描述

我们称呼它为:SQL解析器,期待它能做到:

  • SQL分析。
  • SQL到MapReduce程序的转换。
  • 提交MapReduce程序运行并收集执行结果。

2.3、基础架构

所以,当解析器也拥有了之后,我们就完成了一款基于MapReduce的,分布式SQL执行引擎的基础构建。

即,核心组件需要有:

  • 元数据管理,帮助记录各类元数据。
  • SQL解析器,完成SQL到MapReduce程序的转换。
    在这里插入图片描述

当拥有这2个组件, 基本上分布式SQL计算的能力就实现了。

2.4、ive架构

Apache Hive其2大主要组件就是:SQL解析器以及元数据存储, 如下图。
在这里插入图片描述

3、Hive基础架构

3.1、Hive架构图

在这里插入图片描述

3.2、Hive组件

3.2.1、元数据存储

通常是存储在关系数据库如 mysql/derby中。Hive 中的元数据包括表的名字,表的列和分区及其属性,表的属性(是否为外部表等),表的数据所在目录等。

– Hive提供了 Metastore 服务进程提供元数据管理功能
在这里插入图片描述

3.2.2、Driver驱动程序,包括语法解析器、计划编译器、优化器、执行器

完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有执行引擎调用执行。

这部分内容不是具体的服务进程,而是封装在Hive所依赖的Jar文件即Java代码中。
在这里插入图片描述

3.2.3、用户接口

包括 CLI、JDBC/ODBC、WebGUI。其中,CLI(command line interface)为shell命令行;Hive中的Thrift服务器允许外部客户端通过网络与Hive进行交互,类似于JDBC或ODBC协议。WebGUI是通过浏览器访问Hive。

– Hive提供了 Hive Shell、 ThriftServer等服务进程向用户提供操作接口。
在这里插入图片描述

结束!!!!!!!
hy:38


											低级的快乐来自放纵,高级的快乐来自克制。
http://www.yidumall.com/news/48068.html

相关文章:

  • 租用的网站空间的缺点seo整合营销
  • 淘宝客网站哪里可以做seo优化网站优化
  • 汕头seo推广外包优化培训方式
  • 有关网站排名的论文环球网疫情最新动态
  • 广州网站建设 全包最近新闻小学生摘抄
  • 呼伦贝尔做网站百度竞价排名规则及费用
  • 亳州做网站的公司舆情优化公司
  • 怎么做便民信息网站哪里有免费的网站推广服务
  • wordpress 百度统计插件搜索引擎优化的技巧有哪些
  • wordpress清除数据库网站优化推广公司排名
  • 国际独立站网址怎么推广
  • 建立网站域名的费用英语培训机构前十名
  • wordpress放产品郑州seo外包服务
  • 静安做网站公司如何优化网页
  • 小小的日本在线观看免费高清网站seo批量查询工具
  • 动态网站开发用网络广告
  • 备案期间 需要关闭网站文案代写
  • app外包公司怎么找长沙专业seo优化公司
  • 英文网站建设需要准备什么推广平台网站有哪些
  • 精选网站建立 推广 优化做电商一个月能挣多少钱
  • 微信公众号会员卡管理系统seo手机端排名软件
  • 网站做了301重定向域名会自动跳转吗网络优化工程师是做什么的
  • 没有网站可以做cpa百度网页版链接地址
  • php数据库的网站模板网络营销和电子商务的区别
  • 湖南做网站 找磐石网络一流搜狗站长平台
  • 市场营销毕业论文8000seo外链专员工作要求
  • flash网站用什么做十大接单推广app平台
  • 留学网站建设文案目前好的推广平台
  • 低价车网站建设想卖产品怎么推广宣传
  • 网站开发引发的官司怎么做网站推广多少钱