当前位置: 首页 > news >正文

现在那个网站做视频最赚钱百度网站介绍

现在那个网站做视频最赚钱,百度网站介绍,永久免费企业网站建设,西安seo学院Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因 一、背景二、查找数据丢失流程三、数据丢失原因四、解决方法一、背景 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因数据丢失一般常见需求排查的方向: 数据是否采集到hdfs上采集…

Debezium系列之:记录一次数据库某张表部分数据未同步到hive表的原因

  • 一、背景
  • 二、查找数据丢失流程
  • 三、数据丢失原因
  • 四、解决方法

一、背景

  • 反馈mysql数据库中某张表的数据没有同步到hive中,现在需要排查定位下原因

数据丢失一般常见需求排查的方向:

  • 数据是否采集到hdfs上
  • 采集到hdfs的话,进一步去确认数据是否是因为Spark任务资源不够导致没有加载到hive表中
  • 数据没有采集到的话,进一步定位分析没有采集到的原因,目前比较常见的是数据库原因导致、业务场景导致

二、查找数据丢失流程

  • 首先拿一条丢失数据的id,去确认这条数据是否采集到hdfs上,发现成功采集到了hdfs上
  • 观察hdfs文件生成时间,发现这张表的数据文件生成时间比较晚
    • 初步判断出现了数据库主从延迟或者采集延迟,但是spark任务会等到主从延迟或者采集延迟结束才会执行,这样应该能确保不会遗漏数据,进一步确认任务执行情况
    • 发现spark任务并没有出现延迟执行的情况,因此就出现了特殊情况
  • 再去查看数据库中其他表的采集情况,发现其他表的hdfs数据文件生成并没有延迟,这就说明只有这张数据丢失的表产生了采集延迟,进一步排查分析这张表
  • 发现丢失数据这张表近一天的hdfs文件生成时间是在同一时间点生成的,这表明近一天的数据是在同一时间采集到了hdfs
  • 查看这张数据丢失表数据情况,发现这张表在不同小时的数据工用了相同的gtid,这表明这些数据来自同一个事件
  • 进一步查看数据库其他表在不同小时gtid的情况,通过比较gtid,发现丢失数据这张表使用的gtid符合递增情况
  • 至此,基本找到数据没有加载到hive的原因
  • <
http://www.yidumall.com/news/10612.html

相关文章:

  • 中建八局一公司待遇怎么样seo关键词优化报价价格
  • 做外贸网站的都有哪些类型的公司优化营商环境 助推高质量发展
  • 做外贸雨伞到什么网站怎样在百度上推广
  • 网站收录后才可以做排名吗河南企业站seo
  • 阿里巴巴国际站的前台网址是今日重大事件
  • 网站制作网站建网络销售怎么做才能有业务
  • 如何修改网站后台国内永久免费云服务器
  • 微信上发的链接网站怎么做的营销型企业网站诊断
  • 可信网站logo优化手机流畅度的软件
  • 武汉做网站icp产品宣传推广方案
  • 商丘网站建设推广公司桔子seo查询
  • 政府网站设计思路网店推广平台有哪些
  • 网站内容采编怎么做企业网络营销业务
  • 济南市莱芜区人民政府百度seo新算法
  • 黃冈建设厅官方网站娄底地seo
  • wordpress能否做网站站长之家权重
  • wordpress文本悬停变色免费seo在线工具
  • 如何建立国际网站衡阳seo
  • 国家拨款农村建设查询的网站南宁seo网络优化公司
  • 做悬浮导航的网站百度快照客服电话
  • wordpress电影站数据下载什么优化
  • 广州市增城区建设局网站是什么南宁网站优化
  • 重庆网站建站建设平台短视频seo厂家
  • 做毕业设计资料网站好域名注册
  • 永久免费手机网站自助建站百度蜘蛛池自动收录seo
  • 品牌网站策划方案百度手机助手免费下载
  • 长春怎么做网站广州网站优化公司排名
  • 网站开发的技术支持重庆网站建设哪家好
  • 北京住房城乡建设部网站八大员广州专业网络推广公司
  • 福州网站建设印秀凡科官网免费制作小程序