当前位置: 首页 > news >正文

珠海网站建设培训学校网络域名综合查询

珠海网站建设培训学校,网络域名综合查询,网站公司怎么做的好处,太原搭建网站的公司哪家好定义 Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。 robots.txt文件的样例 对有所爬虫均生效&#…

定义

Robots协议也称作爬虫协议、机器人协议,全名为网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以爬取、哪些不可以。它通常是一个叫做robots.txt的文本文件,一般放在网站的根目录下。

robots.txt文件的样例

  • 对有所爬虫均生效,只能爬取public目录
User-agent:*
Disallow:/
Allow:/public/
  • 禁止所有爬虫访问所有目录
User-agent:*
Disallow:/
  • 允许所有爬虫访问所有目录
User-agent:*
Disallow:
  • 禁止所有爬虫访问网站某些目录也可以写做
User-agent:*
Disallow:/private/
Disallow:/tmp/
  • 只允许某一个爬虫访问所有目录
User-agent:WebCrawler
Disallow:
User-agent:*
Disallow:/

一些常见的爬虫名称

在这里插入图片描述

robotparser使用

该模块提供了一个类:RobotFileParser,它可以根据某网站的robots.txt文件判断一个爬虫是否有权限爬取这个网页。

RobotFileParser类的常用方法

  • set_url:用来设置robots.txt文件的链接。
  • read:读取robots.txt文件进行分析。
  • parse:用来解析robots.txt文件
  • can_fetch:该方法有两个参数,第一个是User-Agent,第二个是要抓取的URL。返回结果是True或者False,表示User-Agent指示的搜索引擎是否可以抓取这个URL。
  • mtime:返回上次抓取和分析robots.txt文件的时间。
  • modified:它对长时间分析和抓取的搜索爬虫很有帮助,可以将当前时间设置为上次抓取和分析robots.txt文件的时间

代码示例

from urllib.robotparser import RobotFileParserrp = RobotFileParser()
rp.set_url("http://www.baidu.com/robots.txt")
rp.read()print(rp.can_fetch("Baiduspider", "http://www.baidu.com"))
print(rp.can_fetch("Baiduspider", "http://www.baidu.com/homepage/"))
print(rp.can_fetch("Googlebot", "http://www.baidu.com/homepage/"))

在这里插入图片描述

  • 这里能看到,Googlebot是被严格禁止了的,所以为false
    在这里插入图片描述

以上,便是robots协议的学习笔记整理,来源于当前正在看的一本书–《Python3网络爬虫开发实战》。后面会持续学习并整理的。
感谢阅读~

http://www.yidumall.com/news/109744.html

相关文章:

  • 做博彩 网站违法吗百度推广seo是什么意思
  • 备案中的网站整站优化工具
  • 怎么做网站内链如何设置淘宝友情链接
  • 网站品牌词优化怎么做教育培训机构排名
  • 哪种类型的网站比较难做网络营销策划方案范文
  • 网站内容页模板seo助理
  • 网络规划设计师教程 下载开封网站seo
  • wpf做的网站北京网站开发
  • 仿苹果手机 网站源码教育机构在线咨询
  • 房地产 网站 案例百度网站排名
  • 网站开发的服务百度官方营销推广平台加载中
  • http做轮播图网站韩国seocaso
  • 自己做的网站和ie不兼容seo神器
  • 领航 网站设计搜索推广
  • 做it看日常看哪些网站会员卡营销策划方案
  • 南京做网站南京乐识赞网络营销方案策划案例
  • 发来贵州省建设厅网站歌尔股份砍单
  • 网站开发需要什么步骤分享几个x站好用的关键词
  • 网站建设 吉林seo优化方案
  • 网站建设预算seo的范畴是什么
  • 云梦做网站的优势按效果付费的推广
  • 专门做网站的公司叫什么seo研究中心qq群
  • 企业网站建设博客论坛百度竞价返点一般多少
  • 中国数控机床网汕头seo外包机构
  • 齐诺网站建设建站优化公司
  • 济南有哪些网站是做家具团购的软文怎么做
  • 一起来做网站怎么推广网站链接
  • 成都网站建设 推广行微博营销的特点
  • wordpress棋牌插件抖音搜索seo软件
  • 沈阳流产手术哪家比较好南京百度seo排名优化