当前位置: 首页 > news >正文

高校档案网站建设的目的是什么千锋培训学费多少钱

高校档案网站建设的目的是什么,千锋培训学费多少钱,cnnic 是什么网站,公司变更股东需要多久Scrapy框架之全局配置文件settings.py详解 前言 settings.py 文件是 Scrapy框架下,用来进行全局配置的设置文件,可以进行 User-Agent 、请求头、最大并发数等的设置,本文中介绍 settings.py 文件下的一些常用配置 正文 1、爬虫的项目目录…

Scrapy框架之全局配置文件settings.py详解

前言

settings.py 文件是 Scrapy框架下,用来进行全局配置的设置文件,可以进行 User-Agent 、请求头、最大并发数等的设置,本文中介绍 settings.py 文件下的一些常用配置

正文

1、爬虫的项目目录名、爬虫文件名

BOT_NAME:Scrapy 项目实现的 bot 的名字。用来构造默认 User-Agent,同时也用来 log。 当使用 startproject 命令创建项目时其也被自动赋值。
SPIDER_MODULES:爬虫文件名。

# Scrapy settings for Baidu project
#
# For simplicity, this file contains only settings considered important or
# commonly used. You can find more settings consulting the documentation:
#
#     https://docs.scrapy.org/en/latest/topics/settings.html
#     https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
#     https://docs.scrapy.org/en/latest/topics/spider-middleware.html
# 爬虫的项目目录名
BOT_NAME = "Baidu"
SPIDER_MODULES = ["Baidu.spiders"]
NEWSPIDER_MODULE = "Baidu.spiders"

2、设置USER_AGENT

USER_AGENT:爬取的默认User-Agent。

# Crawl responsibly by identifying yourself (and your website) on the user-agent
# 设置USER_AGENT
USER_AGENT = "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/535.1 (KHTML, like Gecko)"

3、设置是否遵循robots协议(必须!)

ROBOTSTXT_OBEY:是否遵循 robots 协议,默认为True,需要设置为False 必须要设置的!

# Obey robots.txt rules
# 是否遵循robots协议,默认为True,需要设置为False 必须要设置的!
ROBOTSTXT_OBEY = False

4、设置最大并发量

CONCURRENT_REQUESTS:最大并发量,默认为16,可以理解为开多少线程

# Configure maximum concurrent requests performed by Scrapy (default: 16)
# 最大并发量,默认为16,可以理解为开多少线程
CONCURRENT_REQUESTS = 16

5、设置下载延迟时间

DOWNLOAD_DELAY:每隔多长时间去访问一个页面(每隔一段时间发请求,降低数据抓取频率)

# See also autothrottle settings and docs
# 下载延迟时间:每隔多长时间去访问一个页面(每隔一段时间发请求,降低数据抓取频率)
DOWNLOAD_DELAY = 1

6、设置是否启用Cookie

COOKIES_ENABLED:是否启用Cookie,默认是禁用的,取消注释即为开启Cookie

# 是否启用Cookie,默认是禁用的,取消注释即为开启Cookie
# 注释的情况:禁用 ;
# 取消注释并设置为False:找settings.py中DEFAULT_REQUEST_HEADERS中的Cookies
# 取消注释并设置为True:找爬虫文件中Request()方法中的cookies参数,或者中间件
# COOKIES_ENABLED = False

7、设置请求头

DEFAULT_REQUEST_HEADERS:请求头,类似于requests.get()方法中 headers 参数

# Override the default request headers:
# 请求头,类似于requests.get()方法中 headers 参数
DEFAULT_REQUEST_HEADERS = {"Accept": "text/html,application/xhtml+xml,application/xml;q=0.9,*/*;q=0.8","Accept-Language": "en"
}

8、设置是否启用中间件

DOWNLOADER_MIDDLEWARES:开启中间件,项目目录名.模块名.类名:优先级(1-1000不等)

# Enable or disable downloader middlewares
# See https://docs.scrapy.org/en/latest/topics/downloader-middleware.html
# 开启中间件
# 项目目录名.模块名.类名:优先级(1-1000不等)
# DOWNLOADER_MIDDLEWARES = {
#    "Baidu.middlewares.BaiduDownloaderMiddleware": 543,
# }

9、设置是否启用实体管道

ITEM_PIPELINES:开启管道,项目目录名.模块名.类名:优先级(1-1000不等)

# Configure item pipelines
# See https://docs.scrapy.org/en/latest/topics/item-pipeline.html
# 开启管道
# 项目目录名.模块名.类名:优先级(1-1000不等)
# ITEM_PIPELINES = {
#    "Baidu.pipelines.BaiduPipeline": 300,
# }

10、设置保存日志文件及级别

LOG_LEVEL:设置日志级别:DEBUG < INFO < WARNING < ERROR < CARITICAL
LOG_FILE:设置保存日志文件名称

# 设置日志级别:DEBUG < INFO < WARNING < ERROR < CARITICAL
LOG_LEVEL = 'INFO'
# 保存日志文件
LOG_FILE = 'KFC.log'

11、设置数据导出编码格式

FEED_EXPORT_ENCODING:设置数据导出的编码"utf-8" “gb18030”

FEED_EXPORT_ENCODING = "utf-8" # 设置数据导出的编码"utf-8" "gb18030"

12、定义MySQL数据库相关变量

MYSQL_HOST:服务器
MYSQL_USER:用户名
MYSQL_PWD:密码
MYSQL_DB:表
CHARSET:编码

# 定义MySQL数据库的相关变量
MYSQL_HOST = 'xxxxxxxxx'
MYSQL_USER = 'xxxx'
MYSQL_PWD = 'xxxxxx'
MYSQL_DB = 'xxxxx'
CHARSET = 'utf8'

13、定义MangoDB数据库相关变量

MANGO_HOST:服务器
MANGO_PORT:端口号
MANGO_DB:表
MANGO_SET:编码

# 定义MangoDB相关变量
MANGO_HOST = 'xxxxxxxx'
MANGO_PORT = 'xxxxx'
MANGO_DB = 'xxxxx'
MANGO_SET = 'carset'
http://www.yidumall.com/news/80377.html

相关文章:

  • 可视化编辑网站开发企业推广文案范文
  • 免费建视频网站郑州seo公司排名
  • 实战营销型网站建设如何建立一个网站
  • 济南正规网站建设公司怎么做一个网站页面
  • 查询网站mx记录性价比高seo的排名优化
  • 烟台网站建设科技公司上海优化seo公司
  • 哈尔滨 微网站设计网页模板网站
  • 推广网站平台有哪些网络舆情分析报告
  • 企业公司名字大全seo关键词排名软件流量词
  • 网站开发与设计难嘛googleplay官方下载
  • 有哪些网站可以做推广湖南长沙seo教育
  • 怎么做算命网站网络营销的工具和方法有哪些
  • 广州开发网站平台视频推广平台
  • 温州网站制作系统深圳全网推广
  • 网站建设费用报价单网站技术解决方案
  • 超市网站设计关键词推广优化外包
  • 五常市城乡建设委员会网站东莞互联网推广
  • 台州做网站设计的公司今日新闻头条新闻
  • 政府网站建设重要性查询网站域名
  • 网站开发分支结构查询网站服务器
  • 工商服务平台seo的基本步骤是什么
  • 做资源网站违法吗整站优化系统厂家
  • wordpress mo po百度权重优化软件
  • 河西做网站公司百度关键词优化平台
  • 重庆网站推广多少钱google adwords关键词工具
  • 网站信息维护seo泛目录培训
  • 网站图片优化二级网站怎么做
  • 网站制作商城广告优化师适合女生吗
  • b2b网站如何做盘古百度推广靠谱吗
  • 新县住房和城乡规划建设网站今天今日新闻头条最新消息