当前位置: 首页 > news >正文

图片制作表情包的软件鸡西seo顾问

图片制作表情包的软件,鸡西seo顾问,家具网站开发设计任务书与执行方案,个人主页网址前言 Scrapy是非常优秀的一个爬虫框架,基于twisted异步编程框架。yield的使用如此美妙。基于调度器,下载器可以对scrapy扩展编程。插件也是非常丰富,和Selenium,PlayWright集成也比较轻松。 当然,对网页中的ajax请求…

前言

Scrapy是非常优秀的一个爬虫框架,基于twisted异步编程框架。yield的使用如此美妙。基于调度器,下载器可以对scrapy扩展编程。插件也是非常丰富,和Selenium,PlayWright集成也比较轻松。

当然,对网页中的ajax请求它是无能无力的,但结合mitmproxy几乎无所不能:Scrapy + PlayWright模拟用户点击,mitmproxy则在后台抓包取数据,登录一次,运行一天。

最终,我通过asyncio把这几个工具整合到了一起,基本达成了自动化无人值守的稳定运行,一篇篇的文章送入我的ElasticSearch集群,经过知识工厂流水线,变成知识商品。

”爬虫+数据,算法+智能“,这是一个技术人的理想。

配置与运行

安装:

pip install scrapy

当前目录下有scrapy.cfg和settings.py,即可运行scrapy

命令行运行:

scrapy crawl ArticleSpider

在程序中运行有三种写法:

from scrapy.cmdline import executeexecute('scrapy crawl ArticleSpider'.split())

采用CrawlerRunner:

# 采用CrawlerRunner
from twisted.internet.asyncioreactor import AsyncioSelectorReactor
reactor = AsyncioSelectorReactor()runner = CrawlerRunner(settings)
runner.crawl(ArticleSpider)
reactor.run()

采用CrawlerProcess

# 采用CrawlerProcess
process = CrawlerProcess(settings)
process.crawl(ArticleSpider)
process.start()

和PlayWright的集成

安装

pip install scrapy-playwright
playwright install
playwright install firefox chromium

settings.py配置

BOT_NAME = 'ispider'SPIDER_MODULES = ['ispider.spider']TWISTED_REACTOR = 'twisted.internet.asyncioreactor.AsyncioSelectorReactor'
DOWNLOAD_HANDLERS = {"https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler","http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",
}CONCURRENT_REQUESTS = 32
PLAYWRIGHT_MAX_PAGES_PER_CONTEXT = 4
CLOSESPIDER_ITEMCOUNT = 100PLAYWRIGHT_CDP_URL = "http://localhost:9900"

爬虫定义

class ArticleSpider(Spider):name = "ArticleSpider"custom_settings = {# "TWISTED_REACTOR": "twisted.internet.asyncioreactor.AsyncioSelectorReactor",# "DOWNLOAD_HANDLERS": {#     "https": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",#     "http": "scrapy_playwright.handler.ScrapyPlaywrightDownloadHandler",# },# "CONCURRENT_REQUESTS": 32,# "PLAYWRIGHT_MAX_PAGES_PER_CONTEXT": 4,# "CLOSESPIDER_ITEMCOUNT": 100,}start_urls = ["https://blog.csdn.net/nav/lang/javascript"]def __init__(self, name=None, **kwargs):super().__init__(name, **kwargs)logger.debug('ArticleSpider initialized.')def start_requests(self):for url in self.start_urls:yield Request(url,meta={"playwright": True,"playwright_context": "first","playwright_include_page": True,"playwright_page_goto_kwargs": {"wait_until": "domcontentloaded",},},)async def parse(self, response: Response, current_page: Optional[int] = None) -> Generator:content = response.textpage = response.meta["playwright_page"]context = page.contexttitle = await page.title()while True:## 垂直滚动下拉,不断刷新数据page.mouse.wheel(delta_x=0, delta_y=200)time.sleep(3)pass

参考链接

  • 官方scrapy-playwright插件
  • 崔庆才丨静觅写的插件GerapyPlaywright
http://www.yidumall.com/news/41797.html

相关文章:

  • 网站里的课程配图怎么做skr搜索引擎入口
  • 提高美誉度的网络营销方式北京百度seo服务
  • 用来做网页的软件seo工具不包括
  • 香港com域名注册网站优化搜索排名
  • 河南建筑职业技术学院旺道网站优化
  • 网站后台可以备份吗百度seo软件优化
  • 付费小说网站怎么做网站关键词排名查询工具
  • 微信网页上的网站怎么做的电商平台如何推广运营
  • 网站建设的市场需求怎么开网站
  • 淘宝客的免费电影网站怎么做网络优化主要做什么
  • 南昌做网站哪家公司好良品铺子网络营销策划书
  • 网站的优化什么做百度推广工具有哪些
  • 做网站数据库及相关配置怎么自己注册网站平台了
  • 仿qq网站程序世界新闻最新消息
  • 做黄网站违法吗常用的关键词挖掘工具有哪些
  • wordpress固定链接设置404粤语seo是什么意思
  • 简单的购物网站项目梅州网络推广
  • 网站的pdf预览是怎么做的今日热榜官网
  • 河南平台网站建设哪里有网络营销推广的渠道有哪些
  • 做图片为主的网站对服务器的要求网站建设定制
  • 顺义区住房和城乡建设委员会官方网站武汉java培训机构排名榜
  • 微信网站开发完全教程独立站谷歌seo
  • 网站搜索优化企业培训课程名称大全
  • 企业做网站有哪些好处制作网页的流程步骤
  • 个人简历网官网南宁企业官网seo
  • 南京城乡建设网站14个seo小技巧
  • 个人网站广告投放热搜榜百度
  • 网络安全维护是做什么关键词分布中对seo有危害的
  • 成立一个做网站的公司外贸网站模板
  • by1136的最新域名seo站长网