当前位置: 首页 > news >正文

饮料网站建设价格佛山seo外包平台

饮料网站建设价格,佛山seo外包平台,濮阳网站设计,做全国家电维修网站到哪里做python爬取网页图片并下载之GET类型 准备工作 【1】首先需要准备好pycharm,并且保证环境能够正常运行 【2】安装request模块 pip install requestsimport request导入request内置模块 【3】安装lxml模块 pip install lxmlfrom lxml import etree导入lxml.etre…

python爬取网页图片并下载之GET类型

准备工作

【1】首先需要准备好pycharm,并且保证环境能够正常运行

【2】安装request模块

pip install requests

import request导入request内置模块

【3】安装lxml模块

pip install lxml

from lxml import etree导入lxml.etree内置模块

如果导入etree失败的话可以尝试

from lxml import html
etree = html.etree

目标网站

今日的目标是爬取图片信息

网址:[loryx.wiki]([home LoR丨中文百科] (loryx.wiki))

分析网站

image-20231221185852385

该部分是这次要爬取的所有图片内容,首先F12打开网络并且选中ALL,然后Ctrl+R刷新页面

image-20231221191550975

打开最上方加载的文件的Response,发现和页面的源码非常相似,并且编码类型为utf-8

image-20231221192304122

接着点开Headers

可以看到该网页是GET类型,并且状态码是200,URL也和该页面相同

image-20231221191934151

那么接下来就可以用python来模拟request请求了

爬虫代码

其实GET方法在这里data不带进去也行,写在这里是为了更方便理解

import requests
from lxml import etreeurl = 'https://loryx.wiki/%E6%B5%8F%E8%A7%88/%E7%89%8C%E5%BA%93'
data = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/231.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/231.36 Edg/120.1.1.0'
}res = requests.get(url=url, data=data)
res.encoding = 'utf-8'

接下来拿到了request对象后就可以来对元素进行筛选了

首先获取完整的网页源码print(res.text)

打印结果为image-20231221193053517

可以看见没有问题,那么继续用etree进行解析

et = etree.HTML(res.text)

继续分析网页内容

在图片链接处右键进入检查

image-20231221194218391

然后我们就得到了标签页信息,我们将要获取的就是td标签中的col15 leftalign元素中的a标签的href链接信息,于此同时我们还需要对应的内容来作为图片的名称,否则你将会看到一堆乱码的哈希值

这里就用卡牌名称作为图片名,取元素的方法也和图片同理

# 图片链接
src = et.xpath("//td[@class='col15 leftalign']/a/@href")# 图片名称
name = et.xpath("//td[@class='col0 leftalign']/text()")

当前所有采集到的内容都存储在srcname这两个列表中

我们打印src就可以看到这样的图片链接image-20231221194906708

打开后就可以在浏览器中看到图片

image-20231221195013088

该效果说明我们下载图片的原理还是向这个网页发送请求然后再获取返回的结果

图片下载

演示只取9张图片,不然的话可以直接range(len(src))

for i in range(9):with open(f"img/{name[i]}.png", 'wb') as f:f.write(requests.get(src[i]).content)

这里需要注意要用wb,因为写入的是二进制数据

运行程序

image-20231221200120481

OK完工

总结

以上就是python中最基础的爬虫案例,当然实际项目中基本不会有用with open(f"img/{name[i]}.png", 'wb') as f:这种写法,因为效率太低了,本篇文章只是为了以最直观的方式呈现爬虫下载图片的原理

完整代码:

import requests
from lxml import etreeurl = 'https://loryx.wiki/%E6%B5%8F%E8%A7%88/%E7%89%8C%E5%BA%93'
data = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36 Edg/120.0.0.0'
}res = requests.get(url=url, data=data)
res.encoding = 'utf-8'
et = etree.HTML(res.text)
# print(res.text)
src = et.xpath("//td[@class='col15 leftalign']/a/@href")
name = et.xpath("//td[@class='col0 leftalign']/text()")
for i, index in enumerate(name):name[i] = index.strip()for i in range(9):with open(f"img/{name[i]}.png", 'wb') as f:f.write(requests.get(src[i]).content)
http://www.yidumall.com/news/37096.html

相关文章:

  • 网站搜索引擎优化方案范文优化教程网站推广排名
  • dede网站模板安装阿里指数在线查询
  • 宿迁房产网官方网站好的搜索引擎推荐
  • 网站前端模板下载百度关键词快排
  • 上海网站建设品牌百度app官网
  • 直播做愛网站国外培训机构加盟
  • 开票 网站建设精准拓客软件哪个好
  • 铁岭做网站信息福州短视频seo机会
  • 商业网站建设与运营seo常用的工具
  • 网站开发流程图东莞软文推广
  • 贵阳查房子备案的网站下列关于友情链接说法正确的是
  • 建站程序排名百度ai智能写作工具
  • 电脑建设银行怎样设置网站查询百度广告点击一次多少钱
  • 网站宣传的好处个人网站制作模板
  • 天津社会面疫情最新消息seo内链优化
  • 小说网站怎么用html做龙岗seo网络推广
  • 福州网站建设网站优化seo
  • wordpress先使用优化网站关键词的技巧
  • 广州网站建设app开发seo网站优化工具
  • 济南集团网站建设报价广州网站推广软件
  • 汶上网站建设多少钱正规的培训机构有哪些
  • 网站建设 苏州广西网站建设制作
  • 网站 建设 毕业设计 要求软文发布的平台与板块
  • 鼠标垫东莞网站建设seo零基础教学
  • 福州建设厅网站今日重大新闻头条十条
  • 本地网站建设多少钱吉林seo网络推广
  • 重庆网站公司设计福州短视频seo平台
  • 大学 两学一做专题网站seo指导
  • node做网站怎么知道蜘蛛来过长春刚刚最新消息今天
  • 网站下载速度慢营销策划咨询机构