当前位置: 首页 > news >正文

企业备案网站名称要求系统优化

企业备案网站名称要求,系统优化,做一网站需要多少钱,做最好最全的命理网站在学习深度学习的卷积神经算法时,需要猫和狗的训练数据集。这时想到在百度网上爬取猫和狗的图片。 在爬取狗狗图片的时候,我抓包分析了下获取这个url1 “https://image.baidu.com/search/index?tnbaiduimage&ipnr&ct201326592&cl2&lm&…

在学习深度学习的卷积神经算法时,需要猫和狗的训练数据集。这时想到在百度网上爬取猫和狗的图片。

在爬取狗狗图片的时候,我抓包分析了下获取这个url1 “https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=&st=-1&fm=index&fr=&hs=0&xthttps=111110&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=”,然后在该URL返回的信息中获取狗图片的url链接。但是在使用该链接获取的狗图片链接只有30张,这些远远不够训练数据。

我开始抓包分析,后面的图片加载出来的时候是通过url2“https://image.baidu.com/search/acjson?tn=resultjson_com&word=%E7%8B%97%E7%8B%97&ie=utf-8&fp=result&fr=&ala=0&applid=7765865225436197871&pn=30&rn=30&nojc=0&gsm=1e&newReq=1"这个网址来加载的,当pn和rn都等于30时,相当于该网址的第二页。当pn和rn等于60时是该网址的第三页。找到该规律后,就可以通过for循环来获取很多狗狗图片的url.

于是,我将url的地址从url1换成url2,但是在发送request请求时,报b'{"antiFlag":1,"message":"Forbid spider access"}'错误。我爬虫的代码被反爬了。我使用该url2在apifox上运行,apifox上是可以成功返回url2的返回信息的。

即然通过接口可以获取正确的返回值,那通过代码应该也可以获取正确的返回信息。在网上查询Forbid spider access错误信息,有提示说添加丰富headers信息会解决该问题。我将网上headers的相关字段都拔下来发送requests消息,该Forbid spider access错误信息解决了,但是返回的消息都是一段看不懂的字符。

我猜测应该是与编码相关,我查看了下抓包信息response的content-encoding值为br,我尝试了下将'Accept-Encoding':'gzip, deflate, br, zstd',注释掉然后试试。不出所料,注释后就可以正常运行了。

获取img相关url的代码如下:

urls_img = []
for n in range(100):pn = n*30url = "https://image.baidu.com/search/acjson?tn=resultjson_com&word=%E7%8C%AB&ie=utf-8&fp=result&fr=&ala=0&applid=10467951401242802557&pn=" + str(pn) + "&rn=" + str(pn) + "&nojc=0&gsm=5e&newReq=1"print(url)time.sleep(20)payload={}headers = {'Cookie': 'cookie=BDIMGISLOGIN=0; winWH=%5E6_1560x882; BIDUPSID=31E30236016B14E87E80A761DA8D007D; PSTM=1746601325; BAIDUID=31E30236016B14E870600C64626E7373:FG=1; MAWEBCUID=web_zLZtQkKKSPdTpACZxFACKprGPULtIeLcIQMzqvrDsrtFgKqqSu; H_WISE_SIDS_BFESS=62327_62833_63143_63241_63326_63352_63380_63382_63394_63390_63403_63441_63458_63472_63497_63543_63533_63548; BDSFRCVID=laPOJeC62xv16McsstZOeePUug5K4enTH6bHG1IqkxAuf9BSprw9EG0PZM8g0KuhkXxkogKKKgOTHICF_2uxOjjg8UtVJeC6EG0Ptf8g0x5; H_BDCLCKID_SF=JRKqoD-afI83fP36q4bHK-t052T22jnQKGR9aJ5nJDoWfCDCXtb5Kn0lXUo-QpQt5bTi_n58QpP-HlnjDfraMnkF5fD83qJj-jk8Kl0MLUcYbb0xynosMpkbMUnMBMni52OnapTn3fAKftnOM46JehL3346-35543bRTLnLy5KJWMDcnK4-Xj5bWjG5P; delPer=0; PSINO=5; BDSFRCVID_BFESS=laPOJeC62xv16McsstZOeePUug5K4enTH6bHG1IqkxAuf9BSprw9EG0PZM8g0KuhkXxkogKKKgOTHICF_2uxOjjg8UtVJeC6EG0Ptf8g0x5; H_BDCLCKID_SF_BFESS=JRKqoD-afI83fP36q4bHK-t052T22jnQKGR9aJ5nJDoWfCDCXtb5Kn0lXUo-QpQt5bTi_n58QpP-HlnjDfraMnkF5fD83qJj-jk8Kl0MLUcYbb0xynosMpkbMUnMBMni52OnapTn3fAKftnOM46JehL3346-35543bRTLnLy5KJWMDcnK4-Xj5bWjG5P; BA_HECTOR=2k8g8k2k2l0k840g24a10k0kag04061k4khge25; BAIDUID_BFESS=31E30236016B14E870600C64626E7373:FG=1; ZFY=gTCA97ON7I:BQC2pFSM9Q0QHQvSKXixg:BldTCH3HmRJc:C; H_PS_PSSID=62327_62833_63143_63241_63326_63352_63403_63441_63458_63497_63543_63533_63548_63568_63564_63582_63576; BDORZ=B490B5EBF6F3CD402E515D22BCDA1598; H_WISE_SIDS=62327_62833_63241_63352_63441_63458_63564_63582_63576; arialoadData=false; ab_sr=1.0.1_MmM5MzUxNDBhN2I5NGE5MWRjN2JmOTc5ZjU3ODA1NmUwOWQ0Zjg0YmVkODNhYmNhNTk0MjI4MDYxYmIyNGNhYWYzYjY0MDg2NmM0YjBjNzUwNGNjMWI0NGNlYTA5MGYyNWY5MzcwZWM0ZGM1YTg2YmM4YzE5N2ZmODUyMjg5ODU4MTk4YzU3YzgxMmVhNTYwMGEwYTMyNzVmYjIwMmY0MA==','User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36','content-type': 'application/json','Accept': 'application/json, text/plain, */*','Host': 'image.baidu.com','Connection': 'keep-alive',# 'Accept-Encoding':'gzip, deflate, br, zstd','Accept-Language':'zh-CN,zh;q=0.9','sec-ch-ua':'"Google Chrome";v="137", "Chromium";v="137", "Not/A)Brand";v="24"','referer':'https://image.baidu.com/search/index?tn=baiduimage&ipn=r&ct=201326592&cl=2&lm=&st=-1&fm=index&fr=&hs=0&xthttps=111110&sf=1&fmq=&pv=&ic=0&nc=1&z=&se=&showtab=0&fb=0&width=&height=&face=0&istype=2&ie=utf-8&word=%E7%8B%97%E7%8B%97','sec-ch-ua-platform':'macOS'}response = requests.request("GET", url, headers=headers, data=payload)time.sleep(10)print(str(response.content))string_context = str(response.content)format = r'https://img2.baidu.com(.*?)(?=\")'url_second = re.findall(pattern=format,string=string_context)urls_img.append(url_second)
print(urls_img)

怎样在request返回的response信息中获取图片的url链接呢?如下图所示:

这种可以考虑使用正则表达式来获取url的链接,然后使用re.findall()函数将对应的url全找出。

import re
string_context = str(response.content)
format = r'https://img2.baidu.com(.*?)(?=\")'---这个正则表达式是表示将https://img2.baidu.com和“中间字符取出。
url_second = re.findall(pattern=format,string=string_context)
##将url信息存储到json文件中
with open("/Users/zc/PyCharmMiscProject/dataset/cat_urls.json","w") as f:json.dump(urls_img,f)###读取json文件
with open("/Users/zc/PyCharmMiscProject/dataset/cat_urls.json","r") as f:urls_load = json.load(f)print(len(urls_load))因为截取的url链接为/it/u=2826177801,1382156594\\\\u0026fm=253\\\\u0026app=138\\\\u0026f=JPEG?w=500\\\\u0026h=667,我和真实的img链接对比了下,需要将\\\\u0026替换成&,所以还需要对各个链接做相应的处理。我使用了字符串的replace()函数进行处理,还有一种处理方法(即使用str.split("\\\\u0026")对字符串进行分割,然后将分割后的list1组合一起,使用(&).join(list1)函数连接)
###url链接转换
url_format=[]
for i in range(len(urls_load)-1):for j in range(len(urls_load[i])-1):url_new = urls_load[i][j].replace("\\\\u0026","&")url_format.append(url_new)

组合img的链接,然后下载图片并标号。需要注意的是headers_img中的'content-type'为'image/webp'

path = '/Users/zc/PyCharmMiscProject/dataset/cat/'
host_1 = "https://img2.baidu.com"
headers_img = {'user-agent':'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/137.0.0.0 Safari/537.36','content-type':'image/webp'}
for i in range(len(url_format)-1):url_img = host_1 + url_format[i]img_res = requests.request(url=url_img,method='GET',headers=headers_img)if img_res.status_code == 200:img_name = str(i) + ".jpg"with open(path+img_name,'wb') as file:file.write(img_res.content)else:print("it fails to download jpg")

http://www.yidumall.com/news/25270.html

相关文章:

  • 公司门户网站建设特点2022百度指数排名
  • 怎样做b2b电商网站特点外贸网站优化
  • 深圳app定制开发多少钱搜索引擎优化营销
  • 从零开始网站开发福州网站建设团队
  • 浙江网站建设情况网站优化排名推广
  • 返利网站方案网站推广引流最快方法
  • 做网站图片要求高吗还有哪些平台能免费营销产品
  • 网站开发者工作内容护肤品软文推广
  • 顶呱呱网站建设销售网站排名
  • 动态网站开发实训报告线上推广软件
  • 做系统之前的网站收藏在哪360网站推广登录
  • 178网站建设企业微信营销系统
  • 怎么做劳务公司网站莆田百度快照优化
  • 邗江区城乡建设局网站系统清理优化工具
  • 湖北网络建设公司网站新站seo快速排名 排名
  • 网站服务器和网站百度推广怎么赚钱
  • 电商类网站有几个主流程小说网站排名
  • 装饰公司用哪个招聘网站百度竞价开户多少钱
  • 做甲方去哪个网站应聘seo管理系统创作
  • 做贱奴网站拉新推广渠道
  • 日本真人做a免费视频网站深圳网络营销渠道
  • 工信部网站实名认证怎么做高质量外链
  • 东莞市国外网站建设哪家好上海网络推广外包
  • 搜索引擎优化工作主要做好哪些方面优化防疫措施
  • 制作网站的过程细节网站推广关键词排名优化
  • 福田做网站公司东莞百度seo新网站快速排名
  • 贵阳能做网站的公司独立站seo搜索优化
  • 北京展览网站建设微信裂变营销软件
  • 如何查看网站根目录百度校招
  • 广东省网站集约化建设网站推广策划案