当前位置: 首页 > news >正文

彩神app官方网站开发凡科建站下载

彩神app官方网站开发,凡科建站下载,文字转链接网址,如何登录百度站长平台爬取豆瓣电影top250 需求分析 将爬取的数据导入到表格中,方便人为查看。 实现方法 三大功能 1,下载所有网页内容。 2,处理网页中的内容提取自己想要的数据 3,导入到表格中 分析网站结构需要提取的内容 代码 import requests…

爬取豆瓣电影top250

需求分析

将爬取的数据导入到表格中,方便人为查看。

实现方法

三大功能
1,下载所有网页内容。
2,处理网页中的内容提取自己想要的数据
3,导入到表格中

分析网站结构需要提取的内容

在这里插入图片描述

代码

import requests
from bs4 import BeautifulSoup
import pprint
import json
import pandas as pd
import time# 构造分页数字列表
page_indexs = range(0, 250, 25)
list(page_indexs)# 请求头
headers = {'User-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1'
}# 下载所有的网页然后交给下一个函数处理
def download_all_htmls():htmls = []for idx in page_indexs:url = "https://movie.douban.com/top250?start={}&filter=".format(idx)print("craw html", url)r = requests.get(url, headers=headers)if r.status_code != 200:raise Exception("error")htmls.append(r.text)time.sleep(0.5)return htmls# 解析HTML得到数据def parse_single_html(html):# 使用BeautifulSoup处理网页,传入参数html,使用html.parser模式处理soup = BeautifulSoup(html, 'html.parser')# 使用BeautifulSoup匹配想要的内容,使用find函数article_items = (soup.find("div", class_="article").find("ol", class_="grid_view").find_all("div", class_="item"))datas = []# 内容比较多分步提取内容for article_item in article_items:rank = article_item.find("div", class_="pic").find("em").get_text()info = article_item.find("div", class_="info")title = info.find("div", class_="hd").find("span", class_="title").get_text()stars = (info.find("div", class_="bd").find("div", class_="star").find_all("span"))rating_star = stars[0]["class"][0]rating_num = stars[1].get_text()comments = stars[3].get_text()datas.append({"rank": rank,"title": title,"rating_star": rating_star.replace("rating", "").replace("-t", ""),"rating_num": rating_num,"comments": comments.replace("人评价", "")})return dataspprint.pprint()if __name__ == '__main__':# 下载所有的网页内容htmls = download_all_htmls()# pprint.pprint(parse_single_html(htmls[0]))# 解析网页内容并追到all_datas的列表中all_datas = []for html in htmls:all_datas.extend(parse_single_html(html))# 使用pandas模块,批量导入到表格中df = pd.DataFrame(all_datas)df.to_excel("doubanTOP250.xlsx")

效果图

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

参考文章

https://www.bilibili.com/video/BV1CY411f7yh/?p=15

http://www.yidumall.com/news/20048.html

相关文章:

  • 网站制作详细报价表crm软件
  • 网站建设前景如何推广普通话手抄报文字
  • 对比色网站设计浏阳廖主任打人
  • 国内做网站中国制造网外贸平台
  • 未备案网站处理系统百度指数人群画像
  • 网站建设初步规划方案如何在百度上做广告宣传
  • 那方面 搜索网站深圳seo优化排名优化
  • 渗透wordpress论坛百度seo分析工具
  • 网站建设与管理指什么灰色行业推广平台网站
  • 网站的优势是什么意思网店如何推广自己的产品
  • 开原铁岭网站建设自己如何注册网站
  • 免费有趣的网站百度竞价是什么
  • 简洁大气的企业网站手机百度下载免费
  • 营销的网站建设公司国内搜索引擎
  • 各网站封面尺寸seo
  • 网页设计与制作教程电seo在线培训机构排名
  • 国内外网站开发的现状网络销售怎么做才能有业务
  • 无锡网站建设开发厦门seo
  • 跨境独立站怎么运营泰安网站seo
  • 网站建设 中企动力厨具济南seo外贸网站建设
  • 南京网站开发xuan南京乐识免费制作网站的软件
  • 做色流网站服务器民生热点新闻
  • 塘沽做网站的公司关于友情链接的作用有
  • 纯静态网站模板百度广告怎么推广
  • 成都系统网站建设seo是对网站进行什么优化
  • 潍坊建站模板搭建网络营销的方式
  • 慧聪网怎样做网站友情链接硬件优化大师
  • 防红链接在线生成网站seo检测工具
  • 现在做网站建设的公司多么sem运营是什么意思
  • 怎么学做一件完整衣服网站网站内容优化关键词布局