当前位置: 首页 > news >正文

b2c商城网站建设信息流优化师招聘

b2c商城网站建设,信息流优化师招聘,中国互联网协会举报中心,花瓣网平面设计素材python爬虫入门(实践) 一、对目标网站进行分析 二、博客爬取 获取博客所有h2标题的路由 确定目标,查看源码 代码实现 """ 获取博客所有h2标题的路由 """url "http://www.crazyant.net"import re…

python爬虫入门(实践)

一、对目标网站进行分析

在这里插入图片描述
在这里插入图片描述

二、博客爬取

  1. 获取博客所有h2标题的路由

    1. 确定目标,查看源码
      在这里插入图片描述

    2. 代码实现

      """
      获取博客所有h2标题的路由
      """url = "http://www.crazyant.net"import requests
      from bs4 import BeautifulSoup#发送请求,获取页面所有内容
      r = requests.get(url)
      if r.status_code != 200:raise Exception("请求失败") # 抛出异常
      html_doc = r.text# 解析html,获取对应信息
      soup = BeautifulSoup(html_doc,"html.parser")h2_nodes = soup.find_all("h2",class_="entry-title")for h2_node in h2_nodes:link = h2_node.find("a")print(link["href"],link.get_text())
      
  2. 通过标题爬取所有博客文章

    """
    爬取所有博客文章
    """
    import refrom utils import url_manager
    import requests
    from bs4 import BeautifulSouproot_url="http://www.crazyant.net"# 将root_url添加到urls中
    urls = url_manager.UrlManager()
    urls.add_new_url(root_url)# 获取所有页面内容,并保存到文件
    fout = open("craw_all_pages.txt","w",encoding="utf-8")
    while urls.has_new_url():curr_url = urls.get_url()r = requests.get(curr_url,timeout=2)if r.status_code != 200:print("请求失败",curr_url)continuesoup = BeautifulSoup(r.text,"html.parser")title = soup.title.string # 获取标题fout.write('%s\t%s\n' % (curr_url, title))# 写入文件fout.flush()# 刷新缓冲区,直接写入文件print("success: %s, %s, %d"%(curr_url,title,len(urls.new_urls)))# 获取所有链接, 并添加到urls中links = soup.find_all("a")for link in links:href = link.get("href")if href is None:continuepattern = r"^http://www.crazyant.net/\d+.html$" # 匹配规则,匹配以http://www.crazyant.net/开头,并且以.html结尾的url# 正则匹配, 返回一个匹配对象,如果没有匹配到,返回Noneif re.match(pattern,href):urls.add_new_url(href)fout.close()
    
  • 运行结果
    在这里插入图片描述
http://www.yidumall.com/news/100530.html

相关文章:

  • 青岛网站设计多少钱百度付费推广有几种方式
  • 网站制作哪些分类百度平台商家订单查询
  • 哪个网站可以专门做超链接网络营销概述
  • wordpress分享功能seo关键词有哪些类型
  • 营口工程建设信息网站云盘搜
  • 常州网站制作市场成都专业seo公司
  • 建设网站二级子页打不开网站建设是什么工作
  • 免费下载高清图片素材的网站百度seo原理
  • 企业网站一般包括哪些内容建网站找谁
  • 网站建设公司行业描述填什么阿里指数官网入口
  • 从本地服务入手做本地网站semantics
  • 深圳好的网站建设公司成人大学报名官网入口
  • 沧州1 1 网站建设百度有免费推广广告
  • 如何快速建设自适应网站刷排名seo软件
  • 网站头像设计免费制作下载优化大师安装桌面
  • 学做简单网站视频教程代运营竞价公司
  • 哈尔滨专业建站免费咨询网络营销案例ppt
  • 普洱市住房城乡建设局网站seo是如何做优化的
  • wordpress 文章列表 分页抖音seo培训
  • 联通最低套餐站长工具seo综合查询怎么使用的
  • 交互式网站如何做网站推广营销的步骤
  • wordpress 全站httpsskr搜索引擎入口
  • 网站空间的价格百度手机关键词排名工具
  • 上海关闭娱乐场所通知哈尔滨百度搜索排名优化
  • 上海本地生活论坛seo关键词优化案例
  • 哪里做网络推广好百度快照优化
  • java都是做网站吗磁力岛引擎
  • 网站开发.net郑州seo优化外包顾问阿亮
  • 深圳深圳网站制作关键词com
  • 浏阳网站开发公司西安seo排名公司