Python 爬虫实现增加播客访问量的方法实现

脚本专栏 2024/9/21 佚名

2 0 1

金狮镖局 Design By www.egabc.com

一、序言：

世界 1024 程序猿节日不加班，闲着没事儿。。。随手写了个播客访问量爬虫玩玩，访问量过万不是事儿！！！每个步骤注释都很清晰，代码仅供学习参考！

---- Nick.Peng

二、所需环境：

Python3.x
相关模块： requests、json、lxml、urllib、bs4、fake_useragent

三、增加Blog访问量代码如下：

#!/usr/bin/env python
# -*- coding: utf-8 -*-
# @Author: Nick
# @Date:  2019-10-24 15:40:58
# @Last Modified by:  Nick
# @Last Modified time: 2019-10-24 16:54:31
import random
import re
import time
import urllib
import requests

from bs4 import BeautifulSoup
from fake_useragent import UserAgent

try:
  from lxml import etree
except Exception as e:
  import lxml.html
  # 实例化一个etree对象（解决通过from lxml import etree导包失败）
  etree = lxml.html.etree

# 实例化UserAgent对象，用于产生随机UserAgent
ua = UserAgent()


class BlogSpider(object):
  """
  Increase the number of CSDN blog visits.
  """

  def __init__(self):
    self.url = "https://blog.csdn.net/PY0312/article/list/{}"
    self.headers = {
      "Referer": "https://blog.csdn.net/PY0312/",
      "User-Agent": ua.random
    }
    self.firefoxHead = {
      "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:61.0) Gecko/20100101 Firefox/61.0"}
    self.IPRegular = r"(([1-9]"

  def send_request(self, num):
    """
    模拟浏览器发起请求
    :param num: num
    :return: html_str
    """
    html_str = requests.get(self.url.format(
      num), headers=self.headers).content.decode()
    # print(html_str)

    return html_str

  def parse_data(self, html_str):
    """
    用于解析发起请求返回的数据
    :param html_str:
    :return: each_page_urls
    """
    # 将返回的 html字符串 转换为 element对象，用于xpath操作
    element_obj = etree.HTML(html_str)
    # print(element_obj)

    # 获取每一页所有blog的url
    each_page_urls = element_obj.xpath(
      '//*[@id="mainBox"]/main/div[2]/div/h4/a/@href')
    # print(each_page_urls)

    return each_page_urls

  def parseIPList(self, url="http://www.xicidaili.com/"):
    """
    爬取最新代理ip，来源：西刺代理
    注意：西刺代理容易被封，如遇到IP被封情况，采用以下两种方法即可解决：
    方法一：请参考我上一篇博客《Python 实现快代理IP爬虫》 ===> 喜欢研究的同学，可参考对接此接口
    方法二：直接屏蔽掉此接口，不使用代理也能正常使用
    :param url: "http://www.xicidaili.com/"
    :return: 代理IP列表ips
    """
    ips = []
    request = urllib.request.Request(url, headers=self.firefoxHead)
    response = urllib.request.urlopen(request)
    soup = BeautifulSoup(response, "lxml")
    tds = soup.find_all("td")
    for td in tds:
      string = str(td.string)
      if re.search(self.IPRegular, string):
        ips.append(string)
    # print(ips)
    return ips

  def main(self, total_page, loop_times, each_num):
    """
    调度方法
    :param total_page: 设置博客总页数
    :param loop_times: 设置循环次数
    :param each_num: 设置每一页要随机挑选文章数
    :return:
    """
    i = 0
    # 根据设置次数，打开循环
    while i < loop_times:
      # 遍历，得到每一页的页码
      for j in range(total_page):
        # 拼接每一页的url，并模拟发送请求, 返回响应数据
        html_str = self.send_request(j + 1)

        # 解析响应数据，得到每一页所有博文的url
        each_page_urls = self.parse_data(html_str)

        # 调用parseIPList随机产生代理IP，防反爬
        # ips = self.parseIPList()
        # proxies = {"http": "{}:8080".format(
        #   ips[random.randint(0, 40)])}

        # 遍历，每一页随机挑选each_num篇文章
        for x in range(each_num):
          # 随机抽取每一页的一篇博文进行访问，防反爬
          current_url = random.choice(each_page_urls)
          status = True if requests.get(
            current_url, headers=self.headers).content.decode() else False
          print("当前正在访问的文章是：{}，访问状态：{}".format(current_url, status))
          time.sleep(1)  # 延时1秒，防反爬
        time.sleep(1)  # 延时1秒，防反爬
      i += 1


if __name__ == '__main__':
  bs = BlogSpider()
  bs.main(7, 200, 3) # 参数参照main方法说明，酌情设置

以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持。

Python,爬虫增加访问量,Python,增加访问量

标签：

Python,爬虫增加访问量,Python,增加访问量

金狮镖局 Design By www.egabc.com

金狮镖局 免责声明：本站文章均来自网站采集或用户投稿，网站不提供任何软件下载或自行开发的软件！如有用户或公司发现本站内容信息存在侵权行为，请邮件告知！ 858582#qq.com

金狮镖局 Design By www.egabc.com

评论“Python 爬虫实现增加播客访问量的方法实现”

暂无Python 爬虫实现增加播客访问量的方法实现的评论...

www.egabc.com 金狮镖局

139,976影音资源

144,792福利资源

21,817软件资源

631,128技术资源

最新文章

魔兽世界wlk阿奴巴拉克怎么打 wlk阿奴巴拉克

2024/9/21

归龙潮阿律的笛子位置在哪阿律的笛子图文位

2024/9/21

归龙潮中浦城区福鼠位置在哪中浦城区福鼠收

2024/9/21

NewViennaOctetViennaWindSoloists-TheDecc

2024/9/21

MatteoPasqualini-JohannSebastianBachItal

2024/9/21

一句话新闻

苹果官宣WWDC 2024！预计会有大批AI功能 - 2024/9/21

3月27日消息，苹果宣布2024年全球开发者大会（WWDC）将于6月10日至6月14日举行，巧合的是，这次大会与端午假期重合。

苹果官方表示：

在线参加 Apple 每年规模最大的开发者盛会。亲眼见证 Apple 最新平台、技术和工具的发布。了解如何创建和改进你的 App 和游戏。与 Apple 设计师和工程师互动交流，与全球开发者社区建立联系。以上活动均免费在线举行。

探索各种新的工具、框架和功能，助力你打造出理想的 App 和游戏。通过视频讲座学习新技能，与 Apple 专家进行一对一会面，以推进你的项目，完善你的构思。

Swift Student Challenge 旨在支持和鼓舞下一代开发者、创作者和企业家。太平洋时间 3 月 28 日，我们将公布今年的获奖者名单。获奖者将有资格参加在 Apple Park 举办的特别活动。我们还会选出 50 名杰出获胜者，他们将受邀前往库比提诺，获得为期三天的非凡体验，包括参加 Apple Park 的特别活动。

Python 爬虫实现增加播客访问量的方法实现

Python,爬虫增加访问量,Python,增加访问量

python3图片文件批量重命名处理

Django1.11自带分页器paginator的使用方法

评论“Python 爬虫实现增加播客访问量的方法实现”

RTX 5090要首发性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

Python 爬虫实现增加播客访问量的方法实现

Python,爬虫增加访问量,Python,增加访问量

python3图片文件批量重命名处理

Django1.11自带分页器paginator的使用方法

评论“Python 爬虫实现增加播客访问量的方法实现”

RTX 5090要首发 性能要翻倍！三星展示GDDR7显存

更新日志

友情链接

RTX 5090要首发性能要翻倍！三星展示GDDR7显存