python3爬取CSDN个人所有文章列表页

前言

我之前写了下载单篇文章的接口函数，结合这篇写的，就可以下载所有个人的所有文章了

代码实现

xpath

csdn

div

opertor

代码实现

import requests

from lxml import etree

import re

import threading

import operator

def get_page(url):

    response = requests.get(url)

    all_page = int(re.findall('var listTotal = (.*?) ;',response.text)[0])//20 +1

    return all_page

def parse_article(url,article_list):

    response = requests.get(url).text

    x = etree.HTML(response)

    x= x.xpath('//div[(@class="article-item-box csdn-tracking-statistics")][not(@style="display: none;")]')

    # article_list = []

    for item in x:

        title = item.xpath('h4/a/text()')[1].strip()

        url = item.xpath('h4/a/@href')[0]

        pubdata = item.xpath('div[@class="info-box d-flex align-content-center"]/p/span[@class="date"]/text()')[0]

        pageviews = item.xpath('div[@class="info-box d-flex align-content-center"]/p[3]/span/span/text()')[0]

        comments = item.xpath('div[@class="info-box d-flex align-content-center"]/p[5]/span/span/text()')[0]

        article = dict(

        title = title,

        url = url,

        pubdata = pubdata,

        pageviews = pageviews,

        comments = comments

            )

        article_list.append(article)

    # print(article_list)

def main(url):

    main_url = url

    all_page = get_page(url)

    thread_list = []

    data = []

    for page in range(1,all_page+1):

        url = main_url + '/article/list/' + str(page)

        t = threading.Thread(target=parse_article,args=(url,data))

        t.start()

        thread_list.append(t)

    for t in thread_list:

        t.join()

    data.sort(key=operator.itemgetter('pubdata'))

    print(data,len(data))

if __name__ == '__main__':

    url = 'https://blog.csdn.net/chouzhou9701'

    main(url)

python3爬取CSDN个人所有文章列表页

前言

代码实现

python3爬取CSDN个人所有文章列表页的相关教程结束。

相关推荐

使用python3怎么实现一个单目标粒子群算法

Python3递归函数实现遍历多维列表的方法

python3如何生成标签云

Python3 读、写Excel文件的操作方法

python3导入包的方法是什么

怎么在Python3中将罗马数字转成整数

热门推荐