怎么如何用爬虫爬取网页上的数据实时更新的数据数据？

点击联系发帖人 时间：2024-01-16 10:30

如何用爬虫爬取网页上的数据

项目场景：在做一个校园新闻小程序的时候，不仅需要获得新闻内容，同时还要获取点击量来排序。爬取静态的数据很简单，爬取动态的数据就有一点麻烦了。问题描述比如说我们在爬取这个网页的时候打开开发者工具可以看到点击量但是我们爬取来的内容确是这个样子的点击量为什么会不显示呢？原因分析：我的理解是这样子的，因为点击量是随着网页的刷新要不断地改变的，而新闻内容是固定不变的。所以说点击量会由一个函数去不断更新，因此静态的网页内容不显示这个数据也在情理之中了。解决方案：要获取这样的数据，首先得找到这个数据。幸运地是，点击量这个数据比较的独一无二，是一个数字。当然你不能直接打开开发者工具就在在”元素“中检索，要找到产生这个数字的源头，这种动态数据一般会在“网络”中的XHR或者JS文件中找到，比如这样(记得刷新一下再找！)在这一个乱七八糟的返回里面，我们要的点击量就在最后的几个click中。当然它现在不再是那个781了，但没有关系，我们很轻松地找到了它(大多数情况不是这样，但readClick这几个字实在是太显眼了！)预览就是我们发送请求获得的数据，而点击量就放在这个数据的最后。那么我们现在只需要发送请求获得这个数据，再用正则表达式提取出点击量803就行了然后是请求的参数，这个参数有时候会在标头的最下面，但是这里并没有，其实负载就是这次请求的参数。我们来分析一下参数。如果你只想获得这一个网页的动态数据，那么直接照抄就行了。from sqlite3 import Date
import requests
import random, time, sys
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/100.0.4896.60 Safari/537.36 Edg/100.0.1185.29'
}
params = {
'callCount':'1',
'nextReverseAjaxIndex':'0',
'c0-scriptName':'Ajax',
'c0-methodName':'readClick',
'c0-id':'0',
'c0-param0':'string:1649408845878',
'batchId':'0',
'instanceId':'0',
'page':'%2Fcolumn%2Fh_26_yi%2Fcontent%2F1649408845878.shtml',
'scriptSessionId':'5eSlySH4R9SBWHfCeP6lNqg1u0JcgKn5m1o/mvq5m1o-GDTnJP$nz'
}
res = requests.post('https://news.hutb.edu.cn/dwr/call/plaincall/Ajax.readClick.dwr', headers=headers, params=params)
print(res.text)
我们来分析一下这些参数。c0-param0与page在不同的新闻是有区别的，区别就在于他们是第几条新闻，参数就要怎么写，比如这条新闻网址是https://news.hutb.edu.cn/column/h_26_yi/content/1649408845878.shtml，那么最后的169408845878就是这两个参数的实参(可能这个数字也不是新闻的条数，毕竟太大了！)然后就是scriptSessionId，这个参数我在比较不同的新闻页时发现他们在’/‘之前的字符是相同的，不同的是’/‘后面的字符，于是我搜索了这个参数我们来搜索一下’/'后面的参数很明显这个参数是由当前时间与一个随机数决定的，而tokenify我认为是一个编码的函数，既然与随机数有关，那么我在传参时是不是可以忽略这个参数，随便写一个值呢，我们试一下：结果是这样子因此在爬取网页动态数据的时候，首先是找到这个值(因为有搜索选项，大部分时候都很容易找)，然后就是参数，或者说负载的问题了。如果你要爬取多个页面的动态数据，那么将这些参数的意义，或者说他们的特征弄清楚则是很重要的，这样才能传正确的参数获得自己想要的数据。}

我就爱股票网