python爬取网页标题和链接

晋江文学城网友交流区,俗称兔区,是一个以明星八卦为主要讨论内容的匿名论坛。 1:该区帖子特点如下: 第一:论坛中每一个帖子回复只会显示一个id; 第二:同一个帖子里,同一个登录账号的id是固定不变的。 2:在取得一个帖子内有多少个固定id时,按照以下思路: 第一:该贴有多少页; 第二:找到id; 第二:对于多次回复的同一账号id的去重。 3:分析网页的特点: 第一:定位这帖子共多少页:

晋江文学城网友交流区,俗称兔区,是一个以明星八卦为主要讨论内容的匿名论坛。

1:该区帖子特点如下:

第一:论坛中每一个帖子回复只会显示一个id;

第二:同一个帖子里,同一个登录账号的id是固定不变的。

2:在取得一个帖子内有多少个固定id时,按照以下思路:

第一:该贴有多少页;

第二:找到id;

第二:对于多次回复的同一账号id的去重。

3:分析网页的特点:

第一:定位这帖子共多少页:

首先打开帖子的第一页:

以帖子为例(找一个不引战的帖子很难,我寻思二次元应该好一点)

网址:http://bbs.jjwxc.net/showmsg.php?board=2&boardpagemsg=1&id=6577455

可以看到首页有一个“共5页”,所以我们就可以知道这个帖子有5页了,所以把这个参数取下来就行。

具体参数右键-“检查网页源代码”可以找到:

58694dada5af?utm_campaign=haruki

1.PNG

知秋君
上一篇 2024-07-22 21:48
下一篇 2024-07-22 21:12

相关推荐