爬虫｜如何快速获取网页URL链接

2023-06-23 18:29:41 百科热搜作者：互联网收集热度：259

爬虫｜如何快速获取网页URL链接

在上一篇推文Gooseeker抓取豆瓣电影排行榜-剧情片中，我向大家分享了如何爬取“豆瓣排行榜-剧情片”这个类别中评分在前10%的电影。

这篇推文将是对上篇文章的进一步深入，主要介绍如何将其他分类中排在前10%的电影一起抓取下来。

其实，这个操作非常简单，只需要在上篇推文创建的规则上添加一个条件就可以了。即在“DS打数机”中，右键点击“主题—管理线索—添加”，按提示，将URL网址依次添加进来即可。

但，最大的问题在于，如何获取URL？在这里，如果分类网址只有29个，暂且还可以用手动复制粘贴的方法获取；但如果今天我们希望获取的网址信息有成百上千个，手动获取得花费多少时间啊~

接下来我就教大家一个简单的方法，用这个办法，我们可以更快更准确的获取到网址信息。

我在之前的文章中已经说到，URL网址的组成都有它的规律，所有的网页信息都有它们的HTML源代码。

只要稍作观察，就不难发现，豆瓣分类排行榜的网址的变动主要集中在下图标注的name和type上面：

现在，在豆瓣电影排行榜这个网页中，点击F12，调出网页源代码，点击下图红色椭圆框选的按钮，快速的定位到分类网址所在的位置。

如图可知，每个span属性下存放着一个href属性，里面包含了我们先要的分类名称name和类型代码type：

现在选中所有分类属性所在的上一级属性

，右键选择“copy—copyelement”：
接下来，打开Excel，将内容Ctrl+V粘贴进来。

在这里，我主要通过Ctrl+H“替换”的方式，将重复且多余的内容一一替除，然后手动删除了小部分信息冗杂部分；最后用“数据—分列”的方法将依然不能删除的多余信息分列出去，并删除。经过删减，最后得到了如下图所示的B列；

最后，用公式“=$A$1&B1&$C$1”将URL网址的前后重复部分与B列合并，得到了所有分类的URL网址：

选择D列，按Ctrl+C，再按“选择性粘贴”Ctrl+Alt+V，选择“数值”Alt+V，确定。

最后，将D列网址复制，粘贴到推文最初提到的添加线索栏中：

添加完成后，按确定，右键点击主题“电影爬”，查看“统计线索”，如下图所示，线索有29条，也就是有29个URL网址处于待抓取状态。

最后，点击“单搜”，将线索改为“29”，确认，抓取完成即可。

该案例中需要处理的URL网址只有29条，可能你并不能感受到这种方法有多么便利，其他类型的URL网址也不可能都像豆瓣网址这样组合。

所以，这篇推文主要提供的是这种发现和处理URL的思路，通过这种思路，大家可以更加得心应手的解决URL网址的抓取问题。

如果大家想要了解更多，可以点击阅读原文，学习松鼠的爬虫视频课程哦。~

注：如直接点击阅读原文购买后，购买账号即为你的微信号。