一号热搜榜,为您提供最新的热搜资讯,热搜榜信息!

爬虫|如何快速获取网页URL链接

百科热搜 作者:互联网收集 热度:259

爬虫|如何快速获取网页URL链接

在上一篇推文Gooseeker抓取豆瓣电影排行榜-剧情片中,我向大家分享了如何爬取“豆瓣排行榜-剧情片”这个类别中评分在前10%的电影。

这篇推文将是对上篇文章的进一步深入,主要介绍如何将其他分类中排在前10%的电影一起抓取下来。

url链接

其实,这个操作非常简单,只需要在上篇推文创建的规则上添加一个条件就可以了。即在“DS打数机”中,右键点击“主题—管理线索—添加”,按提示,将URL网址依次添加进来即可。

url链接

但,最大的问题在于,如何获取URL?在这里,如果分类网址只有29个,暂且还可以用手动复制粘贴的方法获取;但如果今天我们希望获取的网址信息有成百上千个,手动获取得花费多少时间啊~

接下来我就教大家一个简单的方法,用这个办法,我们可以更快更准确的获取到网址信息。

我在之前的文章中已经说到,URL网址的组成都有它的规律,所有的网页信息都有它们的HTML源代码。

只要稍作观察,就不难发现,豆瓣分类排行榜的网址的变动主要集中在下图标注的nametype上面:

现在,在豆瓣电影排行榜这个网页中,点击F12,调出网页源代码,点击下图红色椭圆框选的按钮,快速的定位到分类网址所在的位置。

如图可知,每个span属性下存放着一个href属性,里面包含了我们先要的分类名称name和类型代码type:

现在选中所有分类属性所在的上一级属性

,右键选择“copy—copyelement”:

接下来,打开Excel,将内容Ctrl+V粘贴进来。

在这里,我主要通过Ctrl+H“替换”的方式,将重复且多余的内容一一替除,然后手动删除了小部分信息冗杂部分;最后用“数据—分列”的方法将依然不能删除的多余信息分列出去,并删除。经过删减,最后得到了如下图所示的B列;

最后,用公式“=$A$1&B1&$C$1”将URL网址的前后重复部分与B列合并,得到了所有分类的URL网址:

选择D列,按Ctrl+C,再按“选择性粘贴”Ctrl+Alt+V,选择“数值”Alt+V,确定。

最后,将D列网址复制,粘贴到推文最初提到的添加线索栏中:

添加完成后,按确定,右键点击主题“电影爬”,查看“统计线索”,如下图所示,线索有29条,也就是有29个URL网址处于待抓取状态。

最后,点击“单搜”,将线索改为“29”,确认,抓取完成即可。

该案例中需要处理的URL网址只有29条,可能你并不能感受到这种方法有多么便利,其他类型的URL网址也不可能都像豆瓣网址这样组合。

所以,这篇推文主要提供的是这种发现和处理URL的思路,通过这种思路,大家可以更加得心应手的解决URL网址的抓取问题。

如果大家想要了解更多,可以点击阅读原文,学习松鼠的爬虫视频课程哦。~

注:如直接点击阅读原文购买后,购买账号即为你的微信号。

标签: URL     爬虫     网页