扒网页这个思路非常简单:
- 通过 Chrome 等桌面工具1 ,找到我们要扒的对象(比如微博配图)的链接
- 通过捷径获取目标网页(比如某条微博)的 HTML 文件
- 在这个 HTML 文件中匹配出我们要扒的对象(还是微博配图)的链接,并将其下载下来
所有的套路都是如此,只不过可能在找到要扒的对象的链接,或者匹配它的时候会比较麻烦。出于文章的可读性和简洁性,我不方便过多展开一些不相关的细节。
因此,为了让各位尝试更多扒网页的思路,能够处理更多不同的情况,我把一些自用的以扒网页为手段获取内容的捷径提供给大家,作为练习。
练习一:批量获取 iDB 的壁纸
iDB 是一家苹果相关的博客,与其它同类博客比较不同的是它的内容涉及了越狱。同时它们有一个壁纸专区,不定期发布一些高质量壁纸供读者下载。
因为它每一期文章里都有多个壁纸,我就觉得老手动一张一张下载特别麻烦,于是就用扒网页的思路做了一个捷径,做到了批量下载一篇文章中多个壁纸的效果。
获取 iDB 壁纸
练习:下载这篇文章中的所有壁纸
参考捷径:批量获取 iDB 壁纸
注:在这个捷径里我用的是「获取网页内容」来获取的 HTML 文件,同时我没有把保存图片的步骤放在重复之中。你可以尝试着理解一下为什么这样也可以成功。
练习二:获取 Existential Comics 中的漫画
Existential Comics 是一个玩哲学梗的漫画网站,对看得懂的人来说很有意思,我会收藏它们的漫画。
下载 Existential Comics 中的漫画
练习:下载这个页面里的漫画
练习三:苹果钦定的 iPad Pro 测评
苹果在《iPad Pro:The reviews are in》这篇文章里汇集了一些苹果钦点的 iPad Pro 测评,当时我想要从中选择一些保存到 Pocket 里,但是觉得如果一篇一篇手动保存很蠢,随即做了一个捷径,来帮我筛出所有的文章,并且为我提供选择,让我决定把哪些发到 Pocket 之中。
练习:制作捷径将《iPad Pro:The reviews are in》这篇文章中的所有测评发到你的稍后读服务
参考捷径:获取苹果钦定的 iPad Pro 测评
注:这个捷径里我用了整合词典的方法,比较值得借鉴。
练习四:Instagram 图片、视频下载
这是 @Se7en_YXS 做的获取 Instagram 图片、视频的捷径,保守估计超过 10 万人下载了。这个捷径用的也是扒网页的方法,而且里面有对视频、图片格式的特殊判断,以及正则表达式的组匹配,值得学习的点很多。
练习:制作能够扒出 Instagram 图片的捷径。
参考捷径:Instagram 全类型下载
- 1iOS 上有一个体验最捷径的工具叫 Web Tool:https://itunes.apple.com/us/app/ergo-web-tools/id1064318327?mt=8 但是非常贵,所以没有做比较详细的说明。在移动端做这类事比较多的人可以用它试试,我个人比较常用。