版本介绍
- 此版本是对第三版的代码进行了一些调整,优化了代码结构并提升了爬虫的运行速度
- 此版本主要改动如下
- 发现目标网站的所有页面均使用相同的JavaScript和CSS文件,第三版中对每个页面都进行页面爬取浪费了大量时间重复做了多次相同代码的保存。此版本中使用了boolean,确保这些文件只下载一次,有效的降低了爬虫的运行时间(运行时间从第三版的11分钟左右下降至约2分钟)
- JavaScript和CSS的保存代码结构几乎一模一样,此版本中将保存这些文件的方法单独写成一个function
- 增加创建文件夹和解析url的function,使得代码更加清晰,增加了可读性
- 此版本的运行和展示和第三版相同,仅对爬虫的代码(crawlerv3.go)进行了改动,故对其的运行及结果不做重复展示