版本介绍

  • 根据观察,目标网站大致结构如下
  • 我们决定将爬取的所有东西都放在downloaded文件夹
  • 如果downloaded文件夹不存在,会自动在当前文件夹中创建downloaded文件夹。
  • 如果是章节首页,就会创建对应的文件夹并将章节首页以index.html形式保存在文件夹中
    • 如上文的architecture,会在downloaded文件夹中创建architecture文件夹,章节首页在architecture文件夹中被保存为index.html
  • 如果是章节内容,则直接保存在对应章节的文件夹下,以url中的名称保存
    • 如上文的protocol_layers.html就会被保存在architecture文件夹
  • 根据前文目标网站元素中的观察,图片被存放于assets文件夹中,于是在downloaded文件夹中创建assets文件夹用来保存图片
  • 当遇到图片时就按照url中的名称将图片保存在assets文件夹中
  • 由于没有爬取CSS和javaScript文件,所以页面仅有文字和图片部分
  • 由于章节首页如architecture在网页上的相对路径就为architecture,但保存为了index.html所以点击打开章节首页无法成功,Safari会打开architecture文件夹

results matching ""

    No results matching ""