贝博恩创新科技网

Offline Explorer教程如何快速上手?

Offline Explorer (HTTrack) 完整教程

什么是 Offline Explorer (HTTrack)?

Offline Explorer(其开源版本名为 HTTrack)是一个免费、开源的网站镜像/离线浏览工具,它的核心功能是:

Offline Explorer教程如何快速上手?-图1
(图片来源网络,侵删)
  • 下载整个网站或指定网页:你可以让它把一个网站(或网站的一部分)的所有文件(HTML、图片、CSS、JavaScript、视频等)都下载到你的电脑上。
  • 创建本地副本:下载完成后,你就可以在没有网络连接的情况下,像浏览正常网站一样,通过浏览器打开这些文件,实现离线浏览。
  • 保持网站结构:它会尽可能地保持原网站的目录结构和链接关系,让你在本地浏览时感觉和在在线上一样。

它就像一个“时光机”,可以把一个网站完整地“搬”到你的硬盘里。


主要用途

  1. 离线阅读:在飞机、火车、网络信号差的地区,提前下载好新闻、小说、技术文档等,随时随地阅读。
  2. 网站备份:备份你自己的网站或你喜欢的网站,以防网站关闭或内容被删除。
  3. 内容研究与分析:下载大量网页后,可以使用其他工具进行内容分析、数据挖掘等。
  4. 网络抓取:获取特定类型的数据(如图片、文章列表),为后续处理做准备。

下载与安装

  1. 官网下载:访问 HTTrack 官方网站 https://www.httrack.com/
  2. 选择版本
    • Windows: 下载 WinHTTrack 版本。
    • macOS: 下载 MacHTTrack 版本。
    • Linux: 通常通过包管理器安装,如 sudo apt-get install httrack (对于 Debian/Ubuntu)。
  3. 安装:Windows 版本的安装过程非常简单,一路点击 "Next" 即可,注意勾选你需要的组件即可。

核心功能详解与使用教程

我们将通过一个最经典的“第一步”项目来学习 HTTrack 的核心功能。

第一步:创建一个新项目

打开 HTTrack,你会看到一个简洁的界面,点击左上角的 "New" (新建) 按钮。

第二步:设置项目基本信息

在弹出的窗口中,填写以下信息:

Offline Explorer教程如何快速上手?-图2
(图片来源网络,侵删)
  • Base path (基础路径):这是你下载的网站文件将要存放的位置。D:\MyWebsiteBackup,HTTrack 会在这里创建一个以项目名命名的文件夹。
  • Project name (项目名称):给你的这个离线项目起个名字,方便识别。我的维基百科离线版
  • Wildcards (通配符):暂时可以不用管,保持默认即可。

填写完毕后,点击 "Next"

第三步:设置“行动” - 这是核心!

这是最关键的一步,决定了 HTTrack 如何下载网站,你会看到一个名为 "Action" 的窗口。

  • Project type (项目类型)
    • Mirror Web Site(s) (镜像网站)最常用的选择,它会下载整个网站,并保持其目录结构,当你更新项目时,它只会下载有变化的文件。
    • Mirror Web Site(s) - enhanced (增强版镜像):与上一个类似,但提供更多高级选项。
    • Test an existing mirror (测试现有镜像):检查你已下载的本地网站是否与在线网站同步。
    • Build an offline browser... (构建离线浏览器):创建一个可以搜索和索引你下载内容的 HTML 页面。
    • Simply copy a site (简单复制):只下载链接到的文件,不进行复杂的结构分析。

我们选择 "Mirror Web Site(s)",然后点击 "Next"

第四步:添加要下载的网址

"Enter the project addresses" 窗口中:

Offline Explorer教程如何快速上手?-图3
(图片来源网络,侵删)
  • Source URL (源网址):在这里输入你想要下载的完整网址,https://www.wikipedia.org/
  • Wildcards (通配符):这里非常强大,可以控制下载的范围。
    • (星号):匹配任意数量的字符。
    • (问号):匹配单个字符。
    • (竖线):排除。
    • (井号):包含。

常用示例:

  • 只下载主域名下的内容,不下载其他网站链接

    在 "Wildcards" 中输入: (这会排除所有外部链接)。

  • 下载主域名,但排除 forumshop 这两个目录
    • 在 "Wildcards" 中输入:|*.forum/*.shop/* (排除规则用 分隔)。
  • 只下载 HTML 页面,不下载图片、视频等
    • 在 "Wildcards" 中输入: (先排除所有),然后添加一个包含规则:+*.htm +*.html +*.php +*.asp

对于新手,建议先不设置 Wildcards,让它自由下载,体验完整功能。

输入网址后,点击 "Next"

第五步:设置代理与高级选项

  • Proxy (代理):如果你需要通过代理服务器上网,在这里设置,否则,保持默认。
  • Advanced Options (高级选项):点击这个按钮,可以进入更详细的设置。

高级选项 中的常用设置:

  1. Set (设置) -> Robot exclusion (Robots.txt)

    • Respect standard rules:遵守网站的 robots.txt 协议。强烈建议开启,这是对网站服务器的尊重。
    • Ignore all rules:忽略 robots.txt,可能会对服务器造成压力,甚至被封禁。新手不要使用
  2. Set (设置) -> Links (链接)

    • Maximum links per page:每个页面最多抓取的链接数,默认 -1 (无限制),对于大型网站,可以设置一个较小的值(如 100)来限制项目大小。
    • Depth (扫描深度)极其重要的选项!
      • 0:只下载你输入的那个首页。
      • 1:下载首页,以及首页上直接链接到的所有页面(一级链接)。
      • 2:下载首页、一级链接、以及一级链接页面上的所有链接(二级链接)。
      • 以此类推,对于大型网站,深度设置过大会导致下载量巨大,请谨慎使用。
  3. Set (设置) -> HTML/JavaScript/CSS...

    • 这里可以设置是否要下载图片、CSS 样式表、JavaScript 脚本、Flash 等。通常保持默认全部勾选,以确保页面能正常显示。

设置完毕后,关闭高级选项窗口,点击 "Next"

第六步:开始下载!

最后一步,点击 "Start" 按钮。

HTTrack 会开始分析网址并下载文件,你会看到一个实时的进度窗口,显示:

  • Files to add (待添加文件)
  • Files added (已添加文件)
  • KB/s (下载速度)
  • Elapsed/Remaining (已用/剩余时间)

下载完成后,进度窗口会自动关闭。


如何浏览离线网站?

下载完成后,找到你之前设置的 Base pathD:\MyWebsiteBackup),进入项目文件夹(我的维基百科离线版),你会看到一个名为 index.htmlindex.htm 的文件。

直接用你的浏览器(Chrome, Firefox, Edge 等)打开这个 index.html 文件,你就可以像在在线上一样浏览整个网站了!所有链接在本地都是有效的。


高级技巧与常见问题

技巧1:更新已下载的网站

会更新,HTTrack 可以轻松更新你的本地副本。

  1. 打开 HTTrack。
  2. 点击 "Existing" (现有) 按钮。
  3. 从列表中选择你之前创建的项目。
  4. 点击 "Next",然后直接点击 "Start"

HTTrack 会自动检查远程网站,只下载那些发生变化或新增的文件,非常高效。

技巧2:解决本地链接错误

有时,由于网站结构复杂,本地浏览时可能会遇到 "404 Not Found" 错误,这通常是因为 HTTrack 没能正确解析某些相对链接。

  • 检查项目设置:确保在高级选项中,"Links" -> "Advanced" 里的 "Convert absolute links to relative" (将绝对链接转换为相对链接) 选项是勾选的。
  • 重新下载:如果问题严重,可以删除旧项目,重新创建一个项目,并在 "Action" 步骤选择 "Mirror Web Site(s) - enhanced",它提供了更智能的链接处理。

技巧3:命令行使用

HTTrack 也支持命令行,适合自动化脚本和高级用户。 基本语法:

httrack "https://www.example.com" -O "D:\MyBackup" -r2 -%v
  • -O:指定输出目录。
  • -r2:设置深度为 2。
  • -%v:显示详细日志。

常见问题

  • Q: 下载速度很慢?
    • A: 检查你的网络连接,可以尝试在 "Advanced Options" -> "Network" 中降低 "Max connections per server" (每个服务器的最大连接数)。
  • Q: 下载的文件很少,或者页面显示不完整?

    A: 1. 检查 "Wildcards" 设置是否错误地排除了重要文件,2. 检查 "Links" -> "Depth" (扫描深度) 是否设置得太小,3. 检查 "Advanced Options" -> "HTML/JavaScript/CSS..." 中是否勾选了必要的资源类型(如图片)。

  • Q: 下载被中断了,如何继续?

    A: 直接点击 "Start" 继续即可,HTTrack 会从断点处继续下载。


注意事项与道德规范

  1. 尊重版权:下载仅供个人学习和离线使用,请勿用于商业用途或未经授权的传播。
  2. 遵守 robots.txt:务必在高级选项中开启 "Respect standard rules",遵守网站所有者的抓取规则。
  3. 不要过于频繁:对同一个网站进行过于频繁或大量的抓取,会给对方的服务器带来巨大负担,可能导致你的 IP 被封禁,合理控制抓取频率和范围。
  4. 仅用于合法目的:不要使用该工具进行恶意攻击、窃取数据等非法活动。

希望这份详细的教程能帮助你完全掌握 Offline Explorer (HTTrack)!开始你的离线探索之旅吧!

分享:
扫描分享到社交APP
上一篇
下一篇