Offline Explorer (HTTrack) 完整教程
什么是 Offline Explorer (HTTrack)?
Offline Explorer(其开源版本名为 HTTrack)是一个免费、开源的网站镜像/离线浏览工具,它的核心功能是:

- 下载整个网站或指定网页:你可以让它把一个网站(或网站的一部分)的所有文件(HTML、图片、CSS、JavaScript、视频等)都下载到你的电脑上。
- 创建本地副本:下载完成后,你就可以在没有网络连接的情况下,像浏览正常网站一样,通过浏览器打开这些文件,实现离线浏览。
- 保持网站结构:它会尽可能地保持原网站的目录结构和链接关系,让你在本地浏览时感觉和在在线上一样。
它就像一个“时光机”,可以把一个网站完整地“搬”到你的硬盘里。
主要用途
- 离线阅读:在飞机、火车、网络信号差的地区,提前下载好新闻、小说、技术文档等,随时随地阅读。
- 网站备份:备份你自己的网站或你喜欢的网站,以防网站关闭或内容被删除。
- 内容研究与分析:下载大量网页后,可以使用其他工具进行内容分析、数据挖掘等。
- 网络抓取:获取特定类型的数据(如图片、文章列表),为后续处理做准备。
下载与安装
- 官网下载:访问 HTTrack 官方网站 https://www.httrack.com/
- 选择版本:
- Windows: 下载
WinHTTrack版本。 - macOS: 下载
MacHTTrack版本。 - Linux: 通常通过包管理器安装,如
sudo apt-get install httrack(对于 Debian/Ubuntu)。
- Windows: 下载
- 安装:Windows 版本的安装过程非常简单,一路点击 "Next" 即可,注意勾选你需要的组件即可。
核心功能详解与使用教程
我们将通过一个最经典的“第一步”项目来学习 HTTrack 的核心功能。
第一步:创建一个新项目
打开 HTTrack,你会看到一个简洁的界面,点击左上角的 "New" (新建) 按钮。
第二步:设置项目基本信息
在弹出的窗口中,填写以下信息:

- Base path (基础路径):这是你下载的网站文件将要存放的位置。
D:\MyWebsiteBackup,HTTrack 会在这里创建一个以项目名命名的文件夹。 - Project name (项目名称):给你的这个离线项目起个名字,方便识别。
我的维基百科离线版。 - Wildcards (通配符):暂时可以不用管,保持默认即可。
填写完毕后,点击 "Next"。
第三步:设置“行动” - 这是核心!
这是最关键的一步,决定了 HTTrack 如何下载网站,你会看到一个名为 "Action" 的窗口。
- Project type (项目类型):
- Mirror Web Site(s) (镜像网站):最常用的选择,它会下载整个网站,并保持其目录结构,当你更新项目时,它只会下载有变化的文件。
- Mirror Web Site(s) - enhanced (增强版镜像):与上一个类似,但提供更多高级选项。
- Test an existing mirror (测试现有镜像):检查你已下载的本地网站是否与在线网站同步。
- Build an offline browser... (构建离线浏览器):创建一个可以搜索和索引你下载内容的 HTML 页面。
- Simply copy a site (简单复制):只下载链接到的文件,不进行复杂的结构分析。
我们选择 "Mirror Web Site(s)",然后点击 "Next"。
第四步:添加要下载的网址
在 "Enter the project addresses" 窗口中:

- Source URL (源网址):在这里输入你想要下载的完整网址,
https://www.wikipedia.org/。 - Wildcards (通配符):这里非常强大,可以控制下载的范围。
- (星号):匹配任意数量的字符。
- (问号):匹配单个字符。
- (竖线):排除。
- (井号):包含。
常用示例:
- 只下载主域名下的内容,不下载其他网站链接:
在 "Wildcards" 中输入: (这会排除所有外部链接)。
- 下载主域名,但排除
forum和shop这两个目录:- 在 "Wildcards" 中输入:
|*.forum/*.shop/*(排除规则用 分隔)。
- 在 "Wildcards" 中输入:
- 只下载 HTML 页面,不下载图片、视频等:
- 在 "Wildcards" 中输入: (先排除所有),然后添加一个包含规则:
+*.htm +*.html +*.php +*.asp。
- 在 "Wildcards" 中输入: (先排除所有),然后添加一个包含规则:
对于新手,建议先不设置 Wildcards,让它自由下载,体验完整功能。
输入网址后,点击 "Next"。
第五步:设置代理与高级选项
- Proxy (代理):如果你需要通过代理服务器上网,在这里设置,否则,保持默认。
- Advanced Options (高级选项):点击这个按钮,可以进入更详细的设置。
高级选项 中的常用设置:
-
Set (设置) -> Robot exclusion (Robots.txt):
- Respect standard rules:遵守网站的
robots.txt协议。强烈建议开启,这是对网站服务器的尊重。 - Ignore all rules:忽略
robots.txt,可能会对服务器造成压力,甚至被封禁。新手不要使用。
- Respect standard rules:遵守网站的
-
Set (设置) -> Links (链接):
- Maximum links per page:每个页面最多抓取的链接数,默认 -1 (无限制),对于大型网站,可以设置一个较小的值(如 100)来限制项目大小。
- Depth (扫描深度):极其重要的选项!
- 0:只下载你输入的那个首页。
- 1:下载首页,以及首页上直接链接到的所有页面(一级链接)。
- 2:下载首页、一级链接、以及一级链接页面上的所有链接(二级链接)。
- 以此类推,对于大型网站,深度设置过大会导致下载量巨大,请谨慎使用。
-
Set (设置) -> HTML/JavaScript/CSS...:
- 这里可以设置是否要下载图片、CSS 样式表、JavaScript 脚本、Flash 等。通常保持默认全部勾选,以确保页面能正常显示。
设置完毕后,关闭高级选项窗口,点击 "Next"。
第六步:开始下载!
最后一步,点击 "Start" 按钮。
HTTrack 会开始分析网址并下载文件,你会看到一个实时的进度窗口,显示:
- Files to add (待添加文件)
- Files added (已添加文件)
- KB/s (下载速度)
- Elapsed/Remaining (已用/剩余时间)
下载完成后,进度窗口会自动关闭。
如何浏览离线网站?
下载完成后,找到你之前设置的 Base path(D:\MyWebsiteBackup),进入项目文件夹(我的维基百科离线版),你会看到一个名为 index.html 或 index.htm 的文件。
直接用你的浏览器(Chrome, Firefox, Edge 等)打开这个 index.html 文件,你就可以像在在线上一样浏览整个网站了!所有链接在本地都是有效的。
高级技巧与常见问题
技巧1:更新已下载的网站
会更新,HTTrack 可以轻松更新你的本地副本。
- 打开 HTTrack。
- 点击 "Existing" (现有) 按钮。
- 从列表中选择你之前创建的项目。
- 点击 "Next",然后直接点击 "Start"。
HTTrack 会自动检查远程网站,只下载那些发生变化或新增的文件,非常高效。
技巧2:解决本地链接错误
有时,由于网站结构复杂,本地浏览时可能会遇到 "404 Not Found" 错误,这通常是因为 HTTrack 没能正确解析某些相对链接。
- 检查项目设置:确保在高级选项中,"Links" -> "Advanced" 里的 "Convert absolute links to relative" (将绝对链接转换为相对链接) 选项是勾选的。
- 重新下载:如果问题严重,可以删除旧项目,重新创建一个项目,并在 "Action" 步骤选择 "Mirror Web Site(s) - enhanced",它提供了更智能的链接处理。
技巧3:命令行使用
HTTrack 也支持命令行,适合自动化脚本和高级用户。 基本语法:
httrack "https://www.example.com" -O "D:\MyBackup" -r2 -%v
-O:指定输出目录。-r2:设置深度为 2。-%v:显示详细日志。
常见问题
- Q: 下载速度很慢?
- A: 检查你的网络连接,可以尝试在 "Advanced Options" -> "Network" 中降低 "Max connections per server" (每个服务器的最大连接数)。
- Q: 下载的文件很少,或者页面显示不完整?
A: 1. 检查 "Wildcards" 设置是否错误地排除了重要文件,2. 检查 "Links" -> "Depth" (扫描深度) 是否设置得太小,3. 检查 "Advanced Options" -> "HTML/JavaScript/CSS..." 中是否勾选了必要的资源类型(如图片)。
- Q: 下载被中断了,如何继续?
A: 直接点击 "Start" 继续即可,HTTrack 会从断点处继续下载。
注意事项与道德规范
- 尊重版权:下载仅供个人学习和离线使用,请勿用于商业用途或未经授权的传播。
- 遵守
robots.txt:务必在高级选项中开启 "Respect standard rules",遵守网站所有者的抓取规则。 - 不要过于频繁:对同一个网站进行过于频繁或大量的抓取,会给对方的服务器带来巨大负担,可能导致你的 IP 被封禁,合理控制抓取频率和范围。
- 仅用于合法目的:不要使用该工具进行恶意攻击、窃取数据等非法活动。
希望这份详细的教程能帮助你完全掌握 Offline Explorer (HTTrack)!开始你的离线探索之旅吧!
