业内新闻

怎么恢复数据库？先别慌，看看我刚刚处理的一个案例

上周三凌晨，一家中小型电商公司的运维老张火急火燎地给我打电话，说 MySQL 数据库突然崩了，所有表都提示“表不存在”，数据目录里 .ibd 文件还在，但 .frm 文件全消失了。他问我怎么恢复数据库，语气里带着那种“明天老板要查周报”的绝望。说实话，这种场景我见得太多了——文件系统损坏、误删表结构、磁盘坏道……但每次情况都得重新推演，因为没有任何两个故障是完全一样的。今天就跟大家掰扯掰扯，怎么恢复数据库这件事，没有什么万能公式，但有一套判断框架。 www.fixhdd.cn

先说说那个案例。老张的库是 InnoDB 引擎，没有独立表空间（ibdata1 共享表空间），.frm 文件被 rm 掉了。大多数人第一反应是“重建表结构”——没错，但知道建什么吗？他连 show create table 都跑不了。我让他先检查 ib_logfile 和 ibdata1 文件的完整性，用 strings 命令扫了一遍，发现数据字典信息其实还残留了一部分（InnoDB 的数据字典会缓存一些元数据）。这时候需要的是用 mysqlfrm 或者自己写解析脚本来从 .ibd 文件里提取表结构——注意，.ibd 文件里是有表定义信息的，但需要知道页大小、行格式等参数。我们当时用了 innodb_toolkit 里的 innodb-frm-reader，成功恢复了 80% 的表。剩下的 20% 因为索引损坏，只能通过全文搜索日志里的建表 DDL 来补。这个案例告诉我们：怎么恢复数据库，第一步一定是搞清楚“什么东西没丢，什么东西丢了，丢到什么程度”。技王数据恢复

故障判断：别急着敲命令，先做三件事

很多人遇到数据库故障第一反应是重启、或者 mysqldump 导出。大忌！尤其是 InnoDB，崩溃恢复机制可能掩盖更深的问题。我一般会按以下顺序排查：

www.fixhdd.cn

检查错误日志 — MySQL error log、系统日志（dmesg、journalctl），看有没有 I/O 错误、文件系统只读、CRC 校验失败等。这一步能马上判断是硬件问题还是逻辑损坏。
备份状态 — 问清楚最近的完整备份、增量备份、binlog 的位置跟完整性。别信有些人说“我有备份”，结果备份文件也坏了或者备份策略本身就有漏洞。
文件级别快照 — 如果 fs 还挂在，用 lsof 或 dd 把数据目录物理复制一份到别的磁盘，避免后续操作二次污染。

有一次客户（不是技王数据恢复的，是个外包项目）直接把 disk 搞成了 raw 分区，我做了全盘镜像后在镜像里扫描数据库页，居然发现 3 年前被删掉的表还有残留页——但那是特例，别指望。正常情况下，怎么恢复数据库 需要按部就班来。 www.fixhdd.cn

常见故障类型与应对概要

故障现象	大概率原因	首要操作
服务无法启动，报错 "corrupted page"	InnoDB 页损坏	设置 `innodb_force_recovery` 逐步递增测试，从 1 到 6，每级尝试导出
表打不开，但 .ibd 文件存在	数据字典不一致或 .frm 丢失	尝试 `ALTER TABLE ... DISCARD/IMPORT TABLESPACE` 或者使用第三方工具恢复结构
误删整个数据库	DROP DATABASE 或 rm -rf	立即停止写操作，检查 binlog 和物理日志，或者从备份做 point-in-time recovery
磁盘坏道导致文件读写错误	硬件问题	用 ddrescue 做磁盘镜像，然后从镜像恢复，别直接在坏盘上操作

注意，innodb_force_recovery 级别越高，数据完整性牺牲越大，能导出一行是一行。我之前在技王数据恢复的实验室里碰到过一个极端案例：级别 6 都启动不了，只能手工解析 .ibd 页文件——那真是硬核操作，但成功率只有 30%。别等到一刻才想办法，备份才是王道。

技王数据恢复

一步步实操：以 InnoDB 表空间损坏为例

假设你现在已经做了镜像或备份，数据库实例无法启动，错误日志里出现 InnoDB: Database page corruption on disk or a failed file read。那么怎么恢复数据库？我给你拆成几步，每一步都有可能踩坑。 www.fixhdd.cn

第一步：设置 innodb_force_recovery = 1

在 my.cnf 加上 innodb_force_recovery=1 然后启动 MySQL。如果正常启动，立刻用 mysqldump 导出所有表——注意，导出的 SQL 文件中可能包含损坏的行，后面要检查。如果报错仍然无法启动，递增到 2、3…… 每升一级都试一次导出。 www.fixhdd.cn

级别 1：忽略 checksum 错误。
级别 2：不回滚未完成的事务。
级别 3：不缓存页面。
级别 4：不回滚 undo log。
级别 5：不检查索引。
级别 6：完全不关心一致性，只做最简单扫描。

如果到了级别 6 连数据库进程都进不去，那只能走的路径——比如用 innodb_tablespace_scanner 或手工分析。技王数据恢复

第二步：使用第三方工具扫描表空间

我常用的是 innodb_ruby (Perl 写的) 和 undrop-for-innodb。这些工具可以从 .ibd 文件里提取记录。比如：

# 假设 .ibd 文件在 data/mydb/t1.ibdinnodb_space -f data/mydb/t1.ibd space-index-pages-summary

可以列出页的类型和索引信息，然后再用 --recover-data 选项提取行数据。需要注意的是，这种方法要求你知道表结构（列名、类型、顺序）。如果不知道，就试着从 .frm 备份或 binlog 里找线索。实在不行就猜——根据字段长度、字符集特征反推，但很耗时。

第三步：临时搭建恢复环境

别在生产环境直接操作。我一般会开一台虚拟机或者 Docker 容器，把镜像文件挂进去，安装同版本的 MySQL，然后导入恢复出来的数据。这样可以反复尝试，不怕破坏原始文件。

实际案例：一次误操作恢复的曲折过程

说个有点离奇的事情。有一回一个创业团队，他们在开发环境跑的是 PostgreSQL，生产库是 MongoDB……结果开发手滑在 PostgreSQL 里执行了 TRUNCATE 重要的业务表。他们找到我问怎么恢复数据库，我说 PostgreSQL TRUNCATE 不像 DELETE，它直接回收存储空间，但没覆盖数据页（只是标记为空闲）。我让他们立刻停掉 autovacuum，然后从文件系统层面用 pg_dirtyread 插件尝试读取。但糟糕的是，他们因为空间不足，在 TRUNCATE 之后又插入了新数据，覆盖了一部分页。只恢复了 70% 的数据。这个教训是：任何恢复操作前，写保护优先。

另一个案例是我在技王数据恢复公司处理过一个 SQL Server 数据库，.mdf 文件头损坏，附加时报错。我们用了 DBCC CHECKDB 加 REPAIR_ALLOW_DATA_LOSS 选项，但直接修复会把很多索引标签删掉。更好的办法是先做 DBCC CHECKDB ... REPAIR_REBUILD 应急，然后用第三方工具比如 ApexSQL Recover 扫描底层数据页。说实话，商业工具成功率也不到百分之百，关键还是看坏道的分布情况。

注意事项：这几点能救你命

不要轻易重启数据库 — 特别是在故障发生后，InnoDB 的 crash recovery 可能会自动合并一些损坏日志，让原来的“可恢复”状态变成不可逆。
先备份损坏的原始文件 — 用 dd 或 rsync 做一个完整的物理镜像，然后再对镜像操作。
低版本工具和高版本不兼容 — 如果 .ibd 文件来自 MySQL 5.5，你拿到 8.0 的环境上可能会直接 crash，必须匹配小版本号。
字符集和排序规则 — 恢复数据时容易忽略这一点，导致导出后乱码。可以用 hexdump 对比原始页看看是否一致。
binlog 是的救命稻草 — 如果开启了 binlog 且保存完整，可以尝试基于时间点的恢复，但注意 binlog 本身也可能损坏。用 mysqlbinlog --stop-never 解析时可能遇到校验错误。

总结：怎么恢复数据库不是问出来的，是试出来的

回到最初的问题，怎么恢复数据库？答案永远是“看你丢了什么，还剩下什么”。我的建议是：第一，平时做好备份策略（全量+binlog/归档日志，每天至少一次异地备份）；第二，遇到故障先冷静，按本文的故障判断流程走一遍；第三，如果自己搞不定，别硬来，找专业团队——比如技王数据恢复这种有实验室的，他们能拆盘、做镜像、手工解析页文件，虽然价格不菲，但比丢数据强。记住，每个恢复案例都是独一无二的，别信所谓的“一键恢复”软件，那大部分只能处理误删文件，数据库级别的恢复差远了呢。

说个有意思的：我最近在做一个 Oracle ASM 磁盘组损坏的恢复，光找磁盘头就花了三天……等搞定了再跟大家聊。