# 数据加密用 MD5、SHA-1 合适么？

日常开发工作中，我们经常会遇到数据需要加密的场景。比如用户的登录密码需要在数据库中以密文方式存储；校验明文传输的数据是否被篡改过。

这种时候，可能你的第一反应就是“我们可以用 md5、sha1 函数来完成数据加密”。那么你是否想过，这两个函数到底是什么？适合在什么时候用？让我们一起来探索一下。

# 什么是单向散列函数？

MD5、SHA-1 这两个加密函数在密码学上，都归属于「单向散列函数」，跟它们同属一类的还有：MD2、SHA-0、SHA-256、SHA-512 等单向散列函数。

那么什么是单向散列函数呢？从字面上解读的话，这类函数的理解主要落在「单向」和「散列」两个词上。在密码学上，单向函数、散列函数分别是不同类型的函数。他们分别是：

单向函数是正向计算容易、逆向运算困难的函数
散列函数是一个可以把任意大小的数据，转换成固定长度的数据的函数

所以单向散列函数其实就是这两者的结合，它的主要特征体现就是：逆向运算困难、构造碰撞困难。

# 保护数据完整性

基于单向散列函数逆向运算困难、构造碰撞困难的特性，它主要的作用场景就是为了解决数据信息完整性的问题。反应到我们日常实际遇到的业务场景比如有开头提到的「密码加密」以及「数据签名」。

在密码加密的场景下，使用单向散列函数是为了保证用户注册初始化/刚修改的新密码，与每次登陆时所使用密码明文一致（明文数据完整未被篡改）时可认证通过进入系统。

在数据签名的场景下，使用单向散列函数是为了保证在数据传输过程中，签名所保护的数据信息没有被恶意篡改（比如付款金额从 99 改成 0.1）。当然正常情况下，数据签名时双方还会同时持有一个约定好的密钥数据。

另外在一些文件指纹、信息集指纹的场景下，单向散列函数均有着广泛的使用。

# 它们安全么？

了解了单向散列函数的适用场景后，我们再看看它们在安全上的问题。

正式讲算法安全问题之前。我简单的搜索了一下目前我们基于 iMingYuan 框架下的业务代码中，用到了 md5 加密函数的代码。我发现从少量仓库的代码来看，至少从 2018 年至今，我们系统中各处的业务功能陆续有在使用 md5 进行数据加密。甚至连 OSS、aliyun、wxPay 相关的一些 SDK 中均搜出了对 md5 函数的使用。那么我们接着看下去，看看 md5 函数到底安不安全。

衡量一个加密函数的安全强度，有一个重要的指标，那就是：破解该算法所需进行的运算次数。衡量的单位是「位」，如果一个加密函数，只需要计算 1024（2^10）次就可以破解，那么我们将他的安全强度称之为 10 位。

在密码学领域中最新推荐的三个常用指标分别是： ● 美国的 NIST（国家标准技术研究所) ● 德国的 BSI（联邦信息安全办公室） ● 欧洲的 ECRYPT-CSA（欧洲卓越密码网络）

目前 MD5 的安全强度仅有 ≤18 位，而 SHA-1 的安全强度也只有 57.5 位。下图是目前业内常用的一些单向散列函数的摘要信息对比：

可能看表格只是一个安全强度的数字，大家心里没有准确的一个关于「到底有多强」的安全强度概念。我举个栗子：MD5 的安全强度 18 位来看，如果假设现在计算机 1 毫秒可以运行一次计算，那么破解一个 MD5 密文，我们仅需花费 2^18 = 262144ms，折合仅需 4.34 分钟即可。或许你会很惊讶，但目前 MD5 的安全强度就是这么弱。

那么 57.5 位安全强度的 SHA-1 函数呢？在 2015 年的时候，按照当时亚马逊云计算算力的定价来估算，57 位安全强度的破解成本大致是 10w 美元。而到了 2020 年一些密码学家最新的研究表明，当下 SHA-1 的攻击成本仅为 4.5w 美元。这个数字对于一些高价值的数据资源来说，都是非常小的数目。

# 用什么才安全？

在加密算法的选择上，有个简单的标准：一般而言，应该选用现行的、流行的算法。现行推荐的算法，保证了算法的安全性。流行的算法，成熟的实现会考虑实现优化，包括 CPU 扩展指令的支持。

根据前文提到过的目前相对严格的 ECRYPT-CSA 建议来看。如果我们正在做的系统/功能你预估它会运行 5-10 年，那么我们可以使用 128 位安全强度的算法，比如 SHA-256、SHA3-256。如果预估系统至少运行 10 年、20 年以上的，最好还是使用 256 位强度的算法，比如 SHA-512、SHA3-512 等。

ps: 128 位安全强度的算法，建议只用在 2028 年之前主要是考虑到可能即将到来的量子计算时代。128 位安全强度的算法在我们当下的云计算时代中，还可以保有较高的抗破解安全性，但又不足以对抗量子计算的算力攻击。而 512 位安全强度的算法，至少从目前来看是足以抵御量子计算的算力攻击。

# THE END

最后，希望大家今后在进行相关开发工作时，能够选择合理的算法来支撑功能的实现，而不再是盲目的使用 md5、sha1 这些函数。或是遇到与多方系统开发沟通协作时，能够在数据安全的问题上持有初步的判断并能合理的分析问题。thx