逆向中常常出现一些加密算法,如果我们能对这些加密算法进行快速识别则会大大减少我们逆向的难度,虽然IDA已有密码分析神器Findcrypt,但掌握手动分析方法能帮助我们应对更多的情况。这篇文章将介绍逆向中常见的单项散列算法和对称加密算法的识别方法。
在很长一段时间里我经常发现自己面对复杂的加密算法无从下手,可能是因为还没有系统学过密码学吧orz,总之这个问题困扰了我很久。于是最近我花了一些时间来解决自己在密码学这块的薄弱点,写下这篇文章的目的之一也是为了巩固所学知识。
加密算法的部分没有涉及公钥加密算法(因为我不会hh)。每个算法都有一个例子,这些例子出自《加密与解密(第4版)》第6章的随书附带文件和各大比赛中的题目。
0x00. 目录
单向散列算法:
对称加密算法:
0X01. MD5
MD5(Message Digest Algorithm)消息摘要算法对输入的任意长度的消息进行运算,产生一个128位的消息摘要。
MD5的特征是会出现下图中 A,B,C,D 这四个常量。
这里我们直接用《加密与解密(第4版)》随书文件MD5KeyGenMe.exe来分析。
在导入表中找到GetDlgItemTextA函数定位关键代码,两次GetDlgItemTextA函数读取的应该分别是Name和Serial Number:
sub_4012B0函数我们点进去看看发现了MD5的几个特征常量:
还原一下符号,需要注意的一点是连续调用两次MD5_Update相当于把两次的输入拼接后调用一次MD5_Update的结果:
写出注册机:
1 2 3 4 5 6 7 8 9 |
|
Findcrypt插件能帮助我们快速找到这些常量,不过这里还是着重讲手动分析的方法。
0x02. SHA
安全散列算法(Secure Hash Algorithm,SHA)包括SHA-1、SHA-256、SHA-384和SHA-512,分别产生160位、256位、384位和512位的散列值。
类似于MD5,SHA算法使用了一系列的常数:
还是用随书文件SHA1KeyGenMe.exe来分析。
还是先通过导入表定位关键代码:
发现sub_401000函数中出现了SHA1算法用到的常量:
还原下符号:
写出注册机:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 |
|
0x03. RC4
RC4是一种比较简单的流密码,该算法虽然没有用到特征常量,但是特征也比较容易识别。
分析RC4 Sample.exe文件。
还是通过导入表找到关键代码:
sub_401000函数明显具有RC4密钥调度算法(KSA)的特征:
sub_401070函数是RC4算法的第二步:
0x04. TEA
TEA算法是分组密码,分组长度为64位,密钥长度为128位,采用Feistel网络。
其加密过程也非常简单,下面的代码摘自Wikipedia:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
其中特征常量delta是由黄金分割点得来的,delta = 0x9E377989。TEA的变体XTEA和XXTEA都用到了这个常量,但是加密过程不同,在识别算法时需要注意。
在加密轮数方面,作者推荐的加密轮数是64轮,即循环32次,也可以采用其他加密轮数,比如32轮或者128轮,在分析的时候也需要注意。
补充Wikipedia上的一些资料:
分析TEAKeyGenMe.exe:
sub_401380函数中出现了MD5特征常量:
sub_401000函数中出现了TEA特征常量,明显为TEA算法:
整个加密过程是先取MD5(name)的前8个字节作为密钥对序列号进行TEA加密,加密的结果再与与MD5(name)的前8个字节异或,异或的结果与MD5的后8个字节比较。
写出注册机:
1 2 3 4 5 6 7 8 9 10 11 |
|
我在网上找了半天也没找到个好用的TEA的Python实现,干脆自己写了个:已上传GitHub
0x05. DES
DES全称为Data Encryption Standard,即数据加密标准,是一种使用密钥加密的分组算法。
DES同前面的TEA一样,都采用了Feistel网络,其加密过程可以用以下两个图表示:
Figure 1— The overall Feistel structure of DES
Figure 2—The Feistel function (F-function) of DES
图一中的IP和FP分别代表初始置换(Initial Permutation)和末尾置换(Final Permutation),图二中的S1到S8是8个置换盒(Substitution-Box),这些都可以作为识别DES算法的特征。
随便在GitHub上扒一份源码,就能找到这些常量:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 |
|
在2020祥云杯的某道APK逆向里,Findcrypt插件失效(可能是Findcrypt分析不了ARM框架下的文件),所以我们只能靠手动分析找到DES的特征(以下是S1到S8):
还有一些别的特征,都可以帮助我们快速识别DES算法:
0x06. AES
AES(Advanced Encryption Standard,高级加密标准)是用于代替DES的新一代加密标准。AES具有128比特的分组长度,支持128比特、192比特和256比特的密钥长度。
AES的加密过程:
SubBytes函数:
我们识别AES的方法就是找到AES的SubBytes函数中使用的这个S-box。
在GitHub上扒一份源码:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 |
|
下面分析AESKeyGenMe.exe文件。
初步分析关键代码:
在sub_401EC0函数中找到AES的S_box和S_box的逆,基本确定是AES加密,没有找到iv,推测是ECB模式:
密钥:
写出注册机:
1 2 3 4 5 6 7 8 9 |
|
0x07. SM4
SM4是国密算法,由国家密码局发布。SM4是一个分组算法,分组长度为128比特,密钥长度为128比特,其结构是Fesitel网络的一个变体。
我们识别SM4算法的方法同样是找到SM4的S-box(在GitHub上找的源码):
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
拿2020纵横杯的第一道逆向题friendlyRE举例。
我们直接找到关键代码,这里是比较了Str1和Str2,通过交叉引用可以确定Str2加密过程,Str2为"2NI5JKCBI5Hyva+8AZa3mq!!":
再去找Str1的加密过程,发现有个地方用到了Base64表:
并且表是变换过的,第一次是大小写互换,第二次相当于是把表的前32位和后32位互换:
继续找找到了SM4的S-box:
找到key:
整个过程大概就是把输入经过SM4加密之后再经过一个变表的BASE64再与"2NI5JKCBI5Hyva+8AZa3mq!!"比较,写出exp:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 |
|
理论上是可以这么写,但是gmssl库的SM4的padding方式跟题目里SM4的padding方式不一致,导致无法解密。
所以换工具解密:
Hex2Str,得到最后的flag为:DoyouKnowVEHSEH!
0x08. ChaCha20
ChaCha系列流密码,作为Salsa密码的改良版,具有更强的抵抗密码分析攻击的特性,“20”表示该算法有20轮的加密计算。
ChaCha20有一个初始矩阵,矩阵的输入为一个256位的密钥、64位随机数、64位计数器值以及4×32位的常数,它们均填充在32位整型数组中作为初始矩阵。排列方式如下:
四个常数0x61707865 0x3320646e 0x79622d32 0x6b206574按小端存储转为ASCII字符是"expand 32-byte k",这是我们用来识别ChaCha20算法的主要特征。
分析今年年初*CTF的一道题Favourite Architecure flag0,riscv架构的文件只能用Ghirda分析。由于未知原因main函数的反汇编失效了,只能手撸汇编。
我们直接从打印错误的代码开始分析,有两个大跳转跳到了这里,往回看能找到能找到两个地方调用的是同一个函数,估计是对加密结果进行比较:
从第一次比较分析,先把用来比较的数据dump下来:
1 |
|
从比较函数往前找,找到了这个很诡异的地方:
百度搜索关键词expand 32-byte k找到了GitHub上的一处代码:
一比对发现是几乎一模一样(实际上并不一样),锁定第一个加密算法是ChaCha20:
顺藤摸瓜找到密钥:
然而用了各种Python库和在线网站都解密不了,一度怀疑人生...
后来分析发现了题目里用到的ChaCha20算法貌似跟正常的ChaCha20算法不太一样,一般来说ChaCha20算法输入的Nonce(随机数)是8字节,题目中的ChaCha20算法却给了12个字节的Nonce,于是改变思路去GitHub上翻了几个ChaCha20的C语言实现,找到了题目用到的源码:
比对下来发现是完全一样,依葫芦画瓢写出exp的第一部分:
1 2 3 4 5 6 7 8 9 10 11 12 13 |
|
flag{have_you_tried_ghidra9.2_decompiler_
其实更好的方法是直接动态调试dump密钥流异或,无奈riscv的动态调试环境没搭起来。
然而这种ChaCha20实现到底是变体还是翻车就不知道了...
第二部分则是一个很明显的TEA:
写出第二部分的exp:
1 2 3 4 5 6 |
|
if_you_have_hexriscv_plz_share_it_with_me_thx:P}
完整的flag:
flag{have_you_tried_ghidra9.2_decompiler_if_you_have_hexriscv_plz_share_it_with_me_thx:P}
0x09. 总结
最后再总结一下识别单向散列算法和对称加密算法的方法:
- 直接用IDA的插件Findcrpyt
- RC4、TEA这些流程比较简单的算法可以直接通过加密过程识别
- 一些用到了常量的算法,可以通过它的特征常量识别。比如TEA的delta、ChaCha20的sigma、DES和AES以及SM4的S-Box等等
- 善用GitHub,作为老程序员,这种复杂的加密算法一般都是在GitHub上抄的(至少我不会自己写hh)
第五届安全开发者峰会(SDC 2021)10月23日上海召开!限时2.5折门票(含自助午餐1份)
最后于 2021-2-7 01:27
被34r7hm4n编辑
,原因:
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论