原创干货 | 【恶意代码分析技巧】02-exe_python

  • A+

1.python虚拟机

计算机发展至今已经有了机器语言、汇编语言和高级语言三种。计算机能够直接识别的是机器语言,不同的CPU使用的机器语言不是完全相同的;汇编语言本质上是和机器语言是一样的,只不过汇编指令采用了英文标识符,它和机器语言一一对应;高级语言是对人类友好的语言,但计算机是不能直接识别高级语言的,高级语言需要翻译成机器语言,然后才被计算机识别。
高级语言被翻译成机器语言的过程分为两类,第一种是编译,第二种是解释。编译执行的程序在执行前,会先通过编译器进行编译,把高级语言转变为机器语言,然后再执行;解释执行的程序在执行时,由解释器对程序逐行解释成机器语言,一边解释一边执行。编译类的程序一旦修改,必须修改源代码,然后重新编译执行;解释类的程序进行修改,只需要修改相应行代码即可运行,即使代码出错也不会影响前面代码的执行。
python是一种脚本语言,但python“翻译”的过程中,不仅需要解释还需要编译,这是因为python是一门基于虚拟机的语言。
一般我们都是说python通过python解释器解释执行,但实际上python是利用字节码虚拟机解释执行的。python先把代码(.py文件)编译成字节码,字节码存放在内存中的PyCodeObject对象中,然后将交给字节码虚拟机,然后虚拟机会从编译得到的PyCodeObject对象中一条一条执行字节码指令。当Python程序运行结束时,Python解释器则将PyCodeObject写入到.pyc文件中,.pyc文件在磁盘中保存。当python程序第二次运行时,首先程序会在硬盘中寻找.pyc文件,如果找到,则直接载入,不需要编译就能载入python虚拟机执行,否则就重复上面的过程。
所以,python是先编译然后再解释执行的。

图片 94.png
再补充一点,PyCodeObject对象的创建时机是模块加载的时候,即import。
Python test.py会对test.py进行编译成字节码并解释执行,但是不会生成test.pyc。
如果test.py加载了其他模块,如import util,Python会对util.py进行编译成字节码,生成util.pyc,然后对字节码解释执行。如果想生成test.pyc,我们可以使用Python内置模块py_compile来编译。加载模块时,如果同时存在.py和.pyc,Python会尝试使用.pyc,如果.pyc的编译时间早于.py的修改时间,则重新编译.py并更新.pyc。

2.pyInstaller

想要运行python程序(.py),必须安装python环境,因为python程序(.py)需要借助python解释器才能正确执行。如果我们将.py和python解释器放到同一个程序中,那么岂不是就不需要外部的python解释器?python程序(.py)就能像exe程序一样独立运行了?
事实上pyinstaller就是这么做的,它做的更彻底,它将.py直接变为了.exe或.elf。pyInstaller把python解释器和py脚本打包成一个可执行的文件,虽然降低了运行效率,但拓宽了程序的应用场景。
打包的时候,pyInstaller输入你指定的的脚本,首先分析脚本所依赖的其他脚本,然后去查找,复制,把所有相关的脚本收集起来,包括Python解释器,然后把这些文件打包进一个可执行文件里面。
pyInstaller打包的可执行程序核心是一个bootloader,执行的时候,会在临时文件夹下面创建一个_MEIXXXXX的文件夹,然后 bootloader 会把 python 脚本中用到的一些文件解压扔进去,大部分是库文件(dll或so)。接下来就是执行 python 脚本了,当程序结束之后会删除这个文件夹。

3.py to exe

首先安装pyinstaller模块:

图片 78.png
pyinstaller基本用法,常用的可选参数如下:
--onefile 将结果打包成一个可执行文件
--onedir 将所有结果打包到一个文件夹中,该文件夹包括一个可执行文件和可执行文件执行时需要的依赖文件(默认)
--paths=DIR 设置导入路径
--distpath=DIR 设置将打包的结果文件放置的路径
--specpath=DIR 设置将spec文件放置的路径
--windowed 使用windows子系统执行,不会打开命令行(只对windows有效)
--nowindowed 使用控制台子系统执行(默认)(只对windows有效)
--icon= 将file.ico添加为可执行文件的资源(只对windows有效)
接下来,用一个实例进行演示。
①.py程序非常简单,就是打印”helloworld”:

图片 91.png
②使用pyinstaller打包

图片 80.png
③在当前文件下生成了build文件夹、dist文件夹和.spec文件。

图片 95.png
.spec文件是配置规范文件,它说明了软件包怎样被配置,安装哪些文件,被安装到哪里,在安装该包之前或之后需要运行那些系统级别的活动(感兴趣的同学可以学习.spec的语法)。
build里存放将被打包的文件:

图片 96.png
exe文件就存放在dist文件夹下。

图片 97.png

图片 81.png

4.py to exe的二进制特征

py生成的可执行程序核心是一个bootloader,这个bootloader具有如下核心代码:

图片 98.png

图片 101.png
字符串”_MEIPASS2”是pyinstaller使用的库,而pkg类型是安装文件类型。
我们也可以直接从strings中判断,可以发现py生成的可执行程序中含有大量”Py”开头的字符串:

图片 83.png

5.exe to python

python是解释型语言,故python编译打包成的可执行文件很容易被反编译,而像C,C++这样的编译型语言得到的可执行文件,则较难被反编译。
  反编译pyinstaller 产生的可执行文件有很多种方式,大体上可以分为两个步骤,一是由可执行文件获取pyc(pyo)文件,二是由pyc(pyo)文件得到py文件。

反编译python生成的exe需要用到pyinstaller库里的archive_viewer.py脚本。archive_viewer.py一共有四个可用命令:
U: go Up one level
O : open embedded archive name
X : extract name
Q: quit

图片 85.png
archive_viewer.py对可执行程序进行解包分析,这里涉及到了好几个类型的文件,简单说明一下:
py是源文件,
pyc是源文件编译后的文件
pyo是源文件优化编译后的文件
pyz是一个压缩包,包含程序运行需要的所有依赖
pyd是其他语言写的python库
我们需要关注的是”helloworld”和”PYZ-00.pyz”这两个文件。一般来说*.pyz,其中包含主程序引用到的所有库,可以提取.pyz文件然后继续使用archive_viewer.py解包分析;另一个是主程序对应的文件名的文件,其中会包含主程序。
使用x命令提取主程序,另存为helloworld.pyc:

图片 105.png

图片 103.png
在helloworld.pyc文件头,补充8个字节:

图片 107.png
需要补充8个字节是因为pyinstaller编译成pyc时,会把pyc的magic value去掉。magic value一共8个字节,前四个对应于编译时所用python的版本,后四个对应于编译时间,比如python2.7 的03 f3 0d 0a 01 23 45 67,python3.4 的ee 0c 0d 0a 01 23 45 67。
最后使用easy python decompiler从pyc(pyo)文件得到py文件,直接将pyc文件拖拽进程序:

图片 90.png
生成.pyc_dis文件,里面就是最初我们写的python语句:

图片 91.png

参考资料:

https://pyinstaller.readthedocs.io/en/stable/operating-mode.html
https://ctf-wiki.github.io/ctf-wiki/misc/other/pyc/
https://pyinstaller.readthedocs.io/en/stable/operating-mode.html#
https://lightless.me/archives/get-python-code-from-pyinstaller.html

相关推荐: 浅谈Shiro反序列化获取Key的方式

关于Apache Shiro反序列化   在shiro≤1.2.4版本,默认使⽤了CookieRememberMeManager,由于AES使用的key泄露,导致反序列化的cookie可控,从而引发反序列化攻击。(理论上只要AES加密钥泄露…