开发简单的PHP混淆器与解混淆器

admin

146374
文章

119
评论

2021年11月4日21:04:34已关闭评论79 views字数 7790阅读25分58秒阅读模式

最近（被迫）拿到了不少经过混淆的PHP代码样本，尤其是我使用的某个开源软件里面竟然也有被混淆的PHP代码（还有几十个JS后门），导致我不得不把它们都解混淆来检查一下。不过，这些只要20分钟就能写出通用解混淆代码的混淆有什么意义呢？

好想出去玩_(:з」∠)_但出不去，只好在家里应XCTF抗疫赛邀请出题了。但是实在没题出怎么办？恰巧看到Xray的一篇吐槽安全从业人员代码平均开发能力差的文章，考虑到解混淆需要一定的开发能力，不如来用混淆水一题吧……

顺带一提，本次比赛中，我观赏了一下各个队伍的去混淆脚本，基本上都是正则表达式+黑魔法的写法，根本看不懂……

How?

我相信很多人对写一个PHP混淆与去混淆是一头雾水，完全不知道怎么下手的状态，或者除了正则表达式以外就没有思路了。实际上，写混淆器等于写半个编译器。如果你的程序能够正确理解PHP代码中每一个“单词”的意思，那么你的混淆器就基本开发完成一半了。

一个编译器通常分为编译器前端和后端两个部分，编译器前端负责对代码的解析。我们要着眼的也基本就是前端部分。编译过程中的第一步是词法分析，词法分析器读入源程序的字符流，把他们组织成有意义的词素（lexeme）；对于每个词素，词法分析器产生对应的词法单元（token）。如果我们使用PHP来开发的话，这个过程不需要我们来做。PHP有一个函数token_get_all，可以直接把PHP代码转换成token数组。

Token?

基于token数组，我们可以开发一个简单的变量重命名器：

$file = file_get_contents($path);
$variable = 0;
$map = [];
$tokens = token_get_all($file);
foreach ($tokens as $token) {
    if ($token[0] === T_VARIABLE) {
        if (!isset($map[$token[1]])) {
            if (!preg_match('/^$[a-zA-Z0-9_]+$/', $token[1])) {
                $file = str_replace($token[1], '$v' . $variable++, $file);
                $map[$token[1]] = $variable;
            }
        }
    }
}

非常简单，可以将所有由不可见字符组成的变量名改成正常人可读的变量名。

enphp 即是直接基于该数组开发。由于词法分析器并不负责维护每个token之间的关系，enphp不得不维护相当多的状态，导致其后续的开发和维护较为复杂，我们也不会基于这一串token来开发。

编译的第二步是语法分析，由token序列确定语法结构，通常会输出一棵语法树（syntax tree）。PHP是一个成熟的语言，也有一个成熟的解析器。php-parser 可以帮助我们把PHP代码解析成一棵抽象语法树（AST），我们就将基于它来开发。

既然有了能表示代码结构的树，那我们就知道怎么一个正常的混淆器应当怎么开发了：

把原始代码解析成一棵树。
遍历树，修改树上的某些节点。
将树还原成代码。

练手

现在让我们开始吧，php-parser的安装请自行看文档。

我们从最简单的代码变换开始，第一步将

替换成

<?php echo 'Hello World!';

我们先写一个主体结构：

<?php
use PhpParserParser;
use PhpParserParserFactory;
use PhpParserNodeTraverser;
use PhpParserNodeVisitorNameResolver;
use PhpParserPrettyPrinterStandard;

require './vendor/autoload.php';


$parser = (new ParserFactory())->create(ParserFactory::PREFER_PHP7);

$ast = $parser->parse(file_get_contents('test/test1.php'));

$traverser = new NodeTraverser();

$traverser->addVisitor(new HTMLToEcho($parser));

$ast = $traverser->traverse($ast);


$prettyPrinter = new Standard();
$ret = $prettyPrinter->prettyPrint($ast);
echo '<?php ' . $ret;

再写一个游客类：

<?php
use PhpParserNode;
use PhpParserNodeVisitorAbstract;

class HTMLToEcho extends NodeVisitorAbstract
{
    public function leaveNode(Node $node)
    {
        
        if ($node instanceof NodeStmtInlineHTML) {
            
            return new NodeStmtEcho_([
                new NodeScalarString_($node->value)
            ]);
        }
    }

}

运行试试，是不是很神奇呢？关于NodeVisitor的使用，请直接阅读文档 Walking the AST。

开始

现在让我们开始写一个字符串混淆器和解混淆器。

我们现在想要：

变成

var_dump(str_rot13('Uryyb Jbeyq'));

只需要在发现一个字符串调用的时候，把它换成函数就好了：

$traverser->addVisitor(new StringToROT13($parser));


class StringToROT13 extends NodeVisitorAbstract
{
    public function leaveNode(Node $node)
    {
        if ($node instanceof NodeScalarString_) {
            $name = $node->value;
            return new ExprFuncCall(
                new NodeName("str_rot13"),
                [new NodeArg(new NodeScalarString_(str_rot13($name)))]
            );
        }

    }
}

解混淆器，就是一个反向的过程。发现一个函数调用str_rot13，且第一个参数为字符串，就把它替换回来：

class ROT13ToString extends NodeVisitorAbstract
{
    public function leaveNode(Node $node)
    {
        if ($node instanceof NodeExprFuncCall &&
            $node->name instanceof NodeName &&
            $node->name->parts[0] == 'str_rot13' &&
            $node->args[0]->value instanceof NodeScalarString_
        ) {
            $value = $node->args[0]->value->value;
            return new NodeScalarString_(str_rot13($value));
        }
    }

}

毫无难度，对吗

对比上面两边的代码，会发现，解混淆器本质上和混淆器区别极小，在这个例子中毫无区别。两者的模式都是寻找可以替换的特征，之后将其替换成另一种实现。

再进一步

虽说混淆器和解混淆器区别极小，但这不代表没有，它们在开发时的侧重点不太一样。实际上，上面的混淆器在很多情况下是无法工作的，例如：

function a ($a = 'abcd') { echo $a; }

把这行代码进行混淆，就有出错的可能。因为这里’abcd’作为函数的默认值，PHP要求它必须在编译时就已知。因此，我们必须给混淆器加上一个判断。下面的代码可以部分规避这个问题。

public function enterNode(Node $node)
{
    if ($node instanceof NodeParam || $node instanceof NodeStmtStatic_) {
        $this->_inStatic = true;
    }
}

public function leaveNode(Node $node)
{
    if ($node instanceof NodeParam || $node instanceof NodeStmtStatic_) {
        $this->_inStatic = false;
    }
    if ($this->_inStatic) {
        return;
    }
    
}

混淆器是将代码复杂化，因此它必须考虑相当多的边边角角。而解混淆器作为将代码简单化的工具，不需要考虑这种情况。解混淆器考虑的情况则是另外一种。

让我们写一个稍微高阶一些的混淆和解混淆：

$a = true;
$b = false;
$c = 12345;
$d = 'abcdefg';

写成

$array = [true, false, 12345, 'abcdefg'];
$a = $array[0];
$b = $array[1];
$c = $array[2];
$d = $array[3];

可以发现，这种混淆不再是原先的直接替换节点就能解决的混淆了，它引入了一个外部依赖。我们试着写一个混淆器：

<?php
use PhpParserLexer;
use PhpParserNode;
use PhpParserNodeExpr;
use PhpParserNodeVisitorAbstract;

class ConstantToArray extends NodeVisitorAbstract
{
    
    private $_variableName = '';
    
    private $_constants = [];

    private $_parser;

    private $_inStatic = false;

    public function __construct($_parser)
    {
        
        $this->_variableName = generate_random_variable(5);
        $this->_parser = $_parser;
    }

    public function afterTraverse(array $nodes)
    {
        $keys = [];
        foreach ($this->_constants as $key => $value) {
            $keys[] = unserialize($key);
        }
        $items = base64_encode(serialize($keys));
        
        $nodes = array_merge($this->_parser->parse(
            "<?php ${$this->_variableName}=unserialize(base64_decode('$items'));"
        ), $nodes);
        return $nodes;
    }

    public function enterNode(Node $node)
    {
        
        if ($node instanceof NodeStmtFunction_) {
            $global = new NodeStmtGlobal_([new ExprVariable($this->_variableName)]);
            array_unshift($node->stmts, $global);
        }
        if ($node instanceof NodeParam || $node instanceof NodeStmtStatic_) {
            $this->_inStatic = true;
        }
    }

    public function leaveNode(Node $node)
    {
        if ($node instanceof NodeParam || $node instanceof NodeStmtStatic_) {
            $this->_inStatic = false;
        }
        if ($this->_inStatic) {
            return;
        }

                
        if ($node instanceof NodeScalar
            && (!$node instanceof NodeScalarMagicConst)) {
            
            $name = serialize($node->value);
            
            if (!isset($this->_constants[$name])) {
                
                
                $this->_constants[$name] = count($this->_constants);
            }
            return new ExprArrayDimFetch(
                new ExprVariable($this->_variableName),
                NodeScalarLNumber::fromString($this->_constants[$name])
            );
        }

          
        if ($node instanceof NodeExprConstFetch && $node->name instanceof NodeName && count($node->name->parts) === 1) {
            $name = $node->name->parts[0];
            switch (strtolower($name)) {
                case 'true':
                    $name = true;
                    break;
                case 'false':
                    $name = false;
                    break;
                case 'null':
                    $name = null;
                    break;
                default:
                    return;
            }
            $name = serialize($name);
            if (!isset($this->_constants[$name])) {
                $this->_constants[$name] = count($this->_constants);
            }
            return new ExprArrayDimFetch(
                new ExprVariable($this->_variableName),
                NodeScalarLNumber::fromString($this->_constants[$name])
            );
    }
}

而解混淆又要怎么写呢？

<?php
use PhpParserNode;
use PhpParserNodeVisitorAbstract;

class ArrayToConstant extends NodeVisitorAbstract
{
    
    private $_variableName = '';
    
    private $_constants = [];

    public function enterNode(Node $node)
    {
        if ($node instanceof NodeExprAssign &&
            $node->expr instanceof NodeExprFuncCall &&
            $node->expr->name instanceof NodeName &&
            is_string($node->expr->name->parts[0]) &&
            $node->expr->name->parts[0] == 'unserialize' &&
            count($node->expr->args) === 1 &&
            $node->expr->args[0] instanceof NodeArg &&
            $node->expr->args[0]->value instanceof NodeExprFuncCall &&
            $node->expr->args[0]->value->name instanceof NodeName &&
            is_string($node->expr->args[0]->value->name->parts[0]) &&
            $node->expr->args[0]->value->name->parts[0] == 'base64_decode'
        ) {
            $string = $node->expr->args[0]->value->args[0]->value->value;
            $array = unserialize(base64_decode($string));
            $this->_variableName = $node->var->name;
            $this->_constants = $array;
            return new NodeExprAssign($node->var, NodeScalarLNumber::fromString("0"));
        }
    }

    public function leaveNode(Node $node)
    {
        if ($this->_variableName === '') return;
        if (
            $node instanceof NodeExprArrayDimFetch &&
            $node->var->name === $this->_variableName
        ) {
            $val = $this->_constants[$node->dim->value];
            if (is_string($val)) {
                return new NodeScalarString_($val);
            } elseif (is_double($val)) {
                return new NodeScalarDNumber($val);
            } elseif (is_int($val)) {
                return new NodeScalarLNumber($val);
            } else {
                return new NodeExprConstFetch(new NodeNameFullyQualified(json_encode($val)));
            }
        }
    }

}

我们看enterNode这里的大if，这里负责寻找$a = unserialize(base64_decode("string"))这种模式的代码，之后获取其表以及变量名。从上面的寻找逻辑，我们可以推测：

如果代码中有别的符合这个模式的代码，解混淆器就可能会出现错误。
如果代码中的数组赋值是别的模式，就必须重写此部份代码以适配该模式。

总结

对于混淆器而言，你要做的事情包括这些：

拿到尽可能多的PHP样本，寻找各种可能的语法不兼容问题。
基于信息不对称性，努力将混淆器引入的语句与真实的业务代码混为一体。
尽量打乱原始代码结构，能去除的信息（如变量名）尽可能去除。

而对于一个解混淆器而言，就需要：

准确识别出混淆模式及其依赖的外部信息。
需要能准确地提取出各类运行时才可获取的密钥、数据。
一旦信息无法恢复，就需要通过一定的规则还原出近似的信息。

尾声

我本次的混淆比较初级，完全不实用，毕竟连混淆器+解混淆器+写文章也就花了十个小时不到吧，性能低下，且不保证兼容性，仅仅是一个示例，仅供参考。不过我认为这个示例级别的混淆器效果要比绝大多数市面上流通的混淆器效果好得多，那些都是什么垃圾.jpg 一个混淆器要走向实用，你至少也要把控制流给打乱掉，就像 yakpro-po 这样吧。

你可能注意到了，本文中的每一个混淆规则都是一个单独的新类，并没有将不同功能的代码混合在一起；之后通过NodeVisitor::addVisitor在遍历的时候让它们按顺序被调用。这是组合模式这种设计模式的应用，这样的模块化设计非常适合进行后续的维护。

对于解混淆而言，大部分混淆都有一部分混淆规则是相同的，这种设计可以非常容易地就能通过不同规则的重新组合来解出一种新的混淆。而对于混淆而言，还有什么比套娃更有意思的事情呢

相关推荐: 【偶尔一道ctf】xctf adword mobile easy-apk

最近在学习ctf，偶尔会做一些ctf题，打算记录下做题的步骤和思路，打算学习ctf的小白可以跟着一起动手学习。本题是安卓题目。题目apk下载地址https://adworld.xctf.org.cn/media/task/attachments/989ca07…

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

开发简单的PHP混淆器与解混淆器

How?

Token?

练手

开始

再进一步

总结

尾声

工控协议研究：DNP3安全风险深入浅出

《深入理解计算机系统》Attack Lab 题解

基于 CAN-FD 的现代商用车通信网络安全防护

ESP8266添加外置天线增强WiFi信号如此简单

PC逆向尝试破解微软经典扫雷小游戏，实现一秒通关

脱壳与加固 | 一代壳(落地加载)的学习

AUTOSAR基础之CAN

CTF设计指南

PC逆向尝试破解微软经典扫雷小游戏，实现一秒通关

大疆：2025年版无人机安全白皮书

在线咨询

微信