2024年11月15日10:06:13评论66 views字数 9212阅读30分42秒阅读模式

The Art of Reverse Engineering - Implementing C Code to Decode and Analyze Assembly

#include <stdint.h>
#include <stdio.h>

void basic_types() {
    // Basic integer types
    int32_t signed_num = -42;
    uint32_t unsigned_num = 42;

    // Floating point
    float float_num = 3.14159;

    // Character
    char single_char = 'A';

    // Output for verification
    printf("Signed: %dnUnsigned: %unFloat: %fnChar: %cn",
           signed_num, unsigned_num, float_num, single_char);
}

int main() {
    basic_types();
    return 0;
}

使用以下命令编译此代码：

gcc -g -o basic_types basic_types.c

-g 选项用于包含调试信息，这对于分析汇编输出至关重要。

要查看汇编代码，请使用以下命令：

objdump -S basic_types > basic_types.asm

让我们分析为基本类型示例生成的汇编代码：

.LC1:
        .string "Signed: %dnUnsigned: %unFloat: %fnChar: %cn"
basic_types:
        push    rbp
        mov     rbp, rsp
        sub     rsp, 16          ; Allocate stack space
        mov     DWORD PTR [rbp-4], -42    ; Store signed int
        mov     DWORD PTR [rbp-8], 42     ; Store unsigned int
        movss   xmm0, DWORD PTR .LC0[rip] ; Load float constant
        movss   DWORD PTR [rbp-12], xmm0  ; Store float
        mov     BYTE PTR [rbp-13], 65     ; Store char 'A'

汇编的关键观察

栈帧设置：

push rbp 和 mov rbp, rsp：标准的函数前言
sub rsp, 16：为局部变量分配 16 字节的栈空间

变量存储：

整数通过 mov 指令直接存储
浮点值使用 movss（单精度）指令
字符以单字节形式存储

寄存器使用：

xmm0：用于浮点数操作
常规寄存器（rbp, rsp）：用于栈的管理

内存布局：

变量相对于 rbp（基指针）进行访问
负偏移量表示局部变量
不同大小的变量进行适当对齐

需要观察的关键汇编模式：

整数操作通常使用通用寄存器（如 rax, rbx 等）
浮点操作使用 XMM 寄存器
栈操作使用 push/pop 指令
内存访问模式在栈变量和全局变量之间存在差异

变量类型和内存布局

理解内存布局对于逆向工程至关重要。接下来，我们将探讨不同数据结构在内存中的组织方式。

#include <stdio.h>
#include <stdint.h>
#include <stddef.h>

struct MemoryLayout {
    char c;           // 1 byte
    int32_t i;       // 4 bytes
    char array[10];   // 10 bytes
    double d;        // 8 bytes
} __attribute__((packed));

void analyze_memory_layout() {
    struct MemoryLayout ml = {
        .c = 'X',
        .i = 12345,
        .array = "Hello",
        .d = 3.14159
    };

    printf("Structure size: %zu bytesn", sizeof(struct MemoryLayout));
    printf("Offsets: char=%zu, int32=%zu, array=%zu, double=%zun",
           offsetof(struct MemoryLayout, c),
           offsetof(struct MemoryLayout, i),
           offsetof(struct MemoryLayout, array),
           offsetof(struct MemoryLayout, d));
}

int main() {
    analyze_memory_layout();
    return 0;
}

该代码展示了：

内存对齐的考量
结构体填充机制
大小计算方法
偏移量的确定

我们内存布局示例的汇编代码揭示了有趣的模式：

analyze_memory_layout:
        push    rbp
        mov     rbp, rsp
        sub     rsp, 32          ; Allocate space for struct
        mov     BYTE PTR [rbp-32], 88    ; Initialize char (ASCII 'X')
        mov     DWORD PTR [rbp-31], 12345 ; Initialize int32
        movabs  rax, 478560413000        ; Load string address
        mov     QWORD PTR [rbp-27], rax  ; Store string
        mov     WORD PTR [rbp-19], 0     ; Null terminator
        movsd   xmm0, QWORD PTR .LC0[rip] ; Load double constant
        movsd   QWORD PTR [rbp-17], xmm0  ; Store double

关键的汇编见解：

结构布局：

编译器确保适当的内存对齐
字段通过精确的偏移量进行访问
双精度值使用 movsd 指令进行处理

内存操作：

大常量通过 movabs 指令加载
字符串操作涉及多个指令
浮点值需要特殊的处理方式

控制流结构

理解控制流结构如何转换为汇编代码对逆向工程至关重要。以下是一个全面的示例：

#include <stdio.h>

void demonstrate_control_flow(int input) {
    // If-else construct
    if (input > 10) {
        printf("Value is greater than 10n");
    } else if (input < 0) {
        printf("Value is negativen");
    } else {
        printf("Value is between 0 and 10n");
    }

    // Loop constructs
    int i;

    // For loop
    for (i = 0; i < input; i++) {
        if (i % 2 == 0) {
            continue;
        }
        printf("%d ", i);
    }
    printf("n");

    // While loop with break
    while (input > 0) {
        printf("Countdown: %dn", input);
        if (input == 5) {
            break;
        }
        input--;
    }
}

int main() {
    int testInput = 15;  // Example input
    demonstrate_control_flow(testInput);
    return 0;
}

控制流的汇编代码展示了有趣的分支模式：

demonstrate_control_flow:
        push    rbp
        mov     rbp, rsp
        sub     rsp, 32
        mov     DWORD PTR [rbp-20], edi   ; Store input parameter
        cmp     DWORD PTR [rbp-20], 10    ; Compare with 10
        jle     .L2                       ; Jump if less or equal

关键控制流模式：

条件分支：

cmp 指令后接条件跳转
多个分支目标 (.L2, .L3 等)
用于 switch 语句的跳转表

循环实现：

计数变量存储在栈中
循环条件在每次迭代开始时检查
退出条件通过无条件跳转实现

控制流中的关键汇编模式：

条件跳转指令 (je, jne, jg 等)
循环计数器的管理
比较指令 (cmp)
分支预测的影响

函数调用与参数传递

理解函数调用约定对逆向工程至关重要。以下是一个演示不同参数传递场景的示例：

#include <stdio.h>
#include <stdint.h>

int64_t complex_calculation(int32_t a, double b, char c,
                          int64_t d, float e, void* f) {
    int64_t result = a + (int64_t)b + c + d + (int64_t)e + (int64_t)f;
    return result;
}

void demonstrate_function_calls() {
    int32_t val1 = 42;
    double val2 = 3.14159;
    char val3 = 'A';
    int64_t val4 = 1234567890;
    float val5 = 2.71828f;
    void* val6 = (void*)0x12345678;

    int64_t result = complex_calculation(val1, val2, val3,
                                       val4, val5, val6);

    printf("Calculation result: %ldn", result);
}

int main() {
    demonstrate_function_calls();
    return 0;
}

这段代码演示了：

参数传递的顺序
寄存器的分配
栈帧的设置
返回值的处理

函数调用的汇编代码揭示了参数传递的机制：

complex_calculation:
        push    rbp
        mov     rbp, rsp
        mov     DWORD PTR [rbp-20], edi    ; First integer parameter
        movsd   QWORD PTR [rbp-32], xmm0   ; Double parameter
        mov     eax, esi                   ; Char parameter
        mov     QWORD PTR [rbp-40], rdx    ; Int64 parameter

关键观察：

参数传递：

前 6 个整数或指针参数：rdi, rsi, rdx, rcx, r8, r9
前 8 个浮点参数：xmm0 至 xmm7
额外参数通过栈传递

返回值处理：

整数或指针返回值存放在 rax 寄存器中
浮点返回值存放在 xmm0 寄存器中

实际应用

接下来，我们将实现一个结合上述所有概念的实际示例——一个简单的缓冲区溢出检测器。

#include <stdio.h>
#include <string.h>
#include <stdint.h>

#define BUFFER_SIZE 16
#define CANARY_VALUE 0xDEADBEEF

typedef struct {
    uint32_t canary;
    char buffer[BUFFER_SIZE];
    uint32_t end_canary;
} SafeBuffer;

void initialize_safe_buffer(SafeBuffer* sb) {
    sb->canary = CANARY_VALUE;
    sb->end_canary = CANARY_VALUE;
    memset(sb->buffer, 0, BUFFER_SIZE);
}

int check_buffer_integrity(SafeBuffer* sb) {
    if (sb->canary != CANARY_VALUE || sb->end_canary != CANARY_VALUE) {
        printf("Buffer overflow detected!n");
        return 0;
    }
    return 1;
}

void write_to_buffer(SafeBuffer* sb, const char* data) {
    printf("Writing: %sn", data);
    strncpy(sb->buffer, data, BUFFER_SIZE);

    if (!check_buffer_integrity(sb)) {
        printf("Canary values: Start=0x%x, End=0x%xn",
               sb->canary, sb->end_canary);
    }
}

int main() {
    SafeBuffer sb;
    initialize_safe_buffer(&sb);

    // Test writing within safe bounds
    write_to_buffer(&sb, "Hello, World!");

    // Test writing with buffer overflow
    write_to_buffer(&sb, "This string is too long for the buffer and will cause an overflow");

    // Check integrity again after operations
    if (check_buffer_integrity(&sb)) {
        printf("Buffer integrity is safe.n");
    }

    return 0;
}

该程序的输出结果如下：

Writing: Hello, World!
Writing: This string is too long for the buffer and will cause an overflow
Buffer integrity is safe.

ASM 代码分析

上述缓冲区溢出检测示例为理解汇编级别的安全机制提供了一个优秀的案例研究。接下来，我们将分析每个组件在汇编中的实现方式。

安全缓冲区初始化实现

initialize_safe_buffer 函数的汇编代码揭示了实现安全特性所需的精确内存操作。该函数以标准的序言序列开始，建立新的栈帧。第一个参数，即指向 SafeBuffer 结构的指针，按照 System V AMD64 ABI 调用约定通过 rdi 寄存器传递。

initialize_safe_buffer:
        push    rbp
        mov     rbp, rsp
        sub     rsp, 16
        mov     QWORD PTR [rbp-8], rdi
        mov     rax, QWORD PTR [rbp-8]
        mov     DWORD PTR [rax], -559038737
        mov     rax, QWORD PTR [rbp-8]
        mov     DWORD PTR [rax+20], -559038737
        mov     rax, QWORD PTR [rbp-8]
        add     rax, 4
        mov     edx, 16
        mov     esi, 0
        mov     rdi, rax
        call    memset
        nop
        leave
        ret
.LC0:
        .string "Buffer overflow detected!"

汇编代码展示了金丝雀值在缓冲区两端的战略性放置。值 0xDEADBEEF（在有符号十进制中表示为 -559038737）被写入结构的起始位置，20 字节后写入结束位置。这种布局为缓冲区周围创建了保护边界。编译器计算了结束金丝雀所需的确切偏移量，该金丝雀位于 16 字节缓冲区之后。

初始化过程中最引人注目的部分是 memset 调用。汇编代码首先计算缓冲区的地址（结构起始后 4 字节），设置大小参数（16 字节），并使用零作为填充值来准备此调用。这种三参数设置完美遵循调用约定，分别使用 rdi、rsi 和 rdx 寄存器。

缓冲区完整性检查分析

完整性检查函数的汇编代码展示了高效的比较逻辑。编译器将金丝雀检查优化为两个比较序列。第一个比较检查起始金丝雀，只有在通过后才会继续检查结束金丝雀。这种短路评估通过条件跳转实现。

让我们看看完整性检查在汇编级别的工作原理：

mov     rax, QWORD PTR [rbp-8]    ; Load buffer pointer
mov     eax, DWORD PTR [rax]      ; Load start canary
cmp     eax, -559038737           ; Compare with DEADBEEF
jne     .L3                       ; Jump if not equal (corruption detected)

汇编代码表明，编译器对比较操作进行了优化，以避免不必要的内存访问。如果第一个金丝雀检查失败，程序将立即跳转至错误处理代码，而不会继续检查第二个金丝雀。这种优化展示了在不显著影响性能的前提下实现安全检查的有效方法。

写操作分析

write_to_buffer 函数的汇编代码揭示了对内存的精细处理和错误检查。该函数首先保存输入参数，然后执行字符串复制操作。汇编代码展示了如何通过精确计算的偏移量来调用 strncpy 函数：

mov     rax, QWORD PTR [rbp-8]    ; Load buffer pointer
lea     rcx, [rax+4]              ; Calculate buffer address
mov     rax, QWORD PTR [rbp-16]   ; Load source string
mov     edx, 16                   ; Set maximum length
mov     rsi, rax                  ; Set source parameter
mov     rdi, rcx                  ; Set destination parameter
call    strncpy                   ; Perform bounded copy

汇编代码展示了编译器如何确保缓冲区地址的计算和参数的传递准确无误。lea 指令通过将 4 字节的偏移量加到结构的基地址上，精确地计算出缓冲区的地址。

在执行复制操作后，系统会调用完整性检查，并根据检查结果可能打印额外的诊断信息。汇编代码展示了编译器如何高效地实现这种条件逻辑：

test    eax, eax                  ; Check integrity result
jne     .L8                       ; Skip if integrity check passed

主函数的实现

主函数的汇编代码揭示了安全缓冲区的完整生命周期，包括缓冲区的栈分配、初始化及多次写操作。汇编代码展示了编译器如何组织栈帧，以容纳我们的 24 字节结构（4 字节用于起始金丝雀 + 16 字节用于缓冲区 + 4 字节用于结束金丝雀）。

主函数中的函数调用序列尤为引人注目，因为它展示了编译器如何高效地处理对同一缓冲区的多次操作。

lea     rax, [rbp-32]            ; Calculate buffer address
mov     rdi, rax                 ; Pass as parameter
call    initialize_safe_buffer    ; Initialize buffer

该汇编序列在每个操作中重复，展示了编译器如何在整个生命周期内保持对缓冲区的一致访问。编译器确保每次函数调用时，缓冲区地址相对于栈帧的计算始终准确。

安全隐患

汇编代码揭示了几个重要的安全考虑：

金丝雀值存储在预定位置，使其可预测，尽管如此，仍然对简单的溢出攻击有效。
完整性检查经过优化，以快速检测失败，从而提升安全关键路径的性能。
有界字符串复制操作的实现展示了如何在不显著增加开销的情况下有效集成安全检查。

注意：以上所有分析提供了深入的见解，说明编译器如何将高级构造转换为汇编代码。理解这些模式对于有效的逆向工程和调试至关重要。

工具和技术

常用的逆向工程工具：

反汇编工具：

GDB：一个能够执行反汇编的调试器。
IDA Pro：一个强大的二进制代码反汇编和分析工具。
Ghidra：由 NSA 开发的反汇编和代码分析软件。
Radare2：一个全面的逆向工程和二进制分析框架。

动态分析：

strace：跟踪系统调用，以了解程序在运行时的行为。
ltrace：跟踪库调用，类似于 strace，但专注于库函数。
带 TUI 模式的 gdb：提供基于文本的用户界面进行调试，允许动态检查正在运行的程序。

二进制分析：

objdump：显示有关目标文件的信息，特别适合检查汇编代码。
nm：列出目标文件中的符号，有助于理解存在的函数和变量。
readelf：检查 ELF 文件，提供有关二进制结构的详细信息。

逆向工程最佳实践

从静态分析开始：首先检查二进制文件而不运行它，以了解其结构。
使用调试符号：如果可用，使用它们以获取更具信息性的名称和数据类型。
记录模式和结构：记录重复的代码模式、数据结构和算法。
创建测试用例：开发场景以测试关于代码行为的假设并确认解释。
使用多种工具：使用各种工具以获得不同的视角并验证发现。

结论

理解高级代码与其汇编表示之间的关系对于有效的逆向工程至关重要。这种知识使得：

更好的安全分析
性能优化
调试复杂问题
理解编译器行为
识别潜在漏洞

继续探索这些概念：

编写和分析自己的测试用例
使用不同的编译器和优化级别
练习真实世界的二进制文件
为开源逆向工程工具做贡献
参与 CTF 挑战

请记住，逆向工程既是一门艺术，也是一门科学——实践和耐心是掌握的关键。

原文始发于微信公众号（securitainment）：逆向工程的艺术：实现 C 代码以解码和分析汇编

免责声明:文章中涉及的程序(方法)可能带有攻击性，仅供安全研究与教学之用，读者将其信息做其他用途，由读者承担全部法律及连带责任，本站不承担任何法律及连带责任；如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截，联系方式见首页)，望知悉。

左青龙
微信扫一扫

右白虎
微信扫一扫

逆向工程的艺术：实现 C 代码以解码和分析汇编

目录

引言

理解汇编基础

汇编的关键观察

变量类型和内存布局

控制流结构

函数调用与参数传递

实际应用

ASM 代码分析

工具和技术

结论

PC逆向尝试破解微软经典扫雷小游戏，实现一秒通关

脱壳与加固 | 一代壳(落地加载)的学习

PC逆向尝试破解微软经典扫雷小游戏，实现一秒通关

恶意代码开发的常见误区

逆向入门 | 逆向windows扫雷

Vshell远控Windows stage x64分析

XX弹幕投票助手分析

【技术分享】x86系统调用（上）

DLL注入（一）

侠盗猎车—玩转滚动码

发表评论

在线咨询

微信