浅析bpftrace

admin

102620
文章

87
评论

2022年10月8日14:23:12评论170 views字数 16775阅读55分55秒阅读模式

✦

一、eBPF简单介绍

✦

eBPF顾名思义来源于BPF(如下图)，实际上BPF最初的目的是用于高效网络报文过滤，经过重新设计，eBPF 就不再局限于网络协议栈，它后期已经成为内核顶级的子系统，演进为一个通用执行引擎。换句话说其实就是从提高底层网络抓包性能变成了在底层执行更多通用代码的东西。

因此 eBPF 就适用于诸如性能分析、软件定义网络、网络安全等诸多场景。

按我个人的理解，我觉得eBPF本质上它就是内核中的一个虚拟机，以一种安全的方式在各种各样的内核hook点执行字节码，我们可以在三环编写和程序，用llvm作为后端把前端代码（比如go bpftrace python等）变成字节码，然后字节码在虚拟机里变成对应体系结构的硬编码来执行。

一般 eBPF 的工作逻辑是：

1 .BPF Program 通过 LLVM/Clang 编译成 eBPF 定义的字节码 prog.bpf。

2. 通过系统调用 bpf() 将 bpf 字节码指令传入内核中。

3. 经过 verifier 检验字节码的安全性、合规性。

4. 在确认字节码安全后将其加载对应的内核模块执行。

✦

LLVM 是伊利诺伊大学的一个开源项目，LLVM 提供了完整的 C/C++工具链，Clang 属于其中的一个子项目，是 LLVM 原生的 ” C/C++/Objective-C” 编译器前端，Clang 负责完成词法分析和语法分析，并将分析结果转换为 Abstract Syntax Tree (抽象语法树) ，最后使用 LLVM 作为后端代码的生成器

go bpftrace c python写的ebpf代码通过llvm/clang -》字节码-》字节码进零环ebpf的虚拟机再转换为硬编码执行。

✦

二、bpftrace简单介绍

✦

下面以bpftrace为例来初步认识eBPF。bpftrace 是一种基于eBPF的高级跟踪语言，可用于Linux 内核 (4. x)。它由 Alastair Robertson 创建，参考了DTrace 和 SystemTap 等前身跟踪器。

bpftrace 既然是基于eBPF的那么它也是使用 LLVM 作为后端将脚本编译为 BPF 的字节码，并且利用 BCC与 Linux 的BPF系统进行交互。bpftrace 语言写起来就像是awk 和 C这两种语言的混合体。

✦

三、从hello world开始

✦

各种语言入门的经典案例无疑是hello world

那么让我们从hello world开始

root@zy-virtual-machine:~/桌面# bpftrace -e 'BEGIN {printf("Hello, World!n")}'

Attaching 1 probe. . .

Hello, World!

如图平平无奇输出了个hello world，只有按下 Ctrl-C 或调用 exit() 函数程序才能继续跑。当程序退出时，将打印所有填充的map，关于这句话是什么意思以后会再解释。

-e 选项允许指定你要用bpftrace跑的程序，这是一种构造单行代码的方法。

✦

四、浅尝第一个示例

✦

那么让我们准备第一个示例，下面的程序功能是在进程调用 nanosleep 系统调用时打印一行xx is sleeping并回车。

关于程序的语法细节将在后面进行部分解释。

root@zy-virtual-machine:~/桌面# bpftrace -e 'tracepoint:syscalls:sys_enter_nanosleep { printf("%s is sleeping. n", comm); }'

Attaching 1 probe. . .

snapd is sleeping.

containerd is sleeping.

dockerd is sleeping.

containerd is sleeping.

这里可以看出docker相关的进程一直在调用，nanosleep 系统调用。

✦

五、编写独立运行的bpftrace脚本

✦

我们可以把bpftrace程序保存为文件脚本，然后通过指定文件名来执行。通常使用 . bt 文件扩展名，但扩展名可以被忽略。

root@zy-virtual-machine:~/桌面# cat zy_nanosleep_test. bt

tracepoint:syscalls:sys_enter_nanosleep

{

printf("%s is sleeping. n", comm);

}

root@zy-virtual-machine:~/桌面# bpftrace zy_nanosleep_test. bt

Attaching 1 probe. . .

containerd is sleeping.

通过文件执行bpftrace程序如上所示，直接加文件名即可。

当然，也有办法可以使其独立运行。

只需要在顶部添加一个解释器行（#！），

其中包含安装的 bpftrace 的路径（/usr/local/bin 是默认值）或 env 的路径（通常只是 /usr/bin/env）

如果你和我一样找不到可以find一下，我在docker里编译好了后，就复制到桌面上来了，自己手工复制到了bin目录里，所以是如下路径。

root@zy-virtual-machine:~/桌面# find / -name bpftrace

/usr/bin/bpftrace

/root/桌面/bpftrace

/var/lib/docker/overlay2/783ae9b2363fcc9f6935e577798926914e3e9d9c61ba059f46661ba1d37c42c0/diff/usr/bin/bpftrace

root@zy-virtual-machine:~/桌面# cat zy_nanosleep_test. bt

#!/usr/bin/bpftrace

tracepoint:syscalls:sys_enter_nanosleep

{

printf("%s is sleeping. n", comm);

}

root@zy-virtual-machine:~/桌面# chmod +x . /zy_nanosleep_test. bt

root@zy-virtual-machine:~/桌面# . /zy_nanosleep_test. bt

Attaching 1 probe. . .

containerd is sleeping.

✦

六、尝试挂钩自己的自定义程序

✦

挂钩自己的自定义的程序

sudo bpftrace -l "uprobe:. /a. out"

可以知道都能挂钩一个程序的哪些函数当然被剥离的符号没法挂钩 bpftrace这样似乎就找不到地址了

那么我随便写一个c程序

cat zytest. c

#include

int testzy(int a,int b){

return a+b;

}

int main(){

printf("%dn",testzy(1,2));

printf("%dn",testzy(3,4));

printf("%dn",testzy(5,6));

}

并探测该程序可以挂钩的点

root@zy-virtual-machine:~/桌面# sudo bpftrace -l "uprobe:./a. out"

uprobe:. /a. out:__do_global_dtors_aux

uprobe:. /a. out:__libc_csu_fini

uprobe:. /a. out:__libc_csu_init

uprobe:. /a. out:_fini

uprobe:. /a. out:_init

uprobe:. /a. out:_start

uprobe:. /a. out:deregister_tm_clones

uprobe:. /a. out:frame_dummy

uprobe:. /a. out:main

uprobe:. /a. out:register_tm_clones

uprobe:. /a. out:testzy

readelf --syms a.out

可以先查看对应的符号表

strip --strip-all a.out

这样剥离后就不能再挂钩了

readelf --syms a.out

可以查看对应的符号表一般剥离后就没有了

root@zy-virtual-machine:~/桌面# bpftrace -e 'uprobe:./test3:testzy { printf("return %d+%dn",arg0,arg1); }'

No probes to attach

可以看到我们的testzy函数就是一个可以挂钩的地方

那么我们假装这是一个恶意函数，尝试通过挂钩来还原出传进去的参数。

这边监听后随着我们执行我们的代码

root@zy-virtual-machine:~/桌面# . /a. out

可以看到这边监控程序也成功捕获到目标并且正确地返回了传入的参数

root@zy-virtual-machine:~/桌面# bpftrace -e 'uprobe:. /a. out:testzy { printf("return %d+%dn",arg0,arg1); }'

Attaching 1 probe. . .

return 1+2

return 3+4

return 5+6

直接上函数地址也一样所以说这个符号表就是找函数地址的地方

bpftrace -e 'uprobe:./a.out:0x1149{ printf("return %d+%dn",arg0,arg1); }'

另一个类似的例子

bpftrace -e 'uprobe:./a:test{ printf("return %d+%d+%dn",arg0,arg1,arg2); }'

✦

七、关于动作块

✦

下面来系统地解释一下我上面那堆程序到底是什么东西

就比如这句程序

bpftrace -e 'tracepoint:syscalls:sys_enter_nanosleep { printf("%s is sleeping. n", comm); }'

其中“{. . . . }”大括号及其里面的东西叫做动作块

一个 bpftrace 程序可以有多个动作块。

root@zy-virtual-machine:~/桌面# bpftrace -e 'BEGIN{printf("123n");} uprobe:. /a. out:testzy { printf("return %d+%dn",arg0,arg1); }'

Attaching 2 probes. . .

123

return 1+2

return 3+4

return 5+6

就比如这样有两个动作块 BEGIN里面的动作块先执行然后再监控a. out的testzy函数如果testzy函数执行了就把传入的参数打印出来

当然此时你可能仍然不理解uprobe这个位置是什么并且都能用什么东西

这里我先粗浅地简单介绍一下

这个东西叫做探针是用来探测不同时机发生什么事并执行相应代码的

能用的探针如下右边是相应的解释

kprobe - 内核函数启动

kretprobe - 内核函数返回

uprobe - 用户级函数启动

uretprobe - 用户级函数返回

tracepoint - 内核静态跟踪点

usdt - 用户级静态跟踪点

profile - 定时采样

interval - 定时输出

software - 内核软件事件

hardware - 处理器级事件

比如uprobe 就是指用户三环的函数启动时就开始执行动作块里的代码

root@zy-virtual-machine:~/桌面# bpftrace -e 'uprobe:. /a. out:testzy { printf("return %d+%dn",arg0,arg1); }'

所以我这行代码的意思是

当用户层三环函数testzy启动时开始执行动作块里的代码也就是获取函数启动时的传入参数

同理可以这样(为了简洁起见这里没有把. /a. out的执行贴出来)

bpftrace -e 'uretprobe:. /a. out:testzy { printf("return %dn",retval); }'

Attaching 1 probe. . .

return 3

return 7

return 11

因此我这行代码的意思现在就变成了当用户层三环函数testzy返回时开始执行动作块里的代码也就是获取返回时的返回值

✦

八、关于过滤器

✦

root@zy-virtual-machine:~/桌面# bpftrace -e 'uretprobe:. /a. out:testzy / retval > 3 / { printf("return %dn",retval); }'

Attaching 1 probe. . .

return 7

return 11

如图所示，其实就是在//里面加个条件用来给动作方块的执行限定条件

✦

九、关于注释

✦

穿插着说两个更加简单易懂的

我们的bt脚本文件里写注释的方法如下

单行注释的写法

// single-line comment

多行注释的写法

* multi-line comment

✦

十、整数、字符和字符串

✦

bpftrace支持整数、字符和字符串。如下

root@zy-virtual-machine:~/桌面# bpftrace -e 'BEGIN { printf("%lu %lu %lu", 1000000000, 1e9, 1_000_000_000)}'

Attaching 1 probe. . .

^C1000000000 1000000000 1000000000

字符括在单引号中，例如'a’

字符串括在双引号中，例如"string"

root@zy-virtual-machine:~/桌面# bpftrace -e 'BEGIN { printf("%lu %lu %lu", 1000000, 1e6, 1_000_000)}'

Attaching 1 probe. . .

^C1000000 1000000 1000000

当然，科学计数法和1下划线接数字的写法不一定可以在所有版本使用，我的两台虚拟机装了两个不同版本的bpftrace 其中一台就不识别科学计数法和下划线的这种写法。

✦

六、->: C的结构体选定结构体成员符号

✦

root@zy-virtual-machine:~/桌面# bpftrace -e 'tracepoint:syscalls:sys_enter_openat { printf("%s %sn", comm, str(args->filename)); }'

Attaching 1 probe. . .

xdg-desktop-por /usr/share/applications/org. gnome. Terminal. desktop

gnome-terminal- /usr/share/icons/Yaru/scalable/actions/tab-new-symbolic. svg

gnome-terminal- /usr/share/icons/Yaru/scalable/actions/open-menu-symbolic. svg

gnome-terminal- /usr/share/icons/Yaru/scalable/actions/edit-find-symbolic. svg

gnome-terminal- /usr/share/icons/Yaru/scalable/actions/window-minimize-symbolic

这样可以从结构体返回其中的成员

✦

十二、struct

✦

可以在需要时定义自己的结构。因为在某些情况下，内核结构不在内核头文件包中声明，而是在 bpftrace tools中手动声明。

比如dcsnoop. bt这个脚本就可以跟踪目录条目高速缓存 (dcache) 查找

#!/usr/bin/env bpftrace

#ifndef BPFTRACE_HAVE_BTF

#include

// from fs/namei. c:

struct nameidata {

struct path path;

struct qstr last;

// [. . . ]

};

#endif

BEGIN

{

printf("Tracing dcache lookups. . . Hit Ctrl-C to end. n");

printf("%-8s %-6s %-16s %1s %sn", "TIME", "PID", "COMM", "T", "FILE");

}

// comment out this block to avoid showing hits:

kprobe:lookup_fast,

kprobe:lookup_fast. constprop. *

{

$nd = (struct nameidata *)arg0;

printf("%-8d %-6d %-16s R %sn", elapsed / 1000000, pid, comm,

str($nd->last. name));

}

kprobe:d_lookup

{

$name = (struct qstr *)arg1;

@fname[tid] = $name->name;

}

kretprobe:d_lookup

/@fname[tid]/

{

printf("%-8d %-6d %-16s M %sn", elapsed / 1000000, pid, comm,

str(@fname[tid]));

delete(@fname[tid]);

}

它就定义了自己的结构体，运行起来的效果如下

3799 358 systemd-journal R syslog