Py解析heapdump

admin 2022年8月24日02:56:38评论48 views字数 6867阅读22分53秒阅读模式
免责声明
由于传播、利用本公众号狐狸说安全所提供的信息而造成的任何直接或者间接的后果及损失,均由使用者本人负责,公众号狐狸说安全及作者不为承担任何责任,一旦造成后果请自行承担!如有侵权烦请告知,我们会立即删除并致歉,谢谢!

0x01 前言

最近在某次项目上,遇到了Spring的未授权,下载到了heapdump,想着分析一下看看有没有明文账号密码,悲催的是MAT及其他工具比如heapdump.jar统统报错。要么是jdk版本不对,要么是找不到jhat......(终端执行正常),调了一天没调好。。。干脆自己写一个。正文开始前说明:正文中只是简单的走了一遍执行的流程,并没有像审计代码那样,深入了解。不喜欢或者觉得很low的。不要喷我。

0x02 正文

通过遍寻Github、某搜索引擎,找到一篇关于使用python解析Spring Boot Heapdump的文章地址如下:https://github.com/wdahlenburg/pyhprof]https://github.com/wdahlenburg/pyhprof

这个库是根据旧版本的pyhprof库改写的。老版本的只兼容python2,且存在部分错误,而且这个库没有任何帮助文档,二开造轮子有点难。。但好在作者提供了一个演示。直接用演示的Python文件也可以获得里面的信息。但打印出的东西有点杂。。。于是我造轮之路开启了。我的方法是通过调试了解到代码的大致流程->二开。首先列出坐着给出的源代码;

#!/bin/python3from pyhprof.parsers import HProfParserfrom pyhprof.references import ReferenceBuilderimport pyhprofimport argparseimport sys# Use truffleHog to parse any references for common API keysfrom truffleHogRegexes.regexChecks import regexesimport redef main():
flags = {}
parser = argparse.ArgumentParser(description='Parse JAVA HPROF files')
parser.add_argument('-f', '--filename', dest='filename', required=True,
help='HPROF file to parse')
parser.add_argument('-t1', '--type-one', action='store_true',
help='Force Type 1 parsing of variables')
parser.add_argument('-t2', '--type-two', action='store_true',
help='Force Type 2 parsing of variables')

args = parser.parse_args() if args.type_one == True and args.type_two == True:
print("Error: Use -t1 or -t2, but not both")
sys.exit(1) else: if args.type_one == True:
flags['type_one'] = True
else:
flags['type_one'] = False
if args.type_two == True:
flags['type_two'] = True
else:
flags['type_two'] = False

filename = args.filename
fp = open(filename, 'rb')
refs = ReferenceBuilder(fp, flags)

refs.build()
print("Variables:nn") for i in refs.variables.keys():
key = i.decode("utf-8") for v in refs.variables<i>:
print("%s: %s" % (key, v.decode("utf-8")))

http_references = []
secrets = [] for i in refs.references.keys(): if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
data = refs.references<i>.ascii_data().decode("utf-8") if 'HTTP/1.1' in data:
http_references.append(data) for k in regexes.keys():
matches = regexes[k].findall(data) if len(matches) != 0:
secrets.append("TruffleHog (%s): %s. Identified from: n%s" % (k, matches, data))

print("nnHTTP References:nn") for i in http_references:
print(i + "n")

print("nnSecret References:nn") for i in secrets:
print(i + "n")

main()

首先大致过一遍该代码执行的流程:

  1. 第13行代码到36行代码主要为该文件如何使用,type_one代表Spring 1.0 -f指定

  2. 第38行开始处理heapdump文件。

我们的重点就是开始从第40行开始看。结合上下代码及pyhprof库进行分析。首先我们设置好调试模式,开始慢慢调试:在第40行打断点

Py解析heapdump

跳转到references.py中的ReferenceBuilder类中

Py解析heapdump

这里的代码主要是接受-f参数指定的文件,并且判断flags是type_one还是type_two。然后往下调试进入到refs.build()方法处,跟进调试

Py解析heapdump

此处会进入到read_hprof()方法中,而read_hprof可以看到红色箭头指的方向,在167行代码处,进入到了HProfParser进入解析器,往下调试进入到parsers.py文件中

Py解析heapdump

上述代码中115到120行,都很容易看到,在121行中,u1 = self.u1() 此处u1我们目前不知道是什么,所以这里我们跟进第121行。

Py解析heapdump

是一个读文件的操作,我们继续往下走

Py解析heapdump

进入到122行代码,一个判断语句,当u1不为空,跳出判断,然后添加到f参数中

Py解析heapdump

而通过调试信息,我们可以看到变量f的值是b'JAVA'。(b在Python中代表字节(bytes))。这里可以跳出了,因为这里实际上是一直在循环进行该操作,直到读取完毕。然后我们继续看一下代码:

    def read_hprof(self):
self.p = HProfParser(self.f) for b in self.p: if b.tag_name == 'HEAP_DUMP' or b.tag_name == 'HEAP_DUMP_SEGMENT': return b elif b.tag_name == 'STRING':
self.strings[b.id] = b.contents elif b.tag_name == 'LOAD_CLASS':
self.class_name_ids[b.class_id] = b.class_name_id raise RuntimeError("No HEAP_DUMP block")

其中代码:self.p = HProfParser(self.f) 其中f就是上面所说的变量f,它执行了一个读文件的过程,并且把文件的明文都存储在了f中。<br />为了更方便了解,将f打印出来,然后再慢慢进行

b'JAVA PROFILE 1.0.1'

这个是f的值,然后我们往下进行,进入for循环中,往下调试进入如下代码中

   def __iter__(self):
while True: try:
b = self.read_next_block() except EOFError: break
if b is None: break
yield b

上述的代码,很痛看懂,我们主要了解的就是self.read_next_block()是什么?在该语句上进行断点,进入到如下代码

    def read_next_block(self):
tag = ord(self.u1())
tag_name = TAGS.get(tag, 'UNKOWN')
record_time = self.i4()
length = self.i4()
start = self.f.tell()
self.seek(length)
block = BLOCK_CLASSES_BY_TAG.get(tag_name, GenericBlock)(tag, self, record_time, start, length) return block

self.u1前面说过是什么。然后看一下TAGS.get是从哪里来的。在此处断点进行调试

Py解析heapdump

TAGS来源于constants.py文件中。然后我们看一下tag的ASCII是什么

Py解析heapdump

此处也会循环一段时间,满足read_hprof方法中后,会跳出,并输出一个variables的列表。回到最新开始的代码中

    for i in refs.variables.keys():
key = i.decode("utf-8") for v in refs.variables<i>:
print("%s: %s" % (key, v.decode("utf-8")))

http_references = []
secrets = [] for i in refs.references.keys(): if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
data = refs.references<i>.ascii_data().decode("utf-8") if 'HTTP/1.1' in data:
http_references.append(data) for k in regexes.keys():
matches = regexes[k].findall(data) if len(matches) != 0:
secrets.append("TruffleHog (%s): %s. Identified from: n%s" % (k, matches, data))

print("nnHTTP References:nn") for i in http_references:
print(i + "n")

print("nnSecret References:nn") for i in secrets:
print(i + "n")

上述代码主要就是正则。。。

0x03 二开

其实最难的不是解析,而是如何处理文件,满足我们的需要。由于代码是老外编写,所以我们不得不进行二改,里面的正则匹配表达式几乎对我们来说没任何用处。

#!/bin/python3import refrom pyhprof.parsers import HProfParserfrom pyhprof.references import ReferenceBuilderimport pyhprofimport argparseimport sysfrom colorama import Fore,initimport ast

logos = ''' __ .__
___ __| | __ ___________________|__| ____ ____
/ / |/ / / ___/____ _ __ |/ / ___
> <| < ___ | |_> > | / | | / /_/ >
/__/_ __|_ _____/____ >| __/|__| |__|___| /___ /
/ /_____/ / |__| //_____/ '''
def data_references(refs):
http_reference = [] for i in refs.references.keys(): if type(refs.references<i>) == pyhprof.references.PrimitiveArrayReference:
data = refs.references<i>.ascii_data().decode("utf-8") if 'password' in data:
http_reference.append(data)
hister = "".join(http_reference) with open('./cc.json', 'r') as f:
regexes = ast.literal_eval(f.read()) for i in regexes.values():
matches = re.compile(i, re.S)
matchess = matches.findall(hister) if len(matchess) != 0: for k in matchess:
print(Fore.MAGENTA + "[Find+]:" + "n" + k)def main():
flags = {}
parser = argparse.ArgumentParser(description='Parse JAVA HPROF files')
print(Fore.CYAN + logos)
parser.add_argument('-f', '--filename', dest='filename', required=True,
help='HPROF file to parse')
parser.add_argument('-t1', '--type-one', action='store_true',
help='Force Type 1 parsing of variables')
parser.add_argument('-t2', '--type-two', action='store_true',
help='Force Type 2 parsing of variables')

args = parser.parse_args() if args.type_one == True and args.type_two == True:
print("Error: Use -t1 or -t2, but not both")
sys.exit(1) else: if args.type_one == True:
flags['type_one'] = True
else:
flags['type_one'] = False
if args.type_two == True:
flags['type_two'] = True
else:
flags['type_two'] = False
filename = args.filename
fp = open(filename, 'rb')
refs = ReferenceBuilder(fp, flags)
refs.build()
data_references(refs)


main()

效果图:

Py解析heapdump

ccc.json的文件内容如下

{    "RSA private key": "-----BEGIN RSA PRIVATE KEY-----",    "SSH (DSA) private key": "-----BEGIN DSA PRIVATE KEY-----",    "SSH (EC) private key": "-----BEGIN EC PRIVATE KEY-----",    "PGP private key block": "-----BEGIN PGP PRIVATE KEY BLOCK-----",    "AWS API Key": "((?:A3T[A-Z0-9]|AKIA|AGPA|AIDA|AROA|AIPA|ANPA|ANVA|ASIA)[A-Z0-9]{16})",    "Amazon MWS Auth Token": "amzn\.mws\.[0-9a-f]{8}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{4}-[0-9a-f]{12}",    "AWS API Keys": "AKIA[0-9A-Z]{16}",    "AWS AppSync GraphQL Key": "da2-[a-z0-9]{26}",    "GitHub": "[gG][iI][tT][hH][uU][bB].*['|"][0-9a-zA-Z]{35,40}['|"]",    "Password in URL": "[a-zA-Z]{3,10}://[^/\s:@]{3,20}:[^/\s:@]{3,20}@.{1,100}["'\s]",    "password": "addresses: .*? username: .*? password: .*? "}

此处代码有些布局上的小瑕疵,各位师傅们请自行排版代码。


安利一款非常好用的工具:

https://github.com/wyzxxz/heapdump_tool


文章来自于T00LS安全社区,作者:Moonshine

原文始发于微信公众号(狐狸说安全):Py解析heapdump

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年8月24日02:56:38
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   Py解析heapdumphttp://cn-sec.com/archives/1249430.html

发表评论

匿名网友 填写信息