4月11号ChatGPT上线了个人数据导出功能,PLUS和免费用户都能用,这相当于给电子数据提供了一个取证的接口。
点击“Export data”,会提示账户信息和已有对话会被导出,并生成一个文件发送到注册时用的邮箱,点击“Confirm export”。
不用一两分钟,收到含有下载链接的邮件,这个链接会在24小时内过期。
给到的下载链接URL解码后格式如下
##导出数据的下载链接
https://proddatamgmtqueue.blob.core.windows.net/exportcontainer/fd96ee69c40b3f880452e7329a4ae0f08014181c6544edf4a8a5d12a900d984a-2023-04-12-16-23-42.zip?se=2023-04-13T16:23:42Z&sp=r&sv=2021-08-06&sr=b&sig=WKREPzFQpVFS4yItp1owWLQHCdjqZUOgi0v72mv/sgk=
该链接指向微软 Azure Blob Storage 中的一个文件,类似于国内的阿里云OSS存储,应该是OPENAI生成个人数据后推到Azure Blob中提供下载的,从链接中可以获取到下面的信息:
•OPENAI使用的账户名:proddatamgmtqueue,就是这个链接的四级域名•容器名(等于OSS的Bucket):exportcontainer,在域名后第一个/后面•文件名:fd96ee69c40b3f880452e7329a4ae0f08014181c6544edf4a8a5d12a900d984a-2023-04-12-16-23-42.zip,在域名后第二个/后面,是个ZIP压缩包,文件名结尾是他的生成时间。•过期时间:时间的末尾有一个 Z 标记,因此是UTC 时间的 2023 年 4 月 13 日 16:23:42,加上 8 小时,得到北京时间为 2023年4月14日00:23:42。•"sp=r" 表示对这个数据文件的操作权限为只读。•"sv=2021-08-06" 表示使用的 Azure Storage 服务版本为 2021 年 8 月发布的版本。•"sr=b" 表示文件资源的类型为 Blob。•"sig=WKREPzFQpVFS4yItp1owWLQHCdjqZUOgi0v72mv/sgk=" 是签名部分,用于验证访问该文件的权限。
看看压缩包内容:
用edge打开chat.html,发现确实是我账号中目前现有的两个会话,之前已经删除的会话没有显示。
用VS Code打开chat.html
发现关键对话数据都在jsonData里,格式化一下jsonData,然后把ASCII码转成汉字,如下图:
可以看到,每个会话和请求回复都有唯一的 ID ,通过"parent"和"children"进行关联,形成一棵消息树,表示了对话的结构。
与直接查看chat.html的区别在于代码中可以看到对话信息具体的时间,如下图:
create_time即提问发送时间,它的值1681316416.005234是UNIX时间,用CyberChef工具可转成UTC时间“2023 年 4 月 12 日 16:20:16”,update_time就是这个提问的修改时间,剩下的几个参数表示提问内容类型为文本以及文本内容。
下载的第二个conversations.json文件,内容和chat.html中的jsonData几乎一样。
下载的第三个message_feedback.json,保存的是反馈数据,就是下图点赞和踩以及对应的文字评价
看看文件内容,每对花括号代表一个用户对话的反馈,包含会话ID、消息ID、用户ID、点赞点踩和反馈内容。
下载的第四个model_comparisons.json中的文件比较特别,他的意思是模型比较,专门用于记录重新生成的结果和第一次生成的结果,因此,在这个文件中会找到已经删除的会话。对话格式和jsonData相似,但是会多一句很有意思的,别的对话文件中找不到,如下图:
系统会告诉模型“You are ChatGPT, a large language model trained by OpenAI, based on the GPT-3.5 architecture. Knowledge cutoff: 2021-09 Current date: 2023-04-16”。
model_comparisons.json中还能找到网络相关信息,记录了登录时的IP地址所在城市、国家、所在大洲,还有验证是否为机器人时的得分,这些信息应该是CloudFlare给的,如下图:
剩下的user.json,记录了用户信息,包括用户ID、注册用的电子邮件地址、注册手机号、是否是PLUS会员等。
综上,能获得的信息除了现有的对话内容,还有部分删除的信息、对话具体时间、常用IP区域、电子邮件地址、注册手机号、用户ID、反馈内容等。
原文始发于微信公众号(数据取证杂谈):ChatGPT中能获得哪些电子证据?
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论