【Office Word文档】溯源方法研究

admin 2022年4月10日01:09:26评论246 views字数 5074阅读16分54秒阅读模式

原创作品,非经作者同意谢绝转载!

【摘要】基于最广泛使用的Microsoft Office Word文件结构格式分析,集中关注编辑过程还原主题,立足document.xml与core.xml文件内容,挖掘OOXML格式中独特的RI值变化规则,进而完成文件来源的取证分析,并通过自主研发的软件使得分析工作智能化工具化。电子数据取证实践证明,所述方法准确高效。
【关键词】Office Word、溯源分析、document.xml、core.xml、Revision Identifier
【中图分类号】TP391
1 引言
随着以计算机为代表的新型信息技术的发展,原有以纸张、模型等形式保存的核心技术转化为使用电子文档进行说明描述。虽然电子文档具有方便管理、易于存储等特点,但同时也存在能修改、易复制的缺陷。一旦遭遇篡改或滥用,需要综合分析计算机操作系统环境,才可能寻找到有力的证据或线索。电子数据取证实践也由此越来越多地遇到涉知识产权方面的鉴定需求,送检人往往要求针对文件的来源进行判定,或是寻找源文件与目标文件间的复杂联系。
传统的针对电子文档是否涉及知识产权纠纷的分析,集中关注于文件内容,偏重使用内容相似性检查技术。由于嫌疑人在通过非法手段收集到含有核心技术的电子文档后,出于掩盖罪行及再次使用等目的,会对其进行增、删、改等操作或是对文件内容进行转义编辑处理,传统分析方法往往无法取得理想效果。
针对上述情况,课题组成员将研究重点转移至文件格式方面,曾经基于微软复合文档结构格式(应用于Windows XP环境)的挖掘,尝试恢复出了Office PowerPoint 2003演示文稿中被删除的幻灯片信息。然而随着Windows XP正式停止支持服务,以及Microsoft Office 2010(广泛应用于Windows 7之后的操作系统中)的逐步普及,针对Office 2003文档的操作行为挖掘研究已不具现实意义。
Microsoft Office系列文件在2007、2010版本之后,采用了OOXML(Office Open XML)格式,该格式通过可配置的方式描述文件组件,并提供用户访问文件结构的通道,目前已成为国际文档格式标准。因此,针对该新型文件格式的深入分析,可以挖掘出文件自身包含的更深层次信息,为电子文档的溯源研究提供了可能。
2 Office Word 2010文档溯源分析
2.1 Office Word 2010整体架构
Office Word是Office系列文件中使用最广泛的文件类型,其整体采用ZIP集成压缩格式。解压后,其根目录下会出现“_rels”、“word”、“docProps”三个文件夹和“[Content_Types].xml”文件(如图1所示)。其中,[Content_Types].xml文件以字典形式存放该集成包中内置的内容类型;扩展名为“.rels”的文件总是存放在“_rels”文件夹中,根目录与“word”文件夹下均含有“_rels”文件夹,其内包含的“.rels”文件用于描述文档组件之间的关联,以此来减轻用户程序遍历寻找特定内容的负担;“word”文件夹中最重要的就是document.xml文件,存储着文档中的文字内容;“docProps”文件夹负责保存时间属性、文件所有者等属性信息。除上述说明的主要文件(夹)外,集成包中还含有用于描述字体、字号、颜色、脚注等配置信息的文件,如fontTable.xml、footnotes.xml、settings.xml、styles.xml等。

【Office Word文档】溯源方法研究

图1Office Word 2010集成包整体架构

2.2 document.xml文件分析
document.xml使用名为“body”的子元素存放文本信息。body元素中包含两种内容组别,一种叫做“block-level”,负责描述内容的整体结构,如段或表;另一种被称为“inline content”,即为文本或图片信息,包含于block-level内容中。document.xml使用“w:p”、“w:r”、“w:t”等标识对内容进行标签。其中,w:p用于定义一个段落;段落被分割为若干运行w:r,运行(run)是能够拥有格式的最小基本单位;w:r元素又被分割为若干w:t元素,w:t元素不可以拥有格式,只能是文本内容(如图2所示)。因此,可依据下述流程定位具体的文本信息:段落元素(<w:p>...</w:p>)->运行元素(<w:r>...</w:r>)->文本元素(<w:t>...</w:t>)。

【Office Word文档】溯源方法研究

图2 document.xml文件内容

从图2还可以看出,document.xml包含有被称为RI(Revision Identifier)的各种码值,如w:rsidR、w:rsidRDefault 、w:rsidRPr等。虽然,RI码的生成算法尚未被破解,但研究发现,新建文件后输入内容、编辑现有文字格式、在文件中键入新内容等操作会促使document.xml更新RI码值。鉴于每篇电子文档在最终成稿前都不可避免的需要经历反复多次修改,因此对于0ffice 2007、2010及其之后的Word版本,可以依据RI值挖掘曾经有过的文档增、删、改操作,实现文档溯源的目的。
实验证明,如果A文档由B文档通过复制操作生成,只要编辑后的A文档还存留有B文档中的字符(任意数量),document.xml文件中就会保留有维持不变的RI值(setting.xml中也会留存原有的RI)。由于RI码通常由8个十六进制数组成,完全相同的概率为2的32次方分之一,即4 294 967296分之一。因此,A文档如果含有与B相同的RI值,即可说明A与B同源。
实验还发现,文件document.xml的末尾通常会出现名为“w:sectPr w:rsidR”的标记,同一台计算机在一段时间内创建的文件会含有相同的“w:sectPr w:rsidR”码值。这一规则可以用来判断文件是否来源于同一台计算机。若存在相同的w:sectPr w:rsidR码,可判定是由同一计算机所创建;但若不同,却不能由此推断文件来至不同计算机,因为如果相隔时间过久,同一计算机上创建的w:sectPr w:rsidR码值也会不同。

【Office Word文档】溯源方法研究

图3 “1.docx”与“1的副本.docx”对应的document.xml文件内容

图3所示为“1.docx”与“1的副本.docx”对应的document.xml文件内容,其中“1的副本.docx”由“1.docx”复制而来,并对内容做了适当修改。图3中两文件除拥有相同的w:sectPr w:rsidR码值(0059404E)外,w:rsidR码值也相同(006E1454)。因此可以得出结论,两文件来源于同一计算机,并且其中一个文件是由另一文件复制而来的。
2.3 core.xml文件分析
依据document.xml文件内容可以判断文件是否同源,但若要进而实现“谁复制于谁”的分析,则可结合core.xml文件内容完成。core.xml位于docProps文件夹中,其内存放着创建者、最后修改者、创建时间、修改时间等重要文件属性(如图4所示)。可依据上述内容辅助判定文件的最早版本。需要指出的,core.xml文件中与时间相关的信息采用格林威治时间进行存储,实践中需要将其转换为北京时间。

【Office Word文档】溯源方法研究

图4 core.xml文件内容

3 智能溯源工具实现
基于第2节所述原理,课题组使用VB.NET语言实现了Office Word 2010溯源分析工具。首先将需要比对的文档进行集成包分解处理,之后重点针对word文件夹中document.xml里面的元素进行抽取,基于w:sectPr w:rsidR实现受检文档是否产生至同一计算机的判断,再通过w:rsidRDefault、w:rsidP、w:rsidRPr、w:rsidR、w:rsidSect等码值的循环比对,确定文档来源是否相同。基本程序流程如图5所示。为提升溯源判断的可信程度,本软件工具还将core.xml文件纳入考察范畴,展示其含有的创建时间、修改时间、创建者、最后修改者、修改次数等关键元素,帮助取证人员进行辅助分析。对于core.xml文件中的时间问题,智能工具已默认将其转换为北京时间(+8hour)予以显示。

【Office Word文档】溯源方法研究


图5 智能溯源分析工具基本处理流程
4 案例分析
2013年11月,赵某应聘到重庆一家生产电控设备的高科技企业A公司工作,期间赵某有机会接触到A公司的核心机密技术文件。2014年底,赵某申请离职,声称要回乡创业。此后,赵某投身于B公司,B公司与A公司属竞争对手关系,都在研发生产同类型的电控设备。赵某加入后,B公司生产的设备在性能上有了极大地提升,其产品在规格上也与A公司极其类似。A公司遂起诉赵某擅自将本公司核心技术泄露于B公司。
取证人员从赵某笔记本电脑中提取到一份名为《汽车电控机密技术》的文档,发现该文档与A公司的技术文档《电控设备核心技术》内容上极其相似。但当对赵某展开讯问时,其咬定该文档为自己原创,并非盗取A公司成果。取证人员使用智能分析工具针对两份文档内嵌的RI值进行比对分析,从中碰撞出了相同的RI码值(如图6所示);并结合文件属性中的时间与创建者等关键要素的综合挖掘,形成证据链条,判定《汽车电控机密技术》确实由《电控设备核心技术》复制转义而形成,从而认定了赵某的犯罪行为。

【Office Word文档】溯源方法研究


图6 利用软件工具处理知识产权案件
5 结束语
本文重点依托document.xml中RI码值完成word文档同源性判断,同时辅以core.xml呈现的时间序列先后性,提升结论的可信度。未来计划继续梳理挖掘RI值的生成原理与变化规则,特别是复杂编辑行为对其产生的影响,同时关联OOXML结构中的其他配置说明文件,力争全景再现文档编辑过程,为电子文档的取证分析开辟新的思路与方法。



【参考文献】
[1]罗文华.Microsoft复合文档结构电子数据取证分析[J].信息网络安全,2013(3):9-11.
[2]刘惠萍,罗文华.从知识产权侵害案件看Microsoft PowerPoint演示文稿鉴定实践[J].中国司法
鉴定,2013(3):62-65.
[3]罗文华.MicrosoftPowerPoint演示文稿参与编辑信息调查方法研究[J].中国刑警学院学报,
2013(4):32-35.
[4]Rice Frank.Introducingthe office (2007) open xml file formats[OL].[2012.11.07].
http://msdn2.microsoft.com/en-us/library/aa338205.aspx.
[5]刘洋洋,卢睿.网络行为轨迹分析在现代侦查机制中的应用研究[J].警察技术,2014(5):46-48.
 
【作者介绍】
罗文华(1977—),男,教授,研究方向为电子数据取证
孙道宁(1987—),女,助教,研究方向为涉计算机犯罪侦查

【Office Word文档】溯源方法研究


1.Word Forensic Analysis And Compound File Binary Format

https://www.forensicfocus.com/articles/word-forensic-analysis-and-compound-file-binary-format/?__cf_chl_jschl_tk__=4d2e399c7645541cf9e61711fe14af62cf284e68-1592466567-0-AZMo2W8FImH5ZhtbH3vJreWv_I8bEbJ4VkdPcfHDmDfV-yoXj8eUyQEVihpTBCb0bxFvMnkC2YSY8UsdCng_RH08lXiic-B1q7mKZULVrANFyFIAu74QxYa2ZXDIrMxmgXFXIWWe-JaUAG4fgEGE-1XcwoNYvzoapuLu0tIsJM4pvM__IW_UWvgi_SwOt61HkxsEpYqKuxE6Xi6UYudW5gK01VLfjYmJcF8LKnXqbtJY9YYY8cHMeKQiA_sZterJ_bnD1bNJ38ZL8ASYGnU7KeXcx1GHfJuNU_8Vq64LjGZkOfOOrIoFQ4kBVjrBjY5yd3DsM54UWb5ylJvcxnon6pAZ3yo_5uqfqjUHeVIDq6U2

2.如何对电子文件的时间信息进行取证和判断分析

原文始发于微信公众号(Th0r安全):【Office Word文档】溯源方法研究

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2022年4月10日01:09:26
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   【Office Word文档】溯源方法研究http://cn-sec.com/archives/893433.html

发表评论

匿名网友 填写信息