之前写了数据资产识别、数据威胁建模,很多读者在问一个问题,我们为什么要保护数据,数据安全的对象到底是什么?其实越基础的文章越难写,因为前辈们已经写了很多,因此斗胆从理解数据开始谈起,这又是一个连载,笔者认为,只有理解事物的本质才能真正去理解保护对象,否责保护本身就成为一个过程而不是结果。
-樊山
数据的定义多种多样,比如国标GB/T 5271.1-2000,定义01.01.02中将数据定义为“信息的可再解释的形式化表示,以适用于通信、解释或处理;注:可以通过人工或自动手段处理。”。从传统数据的理解而言,笔者更倾向于理解数为是“描述事物的符号记录,是可定义为意义的实体,涉及事物的存在形式。是关于事件之一组离散且客观的事实描述,是构成消息和知识的原始材料。”在计算机中,软件的构成可以分为程序和数据,程序调度数据执行预定义的功能。因此,作为代码应该是实现数据表达的一种形式,其自身也可以归属为一种数据形态-半结构化数据。传统数据的表示可以分为有形的和无形的,也可以定义为电子的和非电子的,在《中华人民共和国数据安全法》最终版本中用“其他方式”来替代“非电子化”概念。对于多样化的数据表现形式在大数据中被更加显著的表现出来。
大数据延展了数据的表达,大数据转化时代从“数字化”向“数据化”高速发展,数字化把模拟数据转换成用0和1表示的二进制码;而数据化可以把一种现象转变为可制表分析的量化形式的过程。(《大数据时代》104页,湛泸文化出版)从传统的结构化数据表达到半机构化,非结构化数据,这就使得数据的处理活动变得更加复杂和丰富。传统的结构化数据指通过二维表的形式表达的数据,从库(文件)、表、字段、条目一系列单元组合而成。半结构化数据可以通过一定的数据结构把一段文字信息或编码转化成结构化数据的模式进行分析;而我们通常所依靠嗅觉、听觉、触觉等多种形式不能直观描述的模式就构成了非结构化数据。每种数据都具有其共有的特性,可以通过某种处理技术把他转换成人类所需要的最终结果,可以是一种预测,也可以是一个决策,可以是数字化的,自然也可以是文字化的,这就是数据的奇妙。
数据不代表信息,但是数据与信息之间休戚相关。如同ISO 27000中所描述“信息是一种资产,像其他重要的业务资产一样,对组织业务来说是必不可少的,因此需要得到适当的保护”。信息可以以许多形式存储,包括:数字形式(例如,存储在电子或光介质上的数据文件)、物质形式(例如,在纸上)以及以员工知识形式存在的未被表示的信息。信息可采用各种不同手段进行传输,包括:信使、电子通讯或口头交谈。不管信息采用什么形式存在或什么手段传输,它总是需要适当的保护。(GB/T29246—2012 IDT ISO/IEC27000:2009 3.2.2)
信息具有与数据相似的表达形式,但是不代表信息可以代替数据,比如:在传统二维表中以字段为例:一个字段名为“ID”下面所生成的条目,对于程序而言,他是构成数据索引的一个关系集,但是对于用户而言,它并不能直接反映用户实体身份的一种具体表达和业务属性关系,所以,该字段能以单独生成信息属性。但是,如下图
图1数据的结构化状态与信息的转换识别
通过对一个身份证号各个单元的结构可以准确对身份证属主的身份信息进行识别和解读,使得从数据到信息的转化成为一种可见的状态,组织保护该数据避免被信息化的有效手段就是数据在形成表达之前的安全处理(如:去标识化技术中的屏蔽),而形成信息之后的活动则是信息安全的管理过程(如:访问控制活动)。
实际上在现实处理该类数据时,从数据要素的角度出发,我们需要对数据进行加工,比如:
编码解释 |
编码 |
赋码 |
区域码 |
440111 |
G1(广州) |
出生标记 |
19970430 |
03 |
性别 |
1021 |
0 |
示例:出生标记代码
from datetime import datetime
def calculate_age(birth_date):
today = datetime.today()
age = today.year - birth_date.year - ((today.month, today.day) < (birth_date.month, birth_date.day))
return age
def get_age_group(age):
if age <= 16:
return "01"
elif 17 <= age <= 24:
return "02"
elif 25 <= age <= 35:
return "03"
elif 36 <= age <= 45:
return "04"
elif 46 <= age <= 55:
return "05"
else:
return "06"
也就意味着从数据加工的角度而言,我们需要根据实际场景去定义数据的生产,而不是用一种统一的格式或者表达来实现,只有经过加工的数据才能真正成为合规的数据要素商品,而不是使用元数据的交易。
数据能够转换成信息,同样,在大数据下,信息也可以还原为数据,如图:
图2 从信息转化为数据后的基于视角的分析模型
图2是一篇新闻报道的局部,根据新闻的基本构成元素,我们可以定义为时间、地点、人物、事件的起因、经过、结果六要素,因此我们可以根据该六要素生成一张二维表。
时间 |
地点 |
人物 |
事件 |
结果 |
|
起因 |
经过 |
||||
2021年2月25日 |
Y国L省 |
X国商务部部长 |
经济研讨 |
3天活动 |
预计行程 |
不同的数据分析需求者所产生的不同的数据结论需要对应他所关注的焦点字段展开关联,比如:商人关注“人物”基于商务部部长所带来的供需关系是商人的敏感性,所以他需要结合X国的实际供需数据产生关联;以便进一步分析可以产生的大数据决策下的判定。当产生了价值决策就需要进一步准备其他数据支撑下的活动,比如:需要在2021年2月25号前在Y国L省特定城市订房,并及时前往,实时了解预计行程,参加相关活动,并利用数据分析结果设定合理的商品和价格作为进一步谈判的依据。所以数据即使在使用过程中依旧不是一个静态的结果,还是需要更多的实时的相关数据建立支撑和保障。这仅仅是一个非复杂性数据应用场景,诸如智能汽车、物联网、工业控制系统等诸多的强依赖数据的产业,数据往往会牵一发而动全身,其所危及的很有可能是人身损害。因此,我们需要去关注数据安全及数据和承载数据的活动。
原文始发于微信公众号(老烦的草根安全观):理解数据
- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
评论