[SEC] 乱谈数据驱动安全

  • A+
所属分类:安全闲碎

前阵子发了个朋友圈,朋友传话给我说有人不爽 —— 其实,看见你们这么不爽,我也就爽了 ~~~


[SEC] 乱谈数据驱动安全


今天就借着数据驱动安全随便写点什么,没有太多技术,只是些疑问和观点。


【1】驱动之意


驱动这个词,来自百度百科的解释是:用动力推动。

按照这个来理解的话,数据驱动安全就是用数据来推动安全。

这里我有两点存疑:

  • 推动的应该是产业还是说只是将其具化到某种可落地形态

  • 如何评价推“动” —— 简单说,你说你这东西是数据分析得来的,我干嘛信你?


【2】推动什么


前两年在产品经理都在谈改变世界的时候,段子手们就在说 —— 你们都要改变世界,世界都不够用了。

其实,如果没有平行宇宙的话,确实如此,如果有平行宇宙的话,反倒是随便谁来放个屁都有可能制造出一个新宇宙。


现在等着被颠覆的东西太多了,多到已经少有人愿意去制造一些能用、实用、好用的玩意了。

所以我更希望数据推动的是能够落地好用的东西。当然,这不是为数据驱动安全做什么定义,只是一厢情愿。


【3】如何评价


[SEC] 乱谈数据驱动安全


美剧《纸牌屋》是一部成功的作品 —— 媒体这么说的,我没看过。

媒体给出的说法是,Netflix在其历史数据中发现,David Fincher 和 Kevin Spacey 是颇受欢迎的两位演员,而同时英剧版的《纸牌屋》也获得了不错的关注度,因此在三者交集之下Netflix斥巨资拿下本剧版权从而成功点燃火炬。

这是非常容易获得的评价 —— 有收入、有收视率,这就可以说明一切。


但安全则不同 —— 之前我的文章里也提到过,安全工作无非是两大类别:第一,出现问题后(或过程中)的响应;第二,出现问题前的围追堵截。对于数据能驱动的,我相信大家一定不希望是前者,对用户的期望来说,肯定也不仅仅是局限于此。

而如果驱动的结果是面向后者产生的,那么,始终逃不掉的问题就是:凭什么你说我安全是因为你保护得当,而不是我自身就足够强壮?

大概也是因为这样的原因,所以众厂家开始纷纷扑向可视化,通过“看得见”的效果来展示“我做了什么”,试图以此证明“我做的是有效的”。


但问题是,看得见未必就等于看得明白,Netflix 如果只是看到了David Fincher 、 Kevin Spacey 和 《纸牌屋》三者交集的亮点,而偏偏从我朝找个大胡子导演去拍这部戏的话,我还真不信他就能火?


所以非刚需的安全行业始终会有这么一个怪圈存在。


【4】取自哪里,用于哪里


互联网行业习惯了羊毛出在猪身上的运作思路。所以在互联网洗劫各行业的过程中,安全行业也未能幸免。


[SEC] 乱谈数据驱动安全


XCodeGhost挺火的那阵子,类似于上面这样的图片应该比较常见,这张图统计了3-9月份init.icloud-analysis.com的访问情况。

这里不去质疑这些数据是从哪里来的,以及数据的合理、合法性,单说这张然并卵的图 —— 其实我一直没有明白在各种门面上摆放这张图到底想要说明什么?!


于是,就出现了各种解读,有人说上亿用户手机中毒了,有人说手机用户的安全意识脆弱到不堪一击,当然,更多的是能拿出此类图片的厂商会说我们的眼线遍布全球,你休想躲过我的眼睛(当然他们没说这么直白,只是我解读的比较粗俗)...


但从安全角度来说,这个事件的出现根本就是开发者使用了来源不明的XCode,就算继续深究,除了设置合理的研发规范外,更多的也应该更多去关注为什么迅雷能够将含有后门的XCode离线存储、以及类似问题还会存在什么环境中、应该如何发现和防范。


所以我一直认为,现在数据的使用逻辑是个大问题。


就好象我见过某行业会议上有人拿着政府门户安全报告在大放厥词一样,难道你没有考虑过下面的听众们几乎不会有什么门户站点暴露在互联网上么?!

数据驱动中,取之于民、用之于民是一个基本逻辑,你的数据分析结果不一定只能用于你所取得原始数据的环境中,但对这个环境来说,但你的结果一定是最适合用于此环境中的。


我曾经分析过某客户近一年的流量规律,规律显示,每逢周四都是本周的最大峰值,每天下午2点左右是当天的最大峰值(其中还做了协议细分,此处不详述),通过这个数据套用,我们曾经发现过蠕虫在内网的扫描情况(只可惜数据粒度过粗无法实现规则化进而使用机器自动判断,只能人工结合经验来判断)。但同样的数据,拿到其他网络中大概是没有任何判断价值的。这就是我说的基本逻辑。


【5】不一定美丽的未来


说一下我所认为的“数据驱动安全”所产生的产品或服务应该具备的特性。


  • 要讲道理


现在很多产品不讲道理、纯耍流氓,当然,这不仅仅是安全行业特有的情况。

其实根本问题在于,做产品的人不懂行业、不懂市场、更不懂用户,自己都说不清楚,就只好遵循自己的混蛋逻辑来做产品。

未来如果有一批贴着“数据驱动安全”标签的产品出来的话,讲道理就变得更重要了。因为数据的解读五花八门,说小了,其分析视角与个人技能和经验有关,说大了,谁知道个人的童年阴影会不会影响到数据分析的结果呢?

当然,想要把这类道理讲清楚其实还是挺难的,尤其是在自动化产品中试图去讲就更困难,但这事未必无解。


  • “对比”比“评价”更重要


数据最大的特性就是流动性。

既然其流动性强,那么,准实时甚至是实时的数据比对,比利用主观意识形成的评价模型去评价现状就显得更真实、更珍贵。


  • 专数专用


还是“取之于民用之于民”的基本逻辑。

外围的全集数据形成的通用模型固然重要,特定范围内的数据采集和分析则更重要,而在特定范围内的分析结果能够精准投放到其环境中的二次利用就更更重要。

这就好像心理咨询师,其成长一定是学习了无数个病人的案例之后才能出师,但当他真的独挑大梁面对一个真实的病人的时候,一定要根据病人的情绪来有所调整。


目前能想得到的就这些。

最后,我觉得无论什么新概念出现,都不要妄图去颠覆什么,对当前产品和服务的改进和改善才是永恒的主题。其实伟大的人都是改着改着就改写了世界的。


阴天不下雪的日子里,心情不好,随写几笔,望点评。


本文始发于微信公众号(Piz0n):[SEC] 乱谈数据驱动安全

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: