0x1本周话题
话题一:近期个人信息泄露事件在网上传的也比较热闹,在思考一个问题,如果企业卷入隐私泄露风波,需要快速自证清白。大厂还好,不论是技术层面、管理层面还是安全投入都比较多。但对于2~3人小团队,安全防护的不管技术层面还是管理流程,业务场景都不能完全覆盖,并且安全投入很少,这种情况下在没法完全的自证清白或者不具备自证清白的能力。
想请教下大家两个问题,大家有没有好的想法或建议:
1、对于上述情况,小团队如何自证清白。
2、这个情况怎么和老板沟通,一起结合这个场景评估ROI,定一个基础线,如我们做到什么程度可以;哪些场景的自证清白可以少投入或没法自证清白也接受风险。
A1:首先自证清白这个事情,不是安全干的活儿,理论上是品宣部门或者公关部门出面,技术人员最多是帮忙通过技术手段证明和公司没关系,或者关系不大。
其次,从历史上多家数据泄露公关文来看,如果真的泄露和贵司相关,与其遮遮掩掩,不如大大方方承认,并且承诺,贴补,一定程度上可以降低舆论长期发酵对公司名誉品牌产生更长时间的影响。
再者如果和你们公司没关,最好的方式是沉默,不予回复,内部提前自查,确定是不是你们,如果舆论导致监管找你们,你们只要配合监管自查给出不是你们的证明报告就好。
最后,接着舆论风波,找老板说一下事情的严重性,如果老板愿意投入,你就能刷一波存在感,并且定个红线出来,老板觉得没卵用,那你就该干啥干啥。
A2:对公众的自证清白确实不是技术问题,某度这次查审计记录,还原开盒数据,老百姓还是不信,技术范畴只能聚焦到对监管自证清白,比如:数据水印,数据诱饵,脏数据,用来反证,审计记录(包括合法接口)的快速比对,这些是可以做的,需要数据部门配合,常见的解决方案就是建扎口建网关,一揽子解决方案。
A3:让PR来解决吧,说太多还不如不说,天天都有热搜,别想着快速能把事情解决,有些时候欲速则不达。真出事了监管部门会调查,咱就应对好监管就行。
A4:有些事情很难自证清白,我们学到的是Due Diligence,尽职就好了,没必要强求。
A5:确实是很难去自证清白,历史上那些公文大大方方承认不足给赔偿或进行整改也会容易让客户接受。
承认技术不足的同时老板们就会觉着会不会是安全做的不到位啊之类的,那怎么去给老板提前提示这个事情,比如定红线结合ROI我们做的什么程度可以。
Q:大家有什么好的经验或方法不?我想在风波来之前先给老板们打个预防针,不知道怎么做合适。
A6:你不承认不足,老板就不会觉得你废物了?向上汇报要想让领导承认你的产出,不是一味的迎合,而是把他对于事情的预期拉到和你想给的在一个层面,你得给他灌输。
老板们都是飘在天上的,你得找根儿绳子把他拉下来和他说话,不然他听不见你在说啥。
A7:我现在有个思路,借助现在这个热度,再结合公司业务场景,去梳理每个业务场景可能存在的风险,怎么做规避这些风险或降低风险到可接受范围,然后去列举如果发生类似的事件我们技术手段能做什么能证明什么。
还有哪些没做,会有什么风险。是不是可行?
A8:领导更在乎的是,你是个废物,你还不去往好了努力做···把问题抛出来的同时,把你的解决方案也给放在桌面上,告诉他预期收益。
对于大老板,你最好把风险折算成钱来说,比如那些用户数据对这家公司造成了多少直接损失(股价下跌、对外赔偿等等),间接损失(用户量在数据泄露后下降了多少,折合用户流量所产生的营收降低了多少)。
A9:可以,但是有个关键的事情你要注意,老板没时间看你的长篇大论,你可以梳理出来当做附件资料供他参阅,但是核心问题,你只能选2-3个,和他重点去说。
A10:某度的事情和某蜜放一起就很典型的心理账户差异。PR部门没有在平时建立好用户感官,那做什么都是错的。某蜜315爆出来之后都不用企业自证清白,用户都为它说话。
话题二:大模型做安全运营的效果取决于算法、算力、数据。大家都用通用算法,安全数据质量都比较差,所以大模型做安全运营的效果取决于算力。所以你看安全公司大模型做安全,只要提到私有化部署就没有下文了。如果甲方自己有比较强的算力,安全团队使用这部分算力做安全,才可能有效果。
A1:有算力情况下,哪些场景能做呢?算力有限是多有限?算力有限我感觉啥也搞不了,随便跑一个分析都要几分钟的话,没法玩。
A2:感觉难搞,我们跑一个分析流程都有8000+token了。
A3:最好是常态化,不要搞10天,1个月,2个月这种。利用AI有个关键的地方,你是用AI来做总结,还是想让AI来做安全推理?应用场景不同,你的容忍度也应该调整。
A4:还行吧,我这边一条workflow跑下来10S左右。
A5:我们是用来推理。
A6:推理有推理的场景,你需要接受他的延迟,几分钟相对于人工分析还是赚了的。但是仔细推敲推理的场景,这种推理真的依赖AI合适吗?专业吗?其实不一定。
大多数情况下,DS的推理跟专家的基于SOP的workflow的分析还是相差甚远,而后者是可控的,前者就不一定了。如果你看到的DS的推理结果看上去很美好,那么是因为这个分析事件本身就已经是带权重的。
A7:我是这么想的,有很多时候写代码、分析代码、分析日志我都会丢给chatgpt分析,理论上告警也可以分析的。幻觉确实是一个问题,不过也有一些办法可以缓解优化。
A8:关键是要上下文,上下文关联完整才能输出有效的结果,单个告警没有意义。上下文可以串进去,还有系统架构业务情况这些信息也可以做到工作流里串进去,所以token就特别长。
A9:基于AI的告警分析肯定有其价值,我内部培训的时候经常提到AI最大的助力是将machine readable转为了human readable。有没有想过,你给AI的信息越多,它越容易出错?
A10:更关键的是提示词,通过提示词把必要的上下文提问出去,而不是直接把原始数据给它。实际上是降低了门槛,如果处置告警的来回就那么几个人,意义也不大了。
A11:有时候调的好好的,中间差了几个字结果天差地别。看模型水平,反正gpt是用不得。
A12:之前用chatgpt 4o比qwen2.5强多了。qwen2.5不降智,qwen2.5稳定性比4o强多了。相似的告警和日志,确实从qwen2.0 到2.5 到ds qwen,越来越准确了,不过加了推理以后也有新的问题。
A13:4o随机降智的水平跟3.5有一拼了,qwen的推理只有32B才能用。2.5的推理没调优,推理有推理的好处。
A14:我基本都在用72B和deepseek v3。可以根据他的推理逻辑来捋他的逻辑对不对。内部的满血版R1基本没用过, think半天,有那空,我看一眼告警就知道了。
A15:我用2.5max不带推理,然后cluade3.7和dsr1多一些,gpt我都不用了。qwq32B不错,算力要求相对低。
A16:目前开源的最强的推理小模型,32B个人用户也能玩得起。
A17:qwq也是推理很长,目前我们这还没看到需要推理的场景。
A18:我一般分析是将数据通过脚本分析出概率,再将概率用大模型输出统计分析效果和文字,很少直接用源数据分析东西。
A19:确实是太慢了,目前我们的告警长度普遍在8-10K左右,再稍微冗余点,模型跑起来上下文都得设置成14K,每秒才35-40个token。非推理模型还行,我们上下文下来也得20K了。
A20:那是因为上下文长度就64k,超长就会注意力丢失了。
A21:我们确实是用它做推理,一些告警处理。带上它的think 实在太长了。
A22:那么大的上下文不会丢数据吗?我用起来上下文越长数据精度越低。
A23:不会丢数据呀,但是太长了以后确实准确度会下降,要合理做减法。直接用BF16,不量化压缩的话就还好。
A24:正常的用法是要总结一下每次的推理和结论塞到上下文里面去,而不是直接用,这个位置实现方式参考cline。
0x2
原文始发于微信公众号(君哥的体历):团队如何在隐私泄露风波中优化安全投入,同时探讨基于算力的大模型在安全运营中的应用。|总第283周
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论