- 左青龙
- 微信扫一扫
- 右白虎
- 微信扫一扫
聚合网络安全,存储安全技术文章,融合安全最新讯息
成果速递
基于关键词挖掘的热线文本数据犯罪线索筛查方法研究
摘要:
[ 目的 / 意义 ] 针对公安业务中对热线文本数据犯罪线索关键信息识别与筛查时存在的信息化分析能力不足问题,提出一种基于关键词挖掘的热线文本数据犯罪线索筛查方法,帮助业务部门提高相关情报研判效率,使得犯罪线索筛查工作更加信息化和科学化。
[ 方法 / 过程 ] 考虑到直接采用文本类等算法方法或因有效信息样本量占比过小使得模型训练不充分,本文首先对已知犯罪线索进行基于文本相似度的种子词集抽取,然后采用Word2Vec 对种子词汇从同类词、替代词两个角度扩展构成专业词库,最后使用基于语义的积分筛查模型实现对热线文本数据中犯罪线索筛查。
[ 结果 / 结论 ] 对济南市 1 050 条先验热线文本数据作犯罪线索筛查实验,并进行实际比对与结果指标分析,得到结果召回率86%,可以认为本文所述基于语义的积分筛查方法对济南市热线文本数据内犯罪信息具体性识别达到预期效果并实现犯罪线索有效筛查。
关键词:热线文本 专业词库 文本相似度 犯罪线索筛查
编辑:杨素
审核:陈鹏
原文始发于微信公众号(安全防范与风险评估重点实验室):【成果速递】基于关键词挖掘的热线文本数据犯罪线索筛查方法研究
评论