亲历搭建solr大数据查询平台的体会

admin 2023年1月10日00:46:30评论17 views字数 1462阅读4分52秒阅读模式


其他

案例

声音

随笔

声音

编者按

先贤卢梭说过,“人,生而自由,却无往不在枷锁之中”。我们身处数据时代,也都已经成为数据的奴隶。然而,不管如何,我们总要保护自己,飞蛾扑火、唐吉可德又将如何呢?

互联网野草般发展的那些年,个人信息如韭菜一般,被各种组织割来割去。然而,国人对于个人信息保护的淡漠,相关部门政策研究和制定与实际的偏离、考虑不周等,法律保护的合力始终没有形成,使公民个人信息泄露的形势进一步恶化。这也推动我国跻身全球网络犯罪大国、强国之列。
让人有所期盼的两部法律(数据安全法、个人信息保护法)陆续出台,有望使这种情况变好。然而,小编一直以为,在推动法治国家进程之中,“守法“绝对是最为核心的要义一样,同样的道理,在解决公民个人信息保护的过程中,法律和技术都是辅助性的,公民的冷漠才是导致溃坝的“元凶”。
本号从几年前就曾经统计该过最常见密码的形式,高居排行榜第一名的居然是“123456”,诚然使人无奈。也萌发了一个想法,能否给大家一个提醒和警示,关于这一点,国外的网站做的比较好,如:Have I Been Pwned?。但做这件事情,也同样面临着广泛的质疑。因此一直以来,小编都想亲手体验搭建大数据查询平台的过程。随着前一阵子北京疫情飞起,小编阳在家休息,这个愿望也得以实现。
具体环境
(1)应用服务:tomcat9
(2)后台数据库:Mysql5.6
(3)索引数据库:Solor8.11.2
(4)运行平台:CPUXeon 8255单核,内存2GB,硬盘50GB,OSCentOS 7.5
(5)测试数据:前几年泄露的2000w条旅店住宿数据
少走些弯路
关于上述技术路线,在网上有很多具体介绍,但真正到操作实践中,却完全不是那么回事儿。再加上小编几乎完全不懂web设计,很多技术细节都需要不停的去验证,因此浪费了很多时间和精力。为了记录此次验证过程,也为了提醒感兴趣的同志避免走弯路。小编把很多弯路记录一下。
1、高版本solr已经不再使用scheml.xml,所有的类型修改都在managed-schema,没有扩展名
2、solr的增量索引与时间有很大关系,solr默认使用utc时间,如果不做出调整的话,则建议在8小时后更新mysql数据
3、solr自带的jetty虽然也可以提供web访问方式,但为了安全考虑,让然建议与tomcat等应用服务器进行集成,确保只能通过本机访问solr
4、关于mysql的数据导入问题,建议使用navicat等工具进行
5、关于数据清理,要说的话原本有很多,但懂的人自然懂。在此强调三点:编码、分隔符、消除乱码,如果实在消除不了,则都存入一个字段也未尝不可,毕竟在solr中进行索引也都能够处理。
6、.……

效果和不足

毕竟只是为了验证平台搭建以及数据查询的速度和性能,也许很快就会关闭服务。大家可以访问这个地址看看查询的效果怎么样。

http://82.156.50.206/jcsou/index.php

先在右侧提交一下查询申请(编辑框中写啥都行,别骂人就行),小编会在5个小时后(如果不忙,也可能5分钟)开通ip地址许可,就可以查询了。考虑到类似的查询平台都可能涉及侵犯公民个人信息,在显示上进行了隐名化处理。请大家理解。为了保护网民的信息安全,小编也是拼了。

但是,服务器性能还比较差,数据资源尚不够丰富。有愿意提供支持的,非常欢迎您的加入,共同促进大数据技术的深入研究。以上经验和经历仅供研究之用,请勿用于商业用途或违法犯罪。

原文始发于微信公众号(信息时代的犯罪侦查):亲历搭建solr大数据查询平台的体会

  • 左青龙
  • 微信扫一扫
  • weinxin
  • 右白虎
  • 微信扫一扫
  • weinxin
admin
  • 本文由 发表于 2023年1月10日00:46:30
  • 转载请保留本文链接(CN-SEC中文网:感谢原作者辛苦付出):
                   亲历搭建solr大数据查询平台的体会http://cn-sec.com/archives/1506410.html

发表评论

匿名网友 填写信息