嘿!这里是Wechat.Doonsec
,我是洞见微信聚合平台的创作人-AJay13。今天是2021年1月1日,2020年终于结束了,像2019年一样我们会在下篇文章中介绍2020年信安类公众号中都有哪些数据值得分析。这篇是我们对洞见微信聚合一年来的总结。
首先让我先回答一个师傅们经常会问的问题。这个平台是你一个人在做吗。
准确的说除去我后,平台的运营维护前后都是由来自不同公司、学校的师傅共同完成,甚至有些还素未谋面。
在过去的一年内,我们做出了哪些大的改变?
2020年是洞见微信聚合尝试朝着商业化发展的一年,2019年洞见微信聚合
项目与我们编写的多个小项目一同孵化。经过与市场产品对比,由于人工成本的原因,我们逐渐放弃了对其他无竞争力的项目更新,只保留洞见微信聚合平台。在然总夜以继日的协助下基础核心功能得以实现。两年前在众多文章聚合平台中,唯独缺少微信公众号文章的自动化收集。当看到secwiki这样优秀的平台,我们似乎有了灵感。
下面是每年Sec-wiki收录文章来自微信安全公众号文章占比统计表格,这让我们更加坚定了我们的选择。
年份(年) | 微信占比(%) | 综合排名 |
2014 | 0 | - |
2015 | 1.82 | 5 |
2016 | 10.34 | 3 |
2017 | 15.06 | 1 |
2018 | 23.05 | 1 |
2019 | 27.31 | 1 |
2020 | 43.13 | 1 |
1. 思想定位的改变
我们想要做的是仅在微信公众号
中寻找更有价值技术类文章,提供周报阅读模式,通过一个人的付出,节约一群人的时间。虽然每个人因技术高低选择技术文章阅读的质量参差不齐,但是我们希望尽可能使10%以上的用户从中得到便捷,这是一件公益且很酷的事情。
现如今通过程序获得一篇微信文章的数据并不难,如何让其做到稳定的自动化
?我们从0开始设计、开发、测试、发布、维护、完善。对于每一个细节我们都从用户的使用、体验与开发难度双向衡量,而不是简单的堆叠或copy一份StackOverflow代码。对于平台赚钱还没有这么重要,更重要的是让我们能有机会与屏幕前的你进行交流。
2. 尝试去绑定用户
我们也有想过去绑定用户。为了尽量减少用户体验的损失,要满足以下几点:
•不要添加用户登录注册机制,一旦增加了这个机制,流程可能会大大复杂化,导致用户体验急剧下降。•不能每打开一个页面都要解锁一次,只需要一次解锁,即可全面解锁所有文章。•用户在关闭浏览器再重新打开浏览器时候,同样不能让用户再解锁一遍,要直接可看。•用户在手机或其他移动设备上不方便操作,手机站点禁止启用本功能。如果满足了这些条件,用户在一篇文章里面只要扫码解锁了一次,那么就可以永久解锁全站文章了,没有繁琐的登录注册功能,也不需要次次频繁解锁,这样用户体验就非常好了。
现在你可以使用电脑随便阅读一篇文章快照的链接,关注公众号,发送随机验证码到微信后台,即可尝试自动解锁文章阅读权限。
3. 接近实时'多线程'式获取最新文章
更新数据更加及时,相对于原来轮询的方式采集数据这次他的效果等同于HOOK微信。你可以在网站首页看到更及时的最新文章,更新的频率会更加及时,免去因原文被删除而没来及收录的链接。多线程式的采集方式,理论上不再受到采集公众号数量的限制。
4. 7天定时回采文章来更新阅读量
为了保证阅读量比较准确,我们决定让平台每天自动回采7天前的文章。当文章发布的时间大于7天,平台将再次采集到公众号的数据,并更新替换原来的数据。此方法解决了我们长期以来阅读量不准确的问题。
5. docker+vpn+中间人代理的方式被动采集数据
手机使用4G网络,连接上vpn,用户在微信上看到什么文章,就可以文章保存到平台数据库。
6. 使用搜索语法&、|
•or查询方式:关键字为“|”,如安全|漏洞|修复
,返回数据为带有任意一个关键字的结果。•and查询方式:关键字为“&”,如安全& 漏洞 & 修复
,返回数据为带有全部关键字的结果。
7. 2019年安全圈公众号文章分析报告
https://mp.weixin.qq.com/s/5AVLv8G4vRiwM56OUn72aQ
8. 重构了一个具有商业化模板的后台
使用了前后端分离方式,做到三权分立,界面整洁,操作简单。过个等保二级完全没有问题,另外附带一套成熟的部署方案。
9. 洞见微信聚合离线版
使用flask sqlite写一个简单的前端界面版本,包含分类,公众号仓库,搜索,上传数据,数据去重,公告等功能。
开源离线版,一方面减少展示网站的爬虫,二来用户可以写个脚本根据提供的数据下载公众号的文章保存本地pdf或word。
10. 共享数据
提供每个月的公开数据分享。为兄弟平台i.hacking8.com
、secsea.cfyqy.com
提供实时节点数据。
好的我们总结一下过去的一年内做了哪些事情
•找准定位•绑定用户•实时获取最新文章•准确的阅读量•使用移动终端采集数据•便捷的搜索语法•一份简单的分析报告•商业版的后台•离线版的公开•共享数据
以及正在计划中的Elasticsearch分布式搜索方式,一个合适的全文搜索方式。我们在以前的文章中介绍了当前搜索的弊端,希望这个新功能能快点与大家见面。
在2020年为平台购买云服务器所花费的约为6000元,其中可以报销为4823元,随着数据量的增多之后我们将会将平台迁移至刚购买的2H4G3M服务器。
到目前为止洞见微信聚合
共发布公告20条,发布周报52篇,收录信安类公众号328个,git仓库提交341次,用户产生搜索27379次,采集文章数据114013篇,采集评论259759条,产生用户日志928791条。
所以Wechat.Doonsec
到底是一个什么样的平台
当我们看到一个公众号的历史记录变成暂无更多消息
,公众号的主页变成此帐号已自主注销,内容无法查看
。非常惋惜这些数据可能从公开的数据中找不回来了。
我们要做的就是一些在几年之后仍能追溯有价值的内容,我们保存了近10W篇微信文章的本地快照,大约400G的存储空间。一些我们不做就不会有人整理分享的东西。同时我们坚信有一群人愿意与我们一起做同样有意义的事情。
在后台回复“年报”获取一年以来筛选出的52周周报文章的PDF版。
如果你是喜欢阅读技术文章的师傅同时对此项目感兴趣,也愿意共同维护平台,欢迎加入我们联系方式
echo H4sIAJiC8F8AA92UwQ6DMAxD7/2KSfz/P+6AqsbPbhgah2mRQBBaE9tpjuOpGI8h/TrUS2Lmzvy81xzXCtTCP5ev3NzAvO4bun3WQFiH8rVbKH3W/9+E0q3U6hLKSS1qJNlqpa70V+ughy5cud36UNV6zgbwilD0q77VLG1oCLo7BE1ERwVIanjnU4BAkHDUTen4T4d/4t+8mkut1MEK734mvUR2FTdVR5hGK69vfUvix6pUg9RfDKpqk0El9ppzNhDUor2n6NsHfaXEfHaps4BiaO+4Nuyvdl7xbVH0igJBKsG5QLW2WpFIatQbzbBzzbc2WqWzlin7xGi1qtXU2J/RCwd5aLT+ZjJ8F/8P9QZt6Ytk1woAAA== | base64 --decode | gzip -d
点击
阅读原文,开始体验洞见微信聚合平台最后祝大家新年快乐,byebye。
参考链接:
•回形针Sp.009•Sec_profile https://github.com/tanjiti/sec_profile/blob/master/README_2020.md•2019年安全圈公众号文章分析报告 https://mp.weixin.qq.com/s/5AVLv8G4vRiwM56OUn72aQ•谈一谈博客的关注解锁文章功能 https://cuiqingcai.com/7463.html•洞见微信聚合周报 http://wechat.doonsec.com/weekly/•洞见微信聚合离线版 https://github.com/doonsec/WechatTogetherOffline•如何做全文搜索 https://mp.weixin.qq.com/s/slF0M_o2HTNj5mzGifbRkQ
本文始发于微信公众号(洞见网安):2020年洞见微信聚合总结
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论