2020年洞见微信聚合总结

  • A+
所属分类:安全文章

嘿!这里是Wechat.Doonsec,我是洞见微信聚合平台的创作人-AJay13。今天是2021年1月1日,2020年终于结束了,像2019年一样我们会在下篇文章中介绍2020年信安类公众号中都有哪些数据值得分析。这篇是我们对洞见微信聚合一年来的总结。

首先让我先回答一个师傅们经常会问的问题。这个平台是你一个人在做吗。

准确的说除去我后,平台的运营维护前后都是由来自不同公司、学校的师傅共同完成,甚至有些还素未谋面。

在过去的一年内,我们做出了哪些大的改变?

2020年是洞见微信聚合尝试朝着商业化发展的一年,2019年洞见微信聚合项目与我们编写的多个小项目一同孵化。经过与市场产品对比,由于人工成本的原因,我们逐渐放弃了对其他无竞争力的项目更新,只保留洞见微信聚合平台。在然总夜以继日的协助下基础核心功能得以实现。两年前在众多文章聚合平台中,唯独缺少微信公众号文章的自动化收集。当看到secwiki这样优秀的平台,我们似乎有了灵感。

下面是每年Sec-wiki收录文章来自微信安全公众号文章占比统计表格,这让我们更加坚定了我们的选择。

年份(年) 微信占比(%) 综合排名
2014 0 -
2015 1.82 5
2016 10.34 3
2017 15.06 1
2018 23.05 1
2019 27.31 1
2020 43.13 1

1. 思想定位的改变

我们想要做的是仅在微信公众号中寻找更有价值技术类文章,提供周报阅读模式,通过一个人的付出,节约一群人的时间。虽然每个人因技术高低选择技术文章阅读的质量参差不齐,但是我们希望尽可能使10%以上的用户从中得到便捷,这是一件公益且很酷的事情。

现如今通过程序获得一篇微信文章的数据并不难,如何让其做到稳定的自动化?我们从0开始设计、开发、测试、发布、维护、完善。对于每一个细节我们都从用户的使用、体验与开发难度双向衡量,而不是简单的堆叠或copy一份StackOverflow代码。对于平台赚钱还没有这么重要,更重要的是让我们能有机会与屏幕前的你进行交流。

2. 尝试去绑定用户

我们也有想过去绑定用户。为了尽量减少用户体验的损失,要满足以下几点:

不要添加用户登录注册机制,一旦增加了这个机制,流程可能会大大复杂化,导致用户体验急剧下降。不能每打开一个页面都要解锁一次,只需要一次解锁,即可全面解锁所有文章。用户在关闭浏览器再重新打开浏览器时候,同样不能让用户再解锁一遍,要直接可看。用户在手机或其他移动设备上不方便操作,手机站点禁止启用本功能。如果满足了这些条件,用户在一篇文章里面只要扫码解锁了一次,那么就可以永久解锁全站文章了,没有繁琐的登录注册功能,也不需要次次频繁解锁,这样用户体验就非常好了。

现在你可以使用电脑随便阅读一篇文章快照的链接,关注公众号,发送随机验证码到微信后台,即可尝试自动解锁文章阅读权限。

2020年洞见微信聚合总结

3. 接近实时'多线程'式获取最新文章

更新数据更加及时,相对于原来轮询的方式采集数据这次他的效果等同于HOOK微信。你可以在网站首页看到更及时的最新文章,更新的频率会更加及时,免去因原文被删除而没来及收录的链接。多线程式的采集方式,理论上不再受到采集公众号数量的限制。

4. 7天定时回采文章来更新阅读量

为了保证阅读量比较准确,我们决定让平台每天自动回采7天前的文章。当文章发布的时间大于7天,平台将再次采集到公众号的数据,并更新替换原来的数据。此方法解决了我们长期以来阅读量不准确的问题。

5. docker+vpn+中间人代理的方式被动采集数据

手机使用4G网络,连接上vpn,用户在微信上看到什么文章,就可以文章保存到平台数据库。

6. 使用搜索语法&、|

or查询方式:关键字为“|”,如安全|漏洞|修复,返回数据为带有任意一个关键字的结果。and查询方式:关键字为“&”,如安全& 漏洞 & 修复,返回数据为带有全部关键字的结果。

7. 2019年安全圈公众号文章分析报告

https://mp.weixin.qq.com/s/5AVLv8G4vRiwM56OUn72aQ

8. 重构了一个具有商业化模板的后台

使用了前后端分离方式,做到三权分立,界面整洁,操作简单。过个等保二级完全没有问题,另外附带一套成熟的部署方案。

2020年洞见微信聚合总结

9. 洞见微信聚合离线版

使用flask sqlite写一个简单的前端界面版本,包含分类,公众号仓库,搜索,上传数据,数据去重,公告等功能。

开源离线版,一方面减少展示网站的爬虫,二来用户可以写个脚本根据提供的数据下载公众号的文章保存本地pdf或word。

10. 共享数据

提供每个月的公开数据分享。为兄弟平台i.hacking8.comsecsea.cfyqy.com提供实时节点数据。

好的我们总结一下过去的一年内做了哪些事情

找准定位绑定用户实时获取最新文章准确的阅读量使用移动终端采集数据便捷的搜索语法一份简单的分析报告商业版的后台离线版的公开共享数据

以及正在计划中的Elasticsearch分布式搜索方式,一个合适的全文搜索方式。我们在以前的文章中介绍了当前搜索的弊端,希望这个新功能能快点与大家见面。

在2020年为平台购买云服务器所花费的约为6000元,其中可以报销为4823元,随着数据量的增多之后我们将会将平台迁移至刚购买的2H4G3M服务器。

到目前为止洞见微信聚合共发布公告20条,发布周报52篇,收录信安类公众号328个,git仓库提交341次,用户产生搜索27379次,采集文章数据114013篇,采集评论259759条,产生用户日志928791条。

所以Wechat.Doonsec到底是一个什么样的平台

当我们看到一个公众号的历史记录变成暂无更多消息,公众号的主页变成此帐号已自主注销,内容无法查看。非常惋惜这些数据可能从公开的数据中找不回来了。

2020年洞见微信聚合总结

2020年洞见微信聚合总结

我们要做的就是一些在几年之后仍能追溯有价值的内容,我们保存了近10W篇微信文章的本地快照,大约400G的存储空间。一些我们不做就不会有人整理分享的东西。同时我们坚信有一群人愿意与我们一起做同样有意义的事情。

在后台回复“年报”获取一年以来筛选出的52周周报文章的PDF版。

2020年洞见微信聚合总结

如果你是喜欢阅读技术文章的师傅同时对此项目感兴趣,也愿意共同维护平台,欢迎加入我们联系方式

echo H4sIAJiC8F8AA92UwQ6DMAxD7/2KSfz/P+6AqsbPbhgah2mRQBBaE9tpjuOpGI8h/TrUS2Lmzvy81xzXCtTCP5ev3NzAvO4bun3WQFiH8rVbKH3W/9+E0q3U6hLKSS1qJNlqpa70V+ughy5cud36UNV6zgbwilD0q77VLG1oCLo7BE1ERwVIanjnU4BAkHDUTen4T4d/4t+8mkut1MEK734mvUR2FTdVR5hGK69vfUvix6pUg9RfDKpqk0El9ppzNhDUor2n6NsHfaXEfHaps4BiaO+4Nuyvdl7xbVH0igJBKsG5QLW2WpFIatQbzbBzzbc2WqWzlin7xGi1qtXU2J/RCwd5aLT+ZjJ8F/8P9QZt6Ytk1woAAA== | base64 --decode | gzip -d

点击阅读原文,开始体验洞见微信聚合平台

最后祝大家新年快乐,byebye。

参考链接:

回形针Sp.009Sec_profile https://github.com/tanjiti/sec_profile/blob/master/README_2020.md2019年安全圈公众号文章分析报告 https://mp.weixin.qq.com/s/5AVLv8G4vRiwM56OUn72aQ谈一谈博客的关注解锁文章功能 https://cuiqingcai.com/7463.html洞见微信聚合周报 http://wechat.doonsec.com/weekly/洞见微信聚合离线版 https://github.com/doonsec/WechatTogetherOffline如何做全文搜索 https://mp.weixin.qq.com/s/slF0M_o2HTNj5mzGifbRkQ


本文始发于微信公众号(洞见网安):2020年洞见微信聚合总结

发表评论

:?: :razz: :sad: :evil: :!: :smile: :oops: :grin: :eek: :shock: :???: :cool: :lol: :mad: :twisted: :roll: :wink: :idea: :arrow: :neutral: :cry: :mrgreen: