1. 回顾上一期我们介绍了两种动态规划的强化学习算法:策略迭代算法和价值迭代算法,并且用它们来解决了悬崖漫步的问题,验证了强化学习理论的有效性。这两种算法虽然简单有效,但是适用的范围有限,要使用它们必...
一篇关于DeepSeek模型先进性的阅读理解
谈数据导读本文以DeepSeek模型为核心,探讨了其技术先进性、训练过程及行业影响。首先介绍DeepSeek的快速崛起及其对AI行业的颠覆作用。DeepSeek通过强化学习(RL)实现Time Sca...
万字长文DeepSeek-R1、Kimi 1.5及强推理模型开发解读(长文配视频)
北大 AI 对齐团队对包括 DeepSeek-R1、Kimi-K1.5在内的一些强推理模型进行了 2 万字的技术解读,也是此前 o1 解读的续作。建议文字搭配视频观看,效果更佳。视频:DeepSeek...
【工具推荐】RLscan-一款加入了自适应学习和强化学习的扫描工具
简介 加入了自适应学习和强化学习,支持IPv6。 IPv6 扫描 在IPv6扫描之前确定自己的网络支持IPv6 单个目标 RLscan.exe -h "2408:8720:806:300:70::88...
DeepSeek-R1技术剖析:没有强化学习基础也能看懂的PPO & GRPO
本文授权转载自学术平台 PaperWeekly,公众号ID:paperweekly。这是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台,致力于让国内外优秀科研工作得到更为广泛的传播和认可。©...
DeepSeek训练过程解读以及AI安全性分析
参考链接:【1】https://arxiv.org/pdf/2501.12948【2】https://protectai.com/blog/protect-ai-analyze-deepseek介绍深...
DeepSeek关键技术详解
作者:leaf在今年的春节期间,DeepSeek火出了圈。凭借DeepSeek-V3与DeepSeek-R1的创新技术和卓越表现,DeepSeek迅速成为了行业内外的焦点。不管是技术专家还是普通用户,...
重新理解推理模型(o1/o3、DeepSeek R1)|Z 编译
「Z计划」是智谱面向未上市初创企业与优秀独立开发者/团队,提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。面向全球,持续招募中!🐋(点击报名)「Z基金」是智谱联合生态伙伴设立的大模型...
DeepSeek-R1展示了小模型也能成为推理专家
编者按和大家一样,春节假期期间,公号君也高度关注DeepSeek的技术表现。作为一名研究法律政策的人员,当然也关注其可能带来的潜在影响。今天是本系列的开篇。最近,DeepSeek团队发布了其最新的AI...
CyberBattleSim(内网自动化渗透)研究分析
01 背景知识介绍CyberBattleSim介绍CyberBattleSim是一款微软365 Defender团队开源的人工智能攻防对抗模拟工具,来源于微软的一个实验性研究项目。该项目专注于对网络攻...
深度学习VS机器学习
深度学习(Deep Learning) 和机器学习(Machine Learning) 之间的关系可以总结为:深度学习是机器学习的一个分支或子集,它专注于使用多层神经网络(即“深度”模型)来解决复杂的...
G.O.S.S.I.P 阅读推荐 2024-11-08 ORL-AUDITOR
大家好,今天给大家推荐一篇发表于NDSS 2024关于机器学习模型训练数据盗用检测的研究工作-ORL-AUDITOR: Dataset Auditing in Offline Deep Reinfor...