强化学习 | CN-SEC 中文网

安全开发

强化学习系列：时序差分、SARSA和Q-learning

1. 回顾上一期我们介绍了两种动态规划的强化学习算法：策略迭代算法和价值迭代算法，并且用它们来解决了悬崖漫步的问题，验证了强化学习理论的有效性。这两种算法虽然简单有效，但是适用的范围有限，要使用它们必...

04月23日26 views评论

阅读全文

人工智能安全

一篇关于DeepSeek模型先进性的阅读理解

谈数据导读本文以DeepSeek模型为核心，探讨了其技术先进性、训练过程及行业影响。首先介绍DeepSeek的快速崛起及其对AI行业的颠覆作用。DeepSeek通过强化学习（RL）实现Time Sca...

04月10日13 views评论

阅读全文

人工智能安全

万字长文DeepSeek-R1、Kimi 1.5及强推理模型开发解读（长文配视频）

北大 AI 对齐团队对包括 DeepSeek-R1、Kimi-K1.5在内的一些强推理模型进行了 2 万字的技术解读，也是此前 o1 解读的续作。建议文字搭配视频观看，效果更佳。视频：DeepSeek...

03月31日5 views评论

阅读全文

安全工具

【工具推荐】RLscan-一款加入了自适应学习和强化学习的扫描工具

简介加入了自适应学习和强化学习，支持IPv6。 IPv6 扫描在IPv6扫描之前确定自己的网络支持IPv6 单个目标 RLscan.exe -h "2408:8720:806:300:70::88...

03月20日21 views评论

阅读全文

人工智能安全

DeepSeek-R1技术剖析：没有强化学习基础也能看懂的PPO & GRPO

本文授权转载自学术平台 PaperWeekly，公众号ID：paperweekly。这是一个推荐、解读、讨论和报道人工智能前沿论文成果的学术平台，致力于让国内外优秀科研工作得到更为广泛的传播和认可。©...

03月14日9 views评论

阅读全文

人工智能安全

DeepSeek训练过程解读以及AI安全性分析

参考链接：【1】https://arxiv.org/pdf/2501.12948【2】https://protectai.com/blog/protect-ai-analyze-deepseek介绍深...

03月05日68 views评论

阅读全文

人工智能安全

DeepSeek关键技术详解

作者：leaf在今年的春节期间，DeepSeek火出了圈。凭借DeepSeek-V3与DeepSeek-R1的创新技术和卓越表现，DeepSeek迅速成为了行业内外的焦点。不管是技术专家还是普通用户，...

02月14日62 views评论

阅读全文

人工智能安全

重新理解推理模型（o1/o3、DeepSeek R1）｜Z 编译

「Z计划」是智谱面向未上市初创企业与优秀独立开发者/团队，提供 Tokens 赞助、投资支持和技术支持等资源的创新加速计划。面向全球，持续招募中！🐋（点击报名）「Z基金」是智谱联合生态伙伴设立的大模型...

02月12日25 views评论

阅读全文

DeepSeek-R1展示了小模型也能成为推理专家

编者按和大家一样，春节假期期间，公号君也高度关注DeepSeek的技术表现。作为一名研究法律政策的人员，当然也关注其可能带来的潜在影响。今天是本系列的开篇。最近，DeepSeek团队发布了其最新的AI...

02月03日人工智能安全51 views评论

阅读全文

安全文章

CyberBattleSim（内网自动化渗透）研究分析

01 背景知识介绍CyberBattleSim介绍CyberBattleSim是一款微软365 Defender团队开源的人工智能攻防对抗模拟工具，来源于微软的一个实验性研究项目。该项目专注于对网络攻...

01月11日20 views评论

阅读全文

人工智能安全

深度学习VS机器学习

深度学习（Deep Learning）和机器学习（Machine Learning）之间的关系可以总结为：深度学习是机器学习的一个分支或子集，它专注于使用多层神经网络（即“深度”模型）来解决复杂的...

12月22日24 views评论

阅读全文

安全闲碎

G.O.S.S.I.P 阅读推荐 2024-11-08 ORL-AUDITOR

大家好，今天给大家推荐一篇发表于NDSS 2024关于机器学习模型训练数据盗用检测的研究工作-ORL-AUDITOR: Dataset Auditing in Offline Deep Reinfor...

11月09日17 views评论

阅读全文

强化学习系列：时序差分、SARSA和Q-learning

一篇关于DeepSeek模型先进性的阅读理解

万字长文DeepSeek-R1、Kimi 1.5及强推理模型开发解读（长文配视频）

【工具推荐】RLscan-一款加入了自适应学习和强化学习的扫描工具

DeepSeek-R1技术剖析：没有强化学习基础也能看懂的PPO & GRPO

DeepSeek训练过程解读以及AI安全性分析

DeepSeek关键技术详解

重新理解推理模型（o1/o3、DeepSeek R1）｜Z 编译

DeepSeek-R1展示了小模型也能成为推理专家

CyberBattleSim（内网自动化渗透）研究分析

深度学习VS机器学习

G.O.S.S.I.P 阅读推荐 2024-11-08 ORL-AUDITOR

在线咨询

微信