2024年4月28日是Eastmount的安全星球 —— 『网络攻防和AI安全之家』正式创建和运营的日子,并且已坚持5个月每周7更。该星球目前主营业务为 安全零基础答疑、安全技术分享、AI安全技术分享、AI安全论文交流、威胁情报每日推送、网络攻防技术总结、系统安全技术实战、面试求职、安全考研考博、简历修改及润色、学术交流及答疑、人脉触达、认知提升等。下面是星球的新人券,欢迎新老博友和朋友加入,一起分享更多安全知识,比较良心的星球,非常适合初学者和换安全专业的读者学习。
这是作者新开启的《DeepSeek和大模型赋能系列》,希望您喜欢。感谢读者2024年对本公众号的支持。新的一年继续分享干货,共同进步,感恩同行 ^_^
近年来,人工智能技术火热发展,尤其随着ChatGPT和DeepSeek被提出,其能够基于在预训练阶段所见的模式、统计规律和知识来生成回答,还能根据聊天的上下文进行互动,真正像人类一样来聊天交流以及完成复杂的NLP任务。基于此,为更好地学习前沿AI知识,了解LLM和AIGC应用实战,本人开启了《LLM+AIGC》专栏,一方面作为在线笔记记录和分享自己的学习过程,另一方面期望帮助更多初学者以及对LLM感兴趣的同学。知识无价人有情,希望我们都能在人生路上开心快乐、共同成长。
该系列主要涵盖三方面:
-
原理篇——以原理介绍和论文阅读为主
-
实战篇——以编程构建自制LLM和RAG为主
-
应用篇——以应用实践和Prompt探索为主
前一篇文章带领大家利用DeepSeek生成可视化科研图形,通过NapKin和ChatExcel工具分别生成科研的时间轴和可视化图表。这篇文章将探索如何利用DeepSeek赋能实现科研论文阅读,包括公式自动识别,论文智能总结等,并利用UPDF工具开展论文思维导图AI实践,大家可以结合自己需求进行尝试。基础性文章,希望对初学者有所帮助,尤其是从事科学研究的童鞋!且看且珍惜,加油 O(∩_∩)O
文章目录:
-
一.DeepSeek提取论文可编辑公式
-
二.UPDF工具赋能论文阅读
-
三.DeepSeek赋能论文阅读
-
四.总结
前文赏析:
-
[LLM+AIGC] 09.零基础DeepSeek辅助论文阅读及UPDF生成论文思维导图
一.DeepSeek提取论文可编辑公式
首先,如何实现DeepSeek一键识别公式呢?我们以NDSS 2025,来自浙大和蚂蚁团队的最新论文《RACONTEUR: A Knowledgeable, Insightful, and Portable LLM-Powered Shell Command Explainer》为例。该篇论文值得大家学习,其框架图如下所示:
第一步,打开论文并截图要识别的公式。 假设需要识别并生成如下可编辑的公式,只截取公式部分。
第二步,粘贴在DeepSeek官网对框架中,并输入提示识别公式(非联网搜索模式)。
提示词:请帮我识别该公式,并将其转换为Word能识别的格式。
DeepSeek输出结果如下:
t_c = argmax_{i in mathbb{I}} mathcal{S} left( mathcal{V}(d), mathcal{V}(s_i) right)
第三步,在Word中插入公式并粘贴Latex。
第四步,如果读者WPS无法正常显示公式,请文章安装MathType面板嵌入器。
-
https://www.wlhex.com/zixunzhongxin/jidugs/70001.html
温馨提示:如果程序运行完成依然没有mathtype面板,需要在wps中面板中选择[工具]下面的[加载项],并勾选MathPage.wll和MathType Commands 2016.dotm 【启用】文件并确定,在专业版中是【开发工具】。
第五步,重启WPS再次执行插入公式操作(添加$符号),WPS此时能看到“切换TeX”等界面。
第六步,选中需要转换的内容,然后在WPS面板找到mathtype,再点击mathtype选项卡下的“切换tex”即可完成转换。
生成的公式还能够进行编辑。
此外,我们甚至可以让DeepSeek结合公式生成对应的MATLAB代码。
二.UPDF工具赋能论文阅读
UPDF是一款AI智能PDF编辑器,具体优势如下:
-
支持AI总结、翻译、摘要、解释PDF文档 -
PDF编辑、注释、阅读、OCR等170+功能 -
多端云同步,随时随地编辑、签署PDF -
PDF文档和图片,AI一键生成思维导图 -
UPDF已接入DeepSeek R1满血版
第一步,从官网下载该软件并安装。
打开界面如下图所示:
第二步,从本地知识库中拖入需要阅读的论文PDF。
第三步,点击右下角UPDF AI按钮,并总结PDF论文,点击“开始”按钮。
-
该软件能实现很多功能,这里主要使用UPDF AI。
生成结果如下图所示,对论文进行了简要总结。
-
需要优化:Shell命令解释器 -> 壳命令解释器
同时包括常见的提问:
第四步,点击“思维导图”,会动态生成论文的图谱。
最终结果如下图所示:
最终结果如下所示,帮助我们阅读论文,同时生成了实验详细的思维导图。
此外,该软件读者长期使用可能需要购买服务。
三.DeepSeek赋能论文阅读
接下来我们使用DeepSeek实现类似的功能,赋能实现高校论文阅读。
第一步,打开DeepSeek并上传论文PDF文件。
提示词:假设您是一名网络安全领域的专家,请您详细讲述这篇文献的内容,要出给出论文的创新点,整个方法的逻辑框架,以及对比实验所取得的效果。
输出结果如下图所示:
由于这篇最新论文非常不错,这里我给出它的一些描述:
第二步,点击可以查看这篇文献的原文内容。
此外,我们可以截图进行一步辅助论文阅读。
第三步,截取框架图让DeepSeek帮忙解读内容。
提示词:请您详细讲解这幅框架图的内容和细节。
生成内容如下所示:
# RACONTEUR推理流程框架图详解## 1.**用户/系统输入**-**Security Analyst(安全分析师)**-**用户直接查询**: - 格式:`What does the command mean? <command>`- 示例:`解释命令 bash -c '0<&137-...'`-**系统自动触发(IDS)**: - 格式:`Alert <command>`- 示例:入侵检测系统捕获可疑命令 `rundll32.exe keymgr,KRShowKeyMgr` 并生成警报。 ---## 2.**文档增强处理**-**Doc-Augmented Enhancer(文档增强器)**-**输入**:原始命令(如 `bash -c '0<&137-...'`) -**处理逻辑**: 1. 使用 **CD2Vec模型** 检索相关文档: - 从公共知识库(如Linux手册页)或私有文档(企业内部工具说明)中提取上下文。 2. 构建增强提示模板: - 格式: ``` The command documentation is as follows: <documentation> Answer the question below according to the documentation above: <user_query> ```- 示例: ``` [文档]:`bash -c` 用于执行字符串中的命令。 [问题]:解释 `bash -c '0<&137-...'` 的作用。 ```---## 3.**行为解释生成**-**Command Behavior Explainer(命令行为解释器)**-**输入**:文档增强后的提示词。 -**处理逻辑**: - 基于微调的 **ChatGLM2-6B** 模型生成解释,分为两部分: 1.**分步解释(Step-by-Step Explanation)**: - 示例: ``` * bash -c: 调用Bash shell执行后续命令。 * 0<&137-: 重定向标准输入到文件描述符137并关闭。 ```2.**整体行为总结(Overall Behavior)**: - 示例:`该命令尝试建立反向Shell连接以实现远程控制。`-**输出**:结构化解释文本(含潜在恶意行为标记)。 ---## 4.**意图识别与匹配**-**Intent Identifier(意图识别器)**-**输入**:行为解释的总结文本(如“建立反向Shell连接”)。 -**处理逻辑**: 1.**BD2Vec模型编码**: - 将行为描述(如“重定向输入输出至网络端口”)与MITREATT&CK技术描述映射到同一向量空间。 2.**相似度匹配**: - 计算与MITREATT&CK技术库的余弦相似度,匹配最相关的技术(如 `T1548: Abuse Elevation Control Mechanism`)。 3.**战术推导**: - 根据技术关联的战术(如 `TA0005: Defense Evasion`)生成最终意图标签。 -**输出**:标准化攻击标签(如 `I1548: 权限提升滥用`)。 ---## 5.**结果反馈**-**Security Analyst(安全分析师)**-**最终输出**: -**分步解释**:技术细节展示。 -**意图标签**:映射到MITREATT&CK的标准化技术(如 `I1548`)和战术(如 `TA0005`)。 -**用途**: - 帮助分析师快速定位攻击手段(如“凭据转储”),并参考MITRE知识库制定防御策略。 ---### 流程图关键路径```mermaidgraph TDA[用户/IDS输入命令]-->B[文档增强器检索上下文]B-->C[构建增强提示词]C-->D[行为解释器生成分步解释]D-->E[意图识别器匹配MITRE技术]E-->F[输出标准化攻击标签]
第四步,截取公式让DeepSeek帮忙解读数学知识。
提示词:请您详细讲解这个公式的内容。
第五步,生成Markdown格式并导出思维导图(结合前面的博客内容)。
提示词:请您精准总结这篇论文的内容,并形成Markdown格式,以生成这篇论文的思维导图。
输出结果如下图所示:
对应内容如下:
# RACONTEUR:LLM-Powered Shell命令解释器## 1. 研究背景-**问题**:恶意Shell命令的复杂性和隐蔽性导致安全分析师难以理解其意图。-**现有LLM缺陷**:- 缺乏网络安全领域专业知识。- 对未训练过的私有命令易产生幻觉(虚构解释)。## 2. 核心创新点-**专业知识注入**:- 结合恶意命令库(Atomic Red Team、Metta)和良性命令库(NL2Bash)微调LLM。- 生成分步行为解释(Step-by-Step)和整体意图总结(Overall)。-**意图识别技术**:- 提出BD2Vec模型,将自然语言解释映射到MITREATT&CK框架的**技术**(Technique)和**战术**(Tactic)。-**文档增强可移植性**:- 设计CD2Vec模型,通过检索私有文档增强对未训练命令的解释能力。## 3. 方法框架### 3.1 行为解释器(Behavior Explainer)-**输入**:用户查询(如`bash -c '0<&137-...'`)。-**处理**:- 基于微调的ChatGLM2-6B生成分步解释。- 结合模板生成多样化提示(如“请解释命令X” → “请详细分解命令X”)。-**输出**:行为解释(含潜在恶意行为警告)。### 3.2 意图识别器(Intent Identifier)-**输入**:行为解释的总结文本。-**处理**:- 使用BD2Vec模型对齐行为描述与MITREATT&CK标准描述。- 通过相似度匹配确定攻击技术(如T1003)和战术(如TA0006)。-**输出**:标准化攻击意图标签。### 3.3 文档增强器(Doc-Augmented Enhancer)-**输入**:用户查询中的命令。-**处理**:- 利用CD2Vec模型从文档库(Linux手册页/企业私有文档)检索上下文。- 增强LLM输入的提示信息(如补充私有参数说明)。-**输出**:文档增强的提示词。## 4. 实验效果### 4.1 行为解释性能| 模型 |ROUGE-1(恶意) |BLEU-4(恶意) | 用户评分(恶意) ||----------------|-----------------|----------------|------------------||GPT-4|45.5|40.5|3.8/5||RACONTEUR|**68.9**|**59.5**|**4.5/5**|### 4.2 意图识别性能-**Top-1准确率**:52.4%(vs.GPT-4的28.1%)。-**Top-5准确率**:83.0%(vs.GPT-4的34.9%)。### 4.3 文档检索性能-**AUC-ROC**:0.981(优于Sentence-T5等基线模型)。## 5. 未来方向-**混淆命令分析**:支持Base64编码等复杂混淆技术。-**会话级分析**:从单条命令扩展至完整Shell会话的意图识别。-**多模态日志处理**:整合网络日志、数据库日志分析。-**更大基座模型**:探索LLaMA-2等模型提升性能。---**思维导图关键词**: `恶意Shell命令解释` → `专业知识注入` → `MITRE ATT&CK映射` → `文档增强` → `行为解释器` → `意图识别器` → `ROUGE-68.9` → `AUC-0.981`
将内容复制到Markdown文件并存储至本地,然后使用XMind软件导入打开该文件。显示如下图所示,实现了UPDF类似的功能。
四.总结
写到这里,这篇文章介绍结束,希望对您有所帮助!
作为原创博客创作者和程序员,大模型对我们的影响极大,拥抱变化,紧紧跟随。本文主要带领大家了解什么是LLM、AIGC、DeepSeek和ChatGPT。基础性文章,希望对您有所帮助。后续作者会继续深入,分享更多LLM和AIGC内容,加油,共勉!
『网络攻防和AI安全之家』目前收到了很多博友、朋友和老师的支持和点赞,并且保持每周七次更新,尤其是一些看了我文章多年的老粉,购买来感谢,真的很感动,类目。未来,我将分享更多高质量文章,更多安全干货,真心帮助到大家。虽然起步晚,但贵在坚持,像十多年如一日的博客分享那样,脚踏实地,只争朝夕。继续加油,再次感谢!
(By:Eastmount 2025-03-17 夜于贵州 )
原文始发于微信公众号(娜璋AI安全之家):[LLM+AIGC] 09.零基础DeepSeek辅助论文阅读及UPDF生成论文思维导图
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论