避坑指南|本地部署Deepseek后的祛魅之旅
在上一篇介绍如何安装并使用本地大模型后,本文主要讲述近两年的实际使用经验,内容较为直白。
如何选择大模型参数
近期有大量视频宣传介绍如何安装满血版671B DeepSeek。这类视频纯粹是哗众取宠。想要跑满671B,光显卡就需要不止一张,类似于远古时代的四路泰坦是最起码的,多数用户是不具备这种能力的,甚至多数企业也不具备这种能力。
本地部署的最优解就是基于显卡能力去测算的,不算魔改版的情况下,4090/5090可以选择32B模型,4080/5080/4070/5070等8-16G显存显卡均选择14B较为合适。60系显卡毫无疑问只能选7B-8B等小参数模型。1.5B则是在任何情况下均不推荐,由于参数太低,不具备使用能力。
实际如果用户没有强烈的离线使用需求,建议使用在线模型,算力强大,回答流畅。
如何选择模型
Ollama、huggingface、modelscope上都有很多模型,国内外开源模型众多,在选择时,建议仍然选国内模型为主。在小参数模型下,多数模型在回答上并没有明显差距,而在中文语料上,国内模型优势明显。毕竟用户第一习惯还是用中文问问题,而不是拿着英文问问题。因此优先选择的是qwen、deepseek两个开源模型。
除此之外,模型还涉及一个道德审查的问题。如果使用模型的目标本身是为了写写文章,那么使用原版模型则没有任何问题,还安全可靠。然而笔者从事的网络安全领域正好在道德审查的边缘,在道德审查模式下不少问题得不到任何解答,在特定的情况下,有必要规避模型的道德审查,这涉及了一个模型的微调(训练)过程。非人工智能专业从业人员很难完成这个训练工作,可以考虑去直接下载别人训练过的uncensored模型,当然需要先确认这个uncensored的是你想要的uncensored。
RAG知识库功能
知识库是一种基于计算机技术的系统,它通过结构化、有序的方式存储和管理大量的信息与知识。这些知识可以来自多个领域,并以易于检索和利用的形式存在。知识库的一个关键特性是它能够支持智能系统的决策过程,使得机器能够模仿人类专家解决问题的能力。随着人工智能的发展,特别是大型语言模型(LLMs)的进步,出现了一种新的技术——检索增强生成(RAG)。RAG结合了传统的信息检索技术和现代的生成式AI技术,旨在提升大模型在处理特定任务时的表现。
RAG的工作原理通常分为三个阶段:索引、检索和生成。首先,需要将大量的文本资料进行分块并转化为向量表示,然后存储在向量数据库中。当用户提出问题时,系统会根据问题的语义信息在向量数据库中查找最相关的片段。最后,使用这些检索到的信息作为上下文的一部分输入到大型语言模型中,以生成更加准确的回答。人工智能大模型,如GPT系列或BERT等,它们已经展示了革命性的语言理解和生成能力。
然而,这些模型的一个主要局限在于它们依赖于训练数据集中的信息,这意味着随着时间推移,模型的知识可能会变得过时。此外,对于一些专业领域的复杂查询,模型可能无法提供足够准确的答案。RAG技术正好解决了这些问题,它允许大模型访问最新的外部知识库,从而显著提升了回答的准确性与相关性。
以上是知识库的基本介绍,然而现实很残酷。知识库的量是有一个阈值的,不能太多也不能太少,不能太长也不能太短。
多了会怎么样:知识库多了,会导致思考显著变慢,因为知识库处理和检索也要时间,怎么确定哪部分送到大模型去思考也是个问题,不可能全部投喂入大模型,全部投喂进去只会变得更慢。
少了会怎么样:知识库少了那为什么不直接在聊天时上传文件?在向量化文件时会存在信息丢失的问题,只有几个文件不如直接上传文件去问大模型。
长了会怎么样:长了无法正确处理上下文关系,离线模型上下文处理是有限的,如果设置的过长,则处理的会很慢,设置的短了,超出一定长度就会失忆一次,信息丢失就会严重。
短了会怎么样:短了意味着文本质量不高,短文本包含的信息量通常不足以让大模型充分理解其含义,只能依葫芦画瓢回答问题。
因此一个合适的知识库,用粗磨的估计,word文档十来页,这样的word文档在几十个的样子。如果更多内容,则会让对话开始变慢变蠢。检索不到该检索的内容是家常便饭,一个文档里直接有的答案思考一分钟也是很正常的事情。
即使这样,离线模式也只能做到依葫芦画瓢,要充分理解逻辑是不太可能的。** 绝大多数情况下,生成质量和准确度都是不如直接上传文档去问答的。 **知识库这个功能,目前表现较好的地方是在写文章上,因为写文章只需要依葫芦画瓢就够了。
原文始发于微信公众号(BlueIris):避坑指南|本地部署Deepseek后的祛魅之旅
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论