最近deepseek爆火,试用deepseek的企业和个人越来越多。最常见的应用场景就是知识库和知识问答。所以本人也试用了一下,在笔记本电脑上部署deepseek并使用开源工具搭建一套知识库,实现完全在本地环境下使用本地文档搭建个人知识库。操作过程共享出来,供大家参考。
部署环境
笔记本电脑,具体配置如下:
处理器:intel(r) core(tm) i7-10510u cpu @ 1.80ghz 2.30 ghz
内存:16g
硬盘:500g
显卡:集成显卡
操作系统:windows 11
软件清单
构建本地知识库,除了deepseek还需要安装知识库软件。网上推荐比较多的是ragflow,软件开源,功能也很强大,可以使用本地文档构建外挂知识库。另外,同时也安装了cherry studio,可以作为操作deepseek的交互工具。
软件 | 功能 | 版本 | 依赖工具 |
deepseek | llm模型,主要用于自然语言理解和推理 | deepseek-r1:7b | ollama |
cherry studio | 一款强大的多模型 ai 助手,可用于deepseek的人机交互 | 最新版就好 | |
bge | 通用向量模型,用于知识库中文档检索 | bge-m3:latest | |
ragflow | 知识库构建工具 | 最新版就好 | docker git |
安装deepseek
从官网下载并安装ollama,过程略。可参考 https://ollama.com/
安装完毕后,执行命令:
ollama run deepseek-r1:7b
安装成功后,就可以在命令行里操作deepseek了。
操作很简单。至此,deepseek就安装完毕。
安装cherry studio
如果不习惯使用命令行,希望使用客户端与本地安装的deepseek交互,可以安装一个对话界面软件,我试用了chatbox和cherry studio都不错,可以更直观地调整模型的参数和提示词,同时也支持将对话内容完全存档在本地,本文以cherry studio为例。
前往https://cherry-ai.com/,根据你的操作系统(支持 windows、mac 和 linux)下载对应的安装包。默认下一步安装完毕就好。
启动cherry studio,添加嵌入模型。
在模型服务中选择ollama
点击“管理”进行模型选择,从模型列表中选择与你本地部署的 deepseek-r1 模型版本对应的选项,如果没有直接匹配项,选择支持自定义模型配置的入口。
在“api地址”中,将 api 地址设置为http://localhost:11434 ,这是 ollama 服务的默认接口地址,确保 cherry studio 能连接到本地运行的 deepseek-r1 模型。
保存后,就可以创建助手与本地deepseek进行对话了。
安装ragflow
ragflow使用docker部署运行,因此需要先在电脑上部署docker环境。同时本文采用从github仓库直接拉取镜像部署的方式,因此也需要提前安装git。
可访问官方 github 仓库的 readme 页面拉取镜像,并按照文档中的指引安装部署:https://github.com/infiniflow/ragflow/blob/main/readme_zh.md
如果遇到问题,可访问网络上部署 ragflow 的踩坑帖子,如:
如果电脑没装docker,可以参考windows | docker docs 自行安装,本文使用wsl。
安装完毕后,要记得启动“docker desktop”,否则后面执行docker命令时会报错。
如果电脑没装git,可以从git - downloading package下载安装文件进行安装。
安装完毕后,进入命令行,将ragflow工程clone到本地文件夹下。
$ git clone https://github.com/infiniflow/ragflow.git
进入 docker 文件夹
$ cd ragflow/docker
利用提前编译好的 docker 镜像启动服务器:
运行以下命令会自动下载 ragflow slim docker 镜像 v0.16.0-slim。
$ docker compose -f docker-compose.yml up -d
如需下载不同于 v0.16.0-slim 的 docker 镜像,请在运行 docker compose 启动服务之前先更新 docker/.env 文件内的 ragflow_image 变量。比如,你可以通过设置 ragflow_image=infiniflow/ragflow:v0.16.0 来下载 ragflow 镜像的 v0.16.0 完整发行版。
如果遇到 docker 镜像拉不下来的问题,可以在 docker/.env 文件内根据变量
ragflow_image
的注释提示选择华为云的相应镜像。华为云镜像名:
swr.cn-north-4.myhuaweicloud.com/infiniflow/ragflow
运行成功后,打开浏览器,登录localhost进入ragflow页面。注册账号后,就可以登录使用了。
设置知识库
使用ragflow设置知识库,首先要在“模型提供商”中添加模型。必须要添加的有两个模型,一个是llm模型,使用deepseek;另一个是嵌入模型,使用bge-m3。
在“待添加的模型”列表中选择“ollama”,添加llm.
“最大token数”可以通过如下命令获取后填入。
ollama show deepseek-r1:7b
“基础url”需要注意如果填写“http://localhost:11434”,会遇到“[errno 111] connection refused”的异常。原因是docker中的程序访问不到本机的11434端口,可以参考
[question]: fail to access model(deepseek-r1:8b).**error**: [errno 111] connection refused因此,此处要注意“基础url”处填写:
http://host.docker.internal:11434
添加嵌入模型前,首先使用ollama 安装bge-m3
ollama pull bge-m3
然后配置嵌入模型。
模型添加成功后,进入“系统模型设置”,选择添加的模型。
然后就可以创建知识库了。
在知识库设置中修改语言、权限、嵌入模型。
在“数据集”中上传所需的文档。
上传成功后,选择文档进行“解析”。
上传了几个pdf文档,解析的效果还不错。解析分段如果有不准确的地方,可以人工修正。
数据集准备就绪后,就可以“新建助理”,然后问问题了。
相比于互联网模型,个人知识库会从结合本地文档训练的数据集进行分析,更加符合个人专业诉求。
总结
deepseek确实很香,搭配开源工具不花一分钱就搭建了一个定制化的知识库。从回答的逻辑和文档解析的效果看,都很不错。当然,本案例个人尝鲜可以,作企业商用还不行,抛开企业定制化和运维需求之外,主要问题有两个:
1. 个人笔记本的配置部署7b小模型已经是极限了,使用cherry studio做问答速度还可以。但使用ragflow做的个人知识库做问答,确实慢的要死。正式使用或企业商用,还是需要试用商用推荐配置。
2. 数据集质量极大影响知识库问答效果,因此高价值的原始数据以及对原始数据的解析整理十分重要。现在工具能力相当不错了,但数据工程将是企业数据库构建的主要挑战。
到此这篇关于使用deepseek搭建个人知识库(在笔记本电脑上)的文章就介绍到这了,更多相关deepseek搭建知识库内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论