在 linux 上设置环境变量
1. 通过调用
systemctl edit ollama.service
编辑 systemd 服务。这将打开一个编辑器。这边可以直接通过vim /etc/systemd/system/ollama.service
,打开编辑。2. 对于每个环境变量,在
[service]
部分下添加一行environment
:
vim /etc/systemd/system/ollama.service environment="ollama_host=0.0.0.0:11434" environment="ollama_origins=*" environment="ollama_debug=1" environment="ollama_flash_attention=1" 对于每个环境变量,在[service]部分下添加一行environment. 1. ollama_host=0.0.0.0 外网访问 2. ollama_models=/mnt/data/.ollama/models 模型默认下载路径 3. ollama_keep_alive=24h 设置模型加载到内存中保持 24 个小时(默认情况下,模型在卸载之前会在内存中保留 5 分钟) 4. ollama_host=0.0.0.0:8080 修改默认端口 11434 端口 5. ollama_num_parallel=2 设置 2 个用户并发请求 6. ollama_max_loaded_models=2 设置同时加载多个模型 #为了使更改生效,您需要重新加载systemd的配置。使用以下命令: sudo systemctl daemon-reload #最后,重启服务以应用更改: sudo systemctl restart ollama 默认情况下,ollama模型的存储目录如下: macos: `~/.ollama/models` linux: `/usr/share/ollama/.ollama/models` windows: `c:\users\<username>\.ollama\models` journalctl -u ollama | grep -i 'prompt=' #查看日志 /set verbose #设置以查看token速度
配置 ollama
ollama 提供了多种环境变量以供配置:
ollama_debug:是否开启调试模式,默认为 false。
ollama_flash_attention:是否闪烁注意力,默认为 true。
ollama_host:ollama 服务器的主机地址,默认为空。
ollama_keep_alive:保持连接的时间,默认为 5m。
ollama_llm_library:llm 库,默认为空。
ollama_max_loaded_models:最大加载模型数,默认为 1。
ollama_max_queue:最大队列数,默认为空。
ollama_max_vram:最大虚拟内存,默认为空。
ollama_models:模型目录,默认为空。
ollama_nohistory:是否保存历史记录,默认为 false。
ollama_noprune:是否启用剪枝,默认为 false。
ollama_num_parallel:并行数,默认为 1。
ollama_origins:允许的来源,默认为空。
ollama_runners_dir:运行器目录,默认为空。
ollama_sched_spread:调度分布,默认为空。
ollama_tmpdir:临时文件目录,默认为空。here is the optimized list in the desired format:
ollama_debug:是否开启调试模式,默认为 false。
ollama_flash_attention:是否闪烁注意力,默认为 true。
ollama_host:ollama 服务器的主机地址,默认为空。
ollama_keep_alive:保持连接的时间,默认为 5m。
ollama_llm_library:llm 库,默认为空。
ollama_max_loaded_models:最大加载模型数,默认为 1。
ollama_max_queue:最大队列数,默认为空。
ollama_max_vram:最大虚拟内存,默认为空。
ollama_models:模型目录,默认为空。
ollama_nohistory:是否保存历史记录,默认为 false。
ollama_noprune:是否启用剪枝,默认为 false。
ollama_num_parallel:并行数,默认为 1。
ollama_origins:允许的来源,默认为空。
ollama_runners_dir:运行器目录,默认为空。
ollama_sched_spread:调度分布,默认为空。
ollama_tmpdir:临时文件目录,默认为空。
ollama使用常见的指令:
ollama serve #启动ollama
ollama create #从模型文件创建模型
ollama show #显示模型信息
ollama run #运行模型
ollama pull #从注册表中拉取模型
ollama push #将模型推送到注册表
ollama list #列出模型
ollama cp #复制模型
ollama rm #删除模型
ollama help #获取有关任何命令的帮助信息
导入huggingface模型
最新版ollama开始支持从huggingface hub上直接拉取各种模型,包括社区创建的gguf量化模型。用户可以通过简单的命令行指令快速运行这些模型,可以使用如下命令:
ollama run hf.co/{username}/{repository} 要选择不同的量化方案,只需在命令中添加一个标签: ollama run hf.co/{username}/{repository}:{quantization} 例如:量化名称不区分大小写 ollama run hf.co/bartowski/llama-3.2-3b-instruct-gguf:iq3_m ollama run hf.co/bartowski/llama-3.2-3b-instruct-gguf:q8_0 还可以直接使用完整的文件名作为标签: ollama run hf.co/bartowski/llama-3.2-3b-instruct-gguf:llama-3.2-3b-instruct-iq3_m.gguf
手动安装
下载并解压压缩包
curl -l https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz sudo tar -c /usr -xzf ollama-linux-amd64.tgz
启动ollama ollama serve
安装特定版本
ollama_version环境变量与安装脚本一起使用,以安装特定版本的 ollama,包括预发行版。可以在 releases 页面中找到版本号。
releases页面:https://github.com/ollama/ollama/releases 例如: curl -fssl https://ollama.com/install.sh | ollama_version=0.3.9 sh
查看日志
要查看作为服务运行的 ollama 的日志,请运行:
journalctl -e -u ollama
到此这篇关于linux上设置ollama服务配置(常用环境变量)的文章就介绍到这了,更多相关ollama服务配置内容请搜索代码网以前的文章或继续浏览下面的相关文章希望大家以后多多支持代码网!
发表评论