Ollama开启多模型、高并发配置 可用性更强
ollama默认是单模型运行,并且同时发起两个提问,他会一个个处理,所以在内存允许的情况下,有时候我们会开启多模型和并发处理
下面是我linux服务下完整的 systemd
服务文件示例,它用于配置 Ollama 服务,支持多并发处理请求和多模型加载:
Ollama systemd
服务文件示例
[Unit]
Description=Ollama AI Model Server
After=network.target
[Service]
Type=simple
ExecStart=/usr/local/bin/ollama serve
# 配置并行处理请求的数量
Environment="OLLAMA_NUM_PARALLEL=4"
# 配置同时加载的模型数量
Environment="OLLAMA_MAX_LOADED_MODELS=4"
# 设置工作目录
WorkingDirectory=/var/lib/ollama
# 如果进程崩溃自动重启
Restart=always
# 重启等待时间
RestartSec=10
# 配置所需的用户和权限
User=ollama
Group=ollama
[Install]
WantedBy=multi-user.target
说明:
[Unit]
:描述服务的基本信息,如服务名称和依赖。Description
: Ollama 服务的描述。After
: 依赖网络服务启动后再启动 Ollama。
[Service]
:定义服务如何启动和运行。ExecStart
: 启动命令,此处使用/usr/local/bin/ollama serve
启动 Ollama。Environment
: 设置环境变量OLLAMA_NUM_PARALLEL
和OLLAMA_MAX_LOADED_MODELS
,分别控制并发请求处理数量和同时加载的模型数量。WorkingDirectory
: 指定 Ollama 服务的工作目录。Restart=always
: 如果服务崩溃或意外退出,自动重启服务。RestartSec=10
: 在重启前等待 10 秒。
[Install]
:定义服务的安装行为。WantedBy=multi-user.target
: 指定服务在多用户模式下启动。
安装和启动步骤:
将该文件保存为
/etc/systemd/system/ollama.service
。sudo nano /etc/systemd/system/ollama.service
保存并退出后,重新加载
systemd
配置:sudo systemctl daemon-reload
启动并使 Ollama 服务开机自启:
sudo systemctl start ollama sudo systemctl enable ollama
检查服务状态:
sudo systemctl status ollama
通过这个配置,Ollama 服务可以同时处理多个请求并加载多个模型。
版权声明:本文为原创文章,版权归 全栈开发技术博客 所有。
本文链接:https://www.lvtao.net/tool/ollama-parallel-max-models.html
转载时须注明出处及本声明