Ollama开启多模型、高并发配置 可用性更强

ollama默认是单模型运行,并且同时发起两个提问,他会一个个处理,所以在内存允许的情况下,有时候我们会开启多模型和并发处理

下面是我linux服务下完整的 systemd 服务文件示例,它用于配置 Ollama 服务,支持多并发处理请求和多模型加载:

Ollama systemd 服务文件示例

[Unit]
Description=Ollama AI Model Server
After=network.target

[Service]
Type=simple
ExecStart=/usr/local/bin/ollama serve
# 配置并行处理请求的数量
Environment="OLLAMA_NUM_PARALLEL=4"
# 配置同时加载的模型数量
Environment="OLLAMA_MAX_LOADED_MODELS=4"
# 设置工作目录
WorkingDirectory=/var/lib/ollama
# 如果进程崩溃自动重启
Restart=always
# 重启等待时间
RestartSec=10
# 配置所需的用户和权限
User=ollama
Group=ollama

[Install]
WantedBy=multi-user.target

说明:

  1. [Unit]:描述服务的基本信息,如服务名称和依赖。

    • Description: Ollama 服务的描述。
    • After: 依赖网络服务启动后再启动 Ollama。
  2. [Service]:定义服务如何启动和运行。

    • ExecStart: 启动命令,此处使用 /usr/local/bin/ollama serve 启动 Ollama。
    • Environment: 设置环境变量 OLLAMA_NUM_PARALLELOLLAMA_MAX_LOADED_MODELS,分别控制并发请求处理数量和同时加载的模型数量。
    • WorkingDirectory: 指定 Ollama 服务的工作目录。
    • Restart=always: 如果服务崩溃或意外退出,自动重启服务。
    • RestartSec=10: 在重启前等待 10 秒。
  3. [Install]:定义服务的安装行为。

    • WantedBy=multi-user.target: 指定服务在多用户模式下启动。

安装和启动步骤:

  1. 将该文件保存为 /etc/systemd/system/ollama.service

    sudo nano /etc/systemd/system/ollama.service
  2. 保存并退出后,重新加载 systemd 配置:

    sudo systemctl daemon-reload
  3. 启动并使 Ollama 服务开机自启:

    sudo systemctl start ollama
    sudo systemctl enable ollama
  4. 检查服务状态:

    sudo systemctl status ollama

通过这个配置,Ollama 服务可以同时处理多个请求并加载多个模型。

标签: AI

相关文章

推荐几款在macOS下可以运行本地AI模型的软件

至于为嘛要在本地跑模型,我就不分析原因了,在macOS 14(Sonoma)上,有许多支持本地运行AI模型的软件,尤其是为了方便用户在本地运行LLM(大语言模型)和其他机器学习模型。以下是一些常...

图片Base64编码

CSR生成

图片无损放大

图片占位符

Excel拆分文件