logo
0
0
WeChat Login

MiniCPM-o 4.5 快速开始,一个能看、能听、能说的智能体

Python Version Torch Version CUDA Version Ubuntu22.04

使用方式:

  • Fork 本仓库到自己名下。之后有两种启动方式:

    • 方式一:点击 "一键启动智能体" 按钮,直接启动后台服务。
    • 方式二:点击 “执行”-》“启动远程开发” 。进入代码开发环境,然后使用脚本 sh start-cnb-demo.sh 启动后台服务
  • 启动完成约2分钟,然后浏览器打开页面即可。服务部署在公网,手机默认浏览器也能访问,CNB 的 URL 格式如:https://***.cnb.run/

  • 选择 Omni Full-Duplex 全模态全双工模式。打开摄像头和麦克风,体验能看、能听、能说的智能体。(可使用手机实时边拍边聊,体验效果不错。手机视频窗口全屏,点 Start 连线)

  • 其他几种模式也可用,如无摄像头时,可以体验“语音全双工”模式实时语音对话。细节使用方式参考文档

  • 可以边用边思考下适用的使用场景,科技向善。更多功能特性也是参考结尾使用文档链接

技术说明

  • 模型运行时显存需要 28G 显存。 实测在 cnb 环境的 H20 显卡和 L40 显卡都能流畅跑。
  • 看官方计划会支持量化版模型,在 RTX 40*0 系显卡预期也能跑,感兴趣的未来可以把源码替换到最新. 当前源码版本是2026-03-02 commit 501e65e (源码我改了一行参数,见git历史)
  • 目录结构
minicpm-o-4_5-pytorch-simple-demo | 系统程序源码 models | 模型权重文件 config.json | 应用的配置文件,copy自 config.example.json start-cnb-demo.sh | cnb 适配的启动脚本 .cnb* | cnb 平台的配置文件 env-build | 构建运行镜像使用的脚本工具,方便自己构建环境
  • 如果感觉回复卡顿,可尝试打开config.json中的 "compile": true, 配置,加速配置测试也能跑通。注意编译启动会慢点,第一次对话回复要多等几分钟,预热完就好了。 cnb.yml 中配置了缓存目录方便复用(目前 cnb 有3台左右开发节点机器,每台新机器跑过一次后,就有模型编译缓存了)
  • 当前代码目的是展示 MiniCPM-o 4.5 的音视频全模态全双工能力,并方便二次开发,API 文档在当前代码目的是展示 MiniCPM-o 4.5 的音视频全模态全双工能力,并方便二次开发,API 文档在 https://***.cnb.run/docs
  • 结合 cnb 平台能力,本仓库比较适合的使用场景,是远程开发快速启动开发环境,改代码、调用API。方便快速二次开发,定制自己的产品 Idea。
  • 一键启动方式,停止的方式可以在页面把运行的环境关闭就行了。云原生开发环境,使用命令停止应用 cd minicpm-o-4_5-pytorch-simple-demo/ && kill $(cat tmp/*.pid 2>/dev/null) 2>/dev/null
  • 如果想长时间部署运行后台服务,可以尝试在自己的显卡服务器中 git clone 本代码仓库,并使用镜像 docker.cnb.cool/tian-yu/ai/minicpm-o-4_5-pytorch-simple-demo:latest 作为docker容器环境,指定GPU并将仓库挂载到 /workspace 目录启动。(镜像理论上能兼容,也可参考 build-pytorch-devel.sh 和 Dockerfile 构建自己镜像)

参考文档和致谢

About

您的CNB智能体已上线

Language
Python50.4%
HTML33.2%
JavaScript14.3%
CSS1.6%
Others0.5%