pual/minicpm-o-4_5-pytorch-simple-demo

Public

WeChat Login

Code Issues Pull requests Events Packages Insights

main

Branch

Tag

Forkfromtian-yu/ai/minicpm-o-4_5-pytorch-simple-demo

天宇

合并来自 main 的合并请求 #5

4042b4e6

72 commits

.cnb
docs
env-build
minicpm-o-4_5-pytorch-simple-demo
models
.cnb.yml
.gitignore
Dockerfile
README.md
config.json
start-cnb-demo.sh

MiniCPM-o 4.5 快速开始，一个能看、能听、能说的智能体

使用方式：

Fork 本仓库到自己名下。之后有两种启动方式：
- 方式一：点击 "一键启动智能体" 按钮，直接启动后台服务。
- 方式二：点击 “执行”-》“启动远程开发” 。进入代码开发环境，然后使用脚本 sh start-cnb-demo.sh 启动后台服务
启动完成约2分钟，然后浏览器打开页面即可。服务部署在公网，手机默认浏览器也能访问，CNB 的 URL 格式如：https://***.cnb.run/
选择 Omni Full-Duplex 全模态全双工模式。打开摄像头和麦克风，体验能看、能听、能说的智能体。（可使用手机实时边拍边聊，体验效果不错。手机视频窗口全屏，点 Start 连线）
其他几种模式也可用，如无摄像头时，可以体验“语音全双工”模式实时语音对话。细节使用方式参考文档
可以边用边思考下适用的使用场景，科技向善。更多功能特性也是参考结尾使用文档链接

技术说明

模型运行时显存需要 28G 显存。实测在 cnb 环境的 H20 显卡和 L40 显卡都能流畅跑。
看官方计划会支持量化版模型，在 RTX 40*0 系显卡预期也能跑，感兴趣的未来可以把源码替换到最新. 当前源码版本是2026-03-02 commit 501e65e (源码我改了一行参数，见git历史)
目录结构


minicpm-o-4_5-pytorch-simple-demo
    |  系统程序源码
models
    |  模型权重文件
config.json
    |  应用的配置文件，copy自 config.example.json    
start-cnb-demo.sh
    |  cnb 适配的启动脚本
.cnb* 
    |  cnb 平台的配置文件
env-build    
    |  构建运行镜像使用的脚本工具，方便自己构建环境

如果感觉回复卡顿，可尝试打开config.json中的 "compile": true, 配置，加速配置测试也能跑通。注意编译启动会慢点，第一次对话回复要多等几分钟，预热完就好了。 cnb.yml 中配置了缓存目录方便复用（目前 cnb 有3台左右开发节点机器，每台新机器跑过一次后，就有模型编译缓存了）
当前代码目的是展示 MiniCPM-o 4.5 的音视频全模态全双工能力，并方便二次开发，API 文档在当前代码目的是展示 MiniCPM-o 4.5 的音视频全模态全双工能力，并方便二次开发，API 文档在 https://***.cnb.run/docs。
结合 cnb 平台能力，本仓库比较适合的使用场景，是远程开发快速启动开发环境，改代码、调用API。方便快速二次开发，定制自己的产品 Idea。
一键启动方式，停止的方式可以在页面把运行的环境关闭就行了。云原生开发环境，使用命令停止应用 cd minicpm-o-4_5-pytorch-simple-demo/ && kill $(cat tmp/*.pid 2>/dev/null) 2>/dev/null
如果想长时间部署运行后台服务，可以尝试在自己的显卡服务器中 git clone 本代码仓库，并使用镜像 docker.cnb.cool/tian-yu/ai/minicpm-o-4_5-pytorch-simple-demo:latest 作为docker容器环境，指定GPU并将仓库挂载到 /workspace 目录启动。（镜像理论上能兼容，也可参考 build-pytorch-devel.sh 和 Dockerfile 构建自己镜像）