Realtime API
Realtime API 使用范例
用于测试 MiniCPM-o Realtime 音频和视频 API 的最小 Python 客户端。
本页提供不依赖浏览器的最小 Python 客户端,用于调用 MiniCPM-o Realtime
API。示例代码位于项目仓库
examples/realtime/
目录。
安装依赖
cd examples/realtime
python3 -m venv .venv
. .venv/bin/activate
pip install -r requirements.txt视频示例还需要系统中安装 ffmpeg:
ffmpeg -version音频探测
音频探测脚本会连接 wss://host/v1/realtime?mode=audio,按 chunk 发送
16 kHz 单声道 float32 PCM 音频,并输出客户端侧观测到的流式延迟与平滑度指标。
python audio_probe.py \
--url https://minicpmo45.modelbest.cn \
--input-wav assets/test.wav \
--region local-audio \
--pretty-json仓库内置的 assets/test.wav 很小,适合快速 smoke test。
视频探测
视频探测脚本会用 ffmpeg 从 MP4 中提取 16 kHz 单声道音频和 JPEG 帧,然后发送携带
video_frames 的 input_audio_buffer.append 事件。
python video_probe.py \
--url https://minicpmo45.modelbest.cn \
--video /path/to/video.mp4 \
--region local-video \
--pretty-json也可以先下载托管的示例视频:
curl -L -o sample.mp4 \
https://pub-4c730b83fc564d6a85ec9be6da99f10c.r2.dev/minicpmo/realtime-api/examples/VID_20260511_174245.mp4
python video_probe.py \
--url https://minicpmo45.modelbest.cn \
--video sample.mp4 \
--region local-video \
--pretty-json关键指标
ws_ready_ms:WebSocket 建连耗时。first_text_ms:从连接开始到收到第一个文本增量的耗时。first_audio_ms:从连接开始到收到第一个输出音频 chunk 的耗时。output_audio_chunks:下行音频 chunk 数量。chunk_interarrival_*_ms:下行音频 chunk 到达间隔分布。underrun_count:音频探测脚本模拟播放缓冲时的 underrun 次数。