Realtime 客户端

文件： main_logic/omni_realtime_client.py

OmniRealtimeClient 管理与 Realtime API 提供商（Qwen、OpenAI、Gemini、Step、GLM）的 WebSocket 连接。

支持的提供商

与提供商的 Realtime API 端点建立 WebSocket 连接。

将用户文本输入发送到 LLM。

将用户音频块流式传输到 LLM。音频以原始 PCM 数据格式发送。

发送截图用于多模态理解。受 NATIVE_IMAGE_MIN_INTERVAL（默认 1.5 秒）的速率限制。

客户端默认使用服务端 VAD（语音活动检测）。由 LLM 提供商决定用户何时结束发言，从而实现自然的对话轮转。

屏幕截图受速率限制，以避免对 API 造成过大负载：