Realtime Client

ファイル: main_logic/omni_realtime_client.py

OmniRealtimeClient は Realtime API プロバイダー（Qwen、OpenAI、Gemini、Step、GLM）への WebSocket 接続を管理します。

サポートされるプロバイダー

プロバイダー	プロトコル	備考
Qwen (DashScope)	WebSocket	プライマリ、最もテスト済み
OpenAI	WebSocket	GPT Realtime API
Step	WebSocket	Step Audio
GLM	WebSocket	Zhipu Realtime
Gemini	Google GenAI SDK	SDK ラッパーを使用、生の WebSocket ではない

プロバイダーの Realtime API エンドポイントへの WebSocket 接続を確立します。

ユーザーのテキスト入力を LLM に送信します。

ユーザーのオーディオチャンクを LLM にストリーミングします。オーディオは生の PCM データとして送信されます。

マルチモーダル理解のためにスクリーンショットを送信します。NATIVE_IMAGE_MIN_INTERVAL（デフォルト 1.5 秒）によりレート制限されます。

クライアントはデフォルトでサーバーサイド VAD（音声アクティビティ検出）を使用します。LLM プロバイダーがユーザーの発話終了を判断し、自然な会話のターンテイキングを実現します。

API への過負荷を防ぐため、画面キャプチャはレート制限されます：