60-think|Senior blog, CMS and SNS community site

Qwen対応の案は次が現実的です。

方針
- video理解は qwen3-vl 系か qwen3-omni-flash の text出力で処理
- voice出力は qwen3-omni-flash（非thinking）で audio を使う
- realtime音声は Qwen Omni Realtime（WebSocket）を別実装で分離
今の実装との主な差分
- Qwen Omniは stream=true 前提のケースがある
- audio出力はthinking mode不可
- Realtimeは session.update で modalities, voice, input_audio_format=pcm16, output_audio_format=pcm24 を設定
- 地域URLとAPIキーが分かれる（Beijing / Intl）
コスト・運用注意
- qwen3-omni-flash は無料枠なしの記載があり、本番前提
- 連続音声は audio output 課金が効くので、動画理解(テキスト) と音声出力を分離した方がコスト制御しやすい
先に進める実装案（未実装、確認待ち）
- Phase A: Qwen video->text 追加（既存chat APIにprovider追加）
- Phase B: Qwen TTS 追加（非realtime）
- Phase C: Qwen realtime voice 追加（WS transportを新規分岐）

この順が安全です。
承認いただければ、まず Phase A の最小実装から入ります。

参考

また、ローカル、ＡＷＳ上で自分Ｑｗｅｎの配置なら、その案も

可能です。
「Qwenを自前配置」の案は2パターンあります。

自前配置の現実的構成:

重要な注意:

あなた向け推奨:

必要なら次に、あなたの現行構成（EC2 Docker）に合わせた最小の docker-compose + vLLM 具体案を作ります。