確認しました。Qwen対応の案は次が現実的です。
- 方針
- video理解 は qwen3-vl 系か qwen3-omni-flash の text出力 で処理
- voice出力 は qwen3-omni-flash(非thinking)で audio を使う
- realtime音声 は Qwen Omni Realtime(WebSocket)を別実装で分離
- 今の実装との主な差分
- Qwen Omniは stream=true 前提のケースがある
- audio出力はthinking mode不可
- Realtimeは session.update で modalities, voice, input_audio_format=pcm16, output_audio_format=pcm24 を設定
- 地域URLとAPIキーが分かれる(Beijing / Intl)
- コスト・運用注意
- qwen3-omni-flash は無料枠なしの記載があり、本番前提
- 連続音声は audio output 課金が効くので、動画理解(テキスト) と 音声出力 を分離した方がコスト制御しやすい
- 先に進める実装案(未実装、確認待ち)
- Phase A: Qwen video->text 追加(既存chat APIにprovider追加)
- Phase B: Qwen TTS 追加(非realtime)
- Phase C: Qwen realtime voice 追加(WS transportを新規分岐)
この順が安全です。
承認いただければ、まず Phase A の最小実装から入ります。
参考
- Qwen Omni(modalities, audio, stream): https://www.alibabacloud.com/help/doc-detail/2867839.html
- Realtime設定(session.update, pcm24等): https://help.aliyun.com/zh/model-studio/realtime
- モデル/料金・thinking制約: https://www.alibabacloud.com/help/en/model-studio/user-guide/model/
- Qwen3-Omni-Flashのstream注意: https://www.alibabacloud.com/help/doc-detail/2862208.html
また、ローカル、AWS上で自分Qwenの配置なら、その案も
可能です。
「Qwenを自前配置」の案は2パターンあります。
- Managed API(DashScope/OpenAI互換を使う)
- 実装は最小
- 運用が楽
- ただし従量課金
- Self-host(ローカル/AWSにモデル配置)
- コスト制御しやすい
- ただしGPU運用が必要
自前配置の現実的構成:
- 推論サーバ: vLLM か SGLang(OpenAI互換APIで公開)
- モデル:
- テキスト/画像理解: Qwen3-VL or Qwen3-Omni
- 音声入出力: Omni系(ただし実運用難度高い)
- AWS例:
- 開発: g5.xlarge~g5.2xlarge
- 本番: g5.12xlarge 以上(同時接続次第)
- 配備:
- EC2 + Docker + Nginx(HTTPS) + autoscaling(任意)
- モデル重みはEBS/NVMeに配置
- 監視:
- GPUメモリ、トークン/秒、レイテンシ、OOM、キュー長
重要な注意:
- Realtime音声 は self-host だと難度が一段上がります(低遅延音声パイプライン、PCM処理、VAD調整)。
- 先に video/text と 非realtime音声 を self-host 化し、realtime は後段が安全です。
あなた向け推奨:
- まず AWS 上に Qwen text+video を self-host(OpenAI互換)
- 次に TTS/STT を段階追加
- 最後に realtime を切替
必要なら次に、あなたの現行構成(EC2 Docker)に合わせた最小の docker-compose + vLLM 具体案を作ります。