2026/03/12
Qwen Local

確認しました。Qwen対応の案は次が現実的です。

  1. 方針
    • video理解 は qwen3-vl 系か qwen3-omni-flash の text出力 で処理
    • voice出力 は qwen3-omni-flash(非thinking)で audio を使う
    • realtime音声 は Qwen Omni Realtime(WebSocket)を別実装で分離
  2. 今の実装との主な差分
    • Qwen Omniは stream=true 前提のケースがある
    • audio出力はthinking mode不可
    • Realtimeは session.update で modalities, voice, input_audio_format=pcm16, output_audio_format=pcm24 を設定
    • 地域URLとAPIキーが分かれる(Beijing / Intl)
  3. コスト・運用注意
    • qwen3-omni-flash は無料枠なしの記載があり、本番前提
    • 連続音声は audio output 課金が効くので、動画理解(テキスト) と 音声出力 を分離した方がコスト制御しやすい
  4. 先に進める実装案(未実装、確認待ち)
    • Phase A: Qwen video->text 追加(既存chat APIにprovider追加)
    • Phase B: Qwen TTS 追加(非realtime)
    • Phase C: Qwen realtime voice 追加(WS transportを新規分岐)

この順が安全です。
承認いただければ、まず Phase A の最小実装から入ります。

参考

また、ローカル、AWS上で自分Qwenの配置なら、その案も

可能です。
「Qwenを自前配置」の案は2パターンあります。

  1. Managed API(DashScope/OpenAI互換を使う)
    • 実装は最小
    • 運用が楽
    • ただし従量課金
  2. Self-host(ローカル/AWSにモデル配置)
    • コスト制御しやすい
    • ただしGPU運用が必要

自前配置の現実的構成:

  • 推論サーバ: vLLM か SGLang(OpenAI互換APIで公開)
  • モデル:
    • テキスト/画像理解: Qwen3-VL or Qwen3-Omni
    • 音声入出力: Omni系(ただし実運用難度高い)
  • AWS例:
    • 開発: g5.xlarge~g5.2xlarge
    • 本番: g5.12xlarge 以上(同時接続次第)
  • 配備:
    • EC2 + Docker + Nginx(HTTPS) + autoscaling(任意)
    • モデル重みはEBS/NVMeに配置
  • 監視:
    • GPUメモリ、トークン/秒、レイテンシ、OOM、キュー長

重要な注意:

  • Realtime音声 は self-host だと難度が一段上がります(低遅延音声パイプライン、PCM処理、VAD調整)。
  • 先に video/text と 非realtime音声 を self-host 化し、realtime は後段が安全です。

あなた向け推奨:

  1. まず AWS 上に Qwen text+video を self-host(OpenAI互換)
  2. 次に TTS/STT を段階追加
  3. 最後に realtime を切替

必要なら次に、あなたの現行構成(EC2 Docker)に合わせた最小の docker-compose + vLLM 具体案を作ります。