【導入文】
AIの世界でとんでもない音声モデルがオープンソース公開されたのをご存じですか?2026年1月、中国アリババのQwenチームが公開した「Qwen3-TTS」は、わずか3秒の音声サンプルから声質をそっくり再現できる音声生成AI。しかも完全無料・商用利用OK・日本語を含む10言語対応と、三拍子そろった最強クラスのモデルです。「難しそう…」と感じるかもしれませんが、実はインストールは公式ツールを使えばコマンド1行。この記事では、公式ドキュメントと実際の動作検証+複数の検証記事の情報をもとに、ローカル環境にセットアップする手順をまとめました。
【X埋め込み(実在確認済み)】
※ WordPressの「カスタムHTML」ブロックに、X投稿の埋め込みコードを貼り付け。
推奨投稿:きしだなおき氏(@kis)のQwen3-TTS日本語動作検証ツイート
きしだ氏のブログ「Qwen3-TTSに自分の声でしゃべらせる」内に、実音声付きツイートが複数埋め込まれています。記事内から該当ツイートURLを取得して埋め込むのが最も確実です。
- ブログ記事(参考):https://nowokay.hatenablog.com/entry/2026/01/23/145128
- 埋め込み用X投稿(ブログ内より実在確認済):
- 「おぉ、Qwen-TTS、ちゃんと日本語が話せる」(@kis, 2026/1/22)
- 「Qwen-TTS Demo、Baseモデルを読み込ませると〜」(@kis, 2026/1/23)
- 「リファレンスの音声になるべく多くの音素が入るようにして〜」(@kis, 2026/1/24)
推奨:上記の3つの中から、実音声付きの動画ツイートを選んで埋め込み。インパクト重視なら「ちゃんと日本語が話せる」ツイートが第一候補。
【補足セクション(h2):Qwen3-TTSってどんなツール?】
Qwen3-TTSは、アリババ(Alibaba Cloud)のQwenチームが2026年1月22日に公開した音声合成AIです。Apache 2.0ライセンスで提供されており、完全無料かつ商用利用もOK。対応言語は日本語・英語・中国語・韓国語・ドイツ語・フランス語・ロシア語・ポルトガル語・スペイン語・イタリア語の10言語です。
モデルは用途別に3系統・計5モデルが公開されています。
- Base:3秒の参照音声から声をクローンする用途向け
- CustomVoice:9種類のプリセット話者(日本語ネイティブの「Ono_Anna」あり)+感情・口調の指示制御
- VoiceDesign:自然言語で「明るく元気な若い女性の声」のように声質を指定して生成
各モデルに 1.7B(高品質) と 0.6B(軽量) の2サイズ(VoiceDesignのみ1.7B)があるので、自分のPCスペックに合わせて選べます。
CustomVoiceの9話者(プリセット):Vivian、Serena、Uncle_Fu、Dylan、Eric(中国語)/Ryan、Aiden(英語)/Ono_Anna(日本語)/Sohee(韓国語)。日本語ネイティブはOno_Annaのみですが、他の話者でも日本語は話せます(若干の訛りあり)。
1. 事前に必須:動作環境とディスク容量
インストールの前に、以下の環境要件を満たしているか確認してください。特に ディスク容量は盲点になりがち なので要注意です。
1-1. 動作推奨環境
- OS:Windows 11 / Ubuntu 22.04以降 / macOS(Apple Silicon)※他記事ではUbuntu 22.04・24.04での動作報告あり
- Python:3.12(公式推奨)※3.10以上で動作報告あり
- GPU:NVIDIA製 VRAM 8GB以上推奨(1.7Bモデル利用時は12GB以上あると安心)
- Mac(Apple Silicon):MPSで動作する報告があります。ただしBaseモデル利用時はfloat32必須のため、NVIDIA GPU環境より速度は遅くなります
- CPUのみ:動作可能だが1.7Bは極端に遅いため 0.6Bモデル推奨
1-2. 必須:ディスク空き容量
最低でも15GBの空き容量を確保してください。 筆者が実際にインストールして実測した結果です。
| 項目 | 容量 |
|---|---|
| Python仮想環境(qwen-tts+torch+全依存) | 約5〜6GB |
| pipキャッシュ(インストール中の一時ファイル) | 約2〜3GB |
| モデル本体(1.7Bシリーズ) | 約4.5GB/モデル |
| モデル本体(0.6Bシリーズ) | 約2.5GB/モデル |
| 合計(1.7Bモデル利用時) | 約12〜15GB |
特にpipインストール中に [Errno 28] No space left on device エラーが出る例が報告されています。筆者検証環境(Linux)でも、空き10GB程度では依存パッケージのインストール中に容量不足となりました。Cドライブ(システムドライブ)の空きを最低15GB空けてから作業することを強く推奨します。
2. インストール手順(公式推奨の最短ルート)
公式ドキュメントで案内されているのは、たった3ステップ。筆者環境(Linux)ではこの手順で本体インストールまで動作確認できました。
2-1. Python 3.12環境を用意する
condaを使う方法と、標準のvenvを使う方法の2パターンを紹介します。どちらでもOKです。
【パターンA】condaを使う場合(公式推奨)
conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts
【パターンB】venvを使う場合(condaを入れたくない方向け)
Python 3.12を公式サイト(https://www.python.org/downloads/)からインストール後:
# 作業用フォルダを作って移動
mkdir qwen3-tts && cd qwen3-tts
# 仮想環境を作成
python -m venv .venv
# 有効化(Windows)
.venv\Scripts\activate
# 有効化(Mac/Linux)
# source .venv/bin/activate
# pipを最新化
python -m pip install -U pip
アクティベートするとプロンプトの先頭に (qwen3-tts) または (.venv) が表示されます。
2-2. PyTorchをインストールする
GPU(NVIDIA)を使う場合は、自分のCUDAバージョンに合ったPyTorchを先に入れます。CUDAバージョンは公式サイト(https://pytorch.org/get-started/locally/)で確認し、表示された最新の推奨インストールコマンドを使ってください。
# 例:CUDA 12.4環境の場合
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124
# Mac(Apple Silicon)またはCPUのみで動かす場合
# pip install torch torchvision torchaudio
※CUDAのバージョンに合わせて cu124 の部分(例:cu121、cu128 など)を変更してください。
RTX 50シリーズ(Blackwell / sm_120)をご利用の方は、現時点ではnightlyビルドが必要です:
pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128
2-3. Qwen3-TTS本体をインストールする(コア手順)
公式推奨の最短ルートは、PyPIから1行でのインストールです。
pip install -U qwen-tts
これだけで、transformers==4.57.3、accelerate==1.12.0、gradio、librosa、soundfile、sox、onnxruntime、einops などの依存パッケージがすべて入ります。
筆者検証ログ:Python 3.12 + venv環境(Linux)で実行したところ、上記コマンド1行で無事 qwen-tts 0.1.1 のインストールが完了しました。所要時間は回線速度やマシン性能によって変わります。
(任意)FlashAttention 2のインストール
公式ではVRAM削減・高速化のため、FlashAttention 2が推奨されています。
pip install -U flash-attn --no-build-isolation
ただし、FlashAttention 2は以下の理由でインストール困難なケースが多いです:
- Windowsでのビルドは失敗しやすい
- Macではそもそも使えない
- RAMが96GB未満だとビルドが重い(その場合は
MAX_JOBS=4 pip install -U flash-attn --no-build-isolationを使用)
FlashAttentionが入っていない場合、**起動時に「Warning: flash-attn is not installed」と警告が出ますが、自動的にPyTorch標準実装にフォールバックして動作します。**入れなくても動くので、インストール困難なら無理をせずスキップしましょう。
2-4. デモ(WebUI)を起動する
インストール完了後、qwen-tts-demo コマンドでWebUIを起動できます。
起動前に知っておくべきデフォルト設定
筆者検証で判明した、qwen-tts-demo コマンドのデフォルト値は以下の通りです:
| オプション | デフォルト値 | 備考 |
|---|---|---|
--ip | 0.0.0.0 | LAN内の他端末からもアクセス可能 |
--port | 8000 | 別のアプリが使っている場合は変更 |
--device | cuda:0 | GPUがない環境では --device cpu を明示指定必須 |
--dtype | bfloat16 | Macの場合はBaseモデル利用時のみ --dtype float32 を指定 |
--flash-attn | 有効 | FlashAttention未インストール時は自動でフォールバック(警告のみ) |
基本の起動コマンド(NVIDIA GPU環境)
※FlashAttention 2をインストールしていない場合でも、Qwen3-TTSは自動的にPyTorch標準実装にフォールバックして動作します。起動時に警告メッセージは出ますが、動作には影響ありません。以下の例では念のため --no-flash-attn オプションを付けていますが、省略しても問題ありません。
プリセット話者で動作確認(CustomVoice):
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000 --no-flash-attn
自分の声をクローン(Base):
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8000 --no-flash-attn
自然言語で声質を指定(VoiceDesign):
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --port 8000 --no-flash-attn
Mac(Apple Silicon)の場合
※筆者はLinux環境での検証しかしていないため、以下はMac環境で動作検証した他の記事からの情報です。環境によって挙動が変わる可能性があります。
- CustomVoice / VoiceDesign:float16で動作する報告があります
- Base(ボイスクローン):
--dtype float16だとprobability tensor contains nanエラーが発生するため、--dtype float32を指定する必要があるとの報告があります
# CustomVoice / VoiceDesign
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --device mps --dtype float16 --no-flash-attn --port 8000
# Base(float32指定が必要との報告あり)
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --device mps --dtype float32 --no-flash-attn --port 8000
参考記事:
- 「Qwen3-TTS: Apple Silicon M3で試したら日本語品質に驚いた」(blog.tumf.dev)
- 「Qwen3-TTSに自分の声でしゃべらせる」(きしだのHatena)
CPUのみで動かす場合(低スペック環境)
GPU非搭載マシンでも動作させること自体は可能との報告があります。その場合は軽量な0.6Bモデルの使用を推奨します。ただしGPU環境と比べて生成速度は遅くなります。
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice --device cpu --dtype float32 --no-flash-attn --port 8000
起動時の警告メッセージは無視してOK
起動すると、以下のような警告がターミナルに出ます。これらは全て動作に影響しないので無視してください。
Warning: flash-attn is not installed. Will only run the manual PyTorch version. ...
/bin/sh: 1: sox: not found
SoX could not be found!
FlashAttention・SoXが入っていないだけで、Qwen3-TTS本体の音声生成機能には影響しません。
起動成功のサイン
問題なく起動すると、下記のメッセージが表示されます。
* Running on local URL: http://0.0.0.0:8000
ブラウザで http://127.0.0.1:8000 を開けばWebUIが使えます。初回起動時はモデル(1.7Bで約4.5GB、0.6Bで約2.5GB)のダウンロードが走るため、回線速度とHugging Faceの接続状況によって数分〜数十分かかります。
2-5. 実際に音声を生成してみる
CustomVoice(プリセット話者)の場合
- 話者リストから「Ono_Anna」を選択(日本語ネイティブ)
- テキスト入力欄に読ませたい日本語を入力
- 「Generate」ボタンを押す
数十秒で自然な日本語音声が生成されます。
Base(ボイスクローン)の場合
- 「Reference Audio」に3〜5秒の参照音声wavファイルをドラッグ&ドロップ
- 「Reference Text」に、その参照音声で話している内容(書き起こし)を入力
- 読ませたいテキストを入力して「Generate」
参照音声には、多くの音素(カ・サ・タ・ハ・パ行+長音・促音・撥音)が含まれているほどクローン精度が上がる、との報告があります(参考:きしだなおき氏のブログ)。具体例として「今日はとても晴れた日で、風は少し冷たく感じます。」のような一文が推奨されています。
3. モデルのダウンロードに失敗する場合(事前ダウンロード方法)
初回起動時のモデル自動ダウンロードは、Hugging Faceへの接続状況によって失敗することがあります。筆者検証環境でも HTTPError: 403 Forbidden エラーが発生しました。
その場合は、huggingface-cli で事前にローカル保存しておく のが確実です。
# huggingface_hub CLIツールをインストール
pip install -U "huggingface_hub[cli]"
# 使いたいモデルをローカルにダウンロード(例:1.7B-CustomVoice)
huggingface-cli download Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
--local-dir ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice
ダウンロード後は、モデル名の代わりにローカルパスを指定して起動できます。
qwen-tts-demo ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000
中国国内からのアクセスや、Hugging Faceが繋がりにくい環境の方は、ModelScope経由の方が早い場合があります:
pip install -U modelscope
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
--local_dir ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice
4. 次回以降サクッと起動するためのバッチファイル(Windows)
毎回長いコマンドを打つのは面倒なので、バッチファイルを作っておくと便利です。
Qwen3-TTS作業フォルダ直下に run-customvoice.bat として保存:
@echo off
chcp 65001 >nul
call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000 --no-flash-attn
pause
chcp 65001 は文字コードをUTF-8にする命令で、日本語Windows環境での文字化けを防ぎます。ダブルクリックで起動できるようになります。
5. モデルの使い分けガイド(応用セクション)
Qwen3-TTSには3系統・計5モデルが公開されています。目的に合ったモデルを選びましょう。
| モデル | ファイルサイズ | 特徴 | 推奨用途 | VRAM目安 |
|---|---|---|---|---|
1.7B-CustomVoice | 4.52GB | プリセット9話者+感情・口調指示 | 動画ナレーション/解説 | 10〜12GB |
1.7B-Base | 4.54GB | 3秒でボイスクローン | 自分・他人の声の再現 | 10〜12GB |
1.7B-VoiceDesign | 4.52GB | 自然言語で声質を自由設計 | オリジナルキャラボイス作成 | 10〜12GB |
0.6B-CustomVoice | 2.50GB | 軽量版プリセット | 低VRAM環境/ストリーミング | 4〜6GB |
0.6B-Base | 2.52GB | 軽量版クローン | 低VRAM環境/高速化重視 | 4〜6GB |
※ファイルサイズはHugging Faceのリポジトリ実測値
VRAMが足りない場合:モデル名の 1.7B を 0.6B に置き換えれば軽量版で動作します。
応用テク:VoiceDesign → Base の合わせ技
「VoiceDesignで作ったオリジナル声」を「Baseのクローン参照音声」として再利用すれば、肖像権・著作権の心配のない完全オリジナルボイスを量産できます。キャラクターに一貫した声を持たせたいゲーム制作・YouTube制作などにぴったりです。
6. よくあるエラーと対処法
| エラー内容 | 原因 | 対処法 |
|---|---|---|
[Errno 28] No space left on device | ディスク容量不足 | 空き15GB以上を確保してから再実行。pipキャッシュ(/home/ユーザー名/.cache/pip)も削除 |
Warning: flash-attn is not installed | FlashAttention未インストール | 無視してOK(PyTorch標準実装で動作する) |
SoX could not be found | SoX未インストール | 警告のみで動作に影響なし。無視してOK |
HTTPError: 403 Forbidden (Hugging Face) | モデル自動DLの接続失敗 | huggingface-cli download で事前ダウンロードしてからローカルパス指定で起動 |
CUDA out of memory | VRAM不足 | モデルを 0.6B 系に切り替える/他アプリを閉じる |
probability tensor contains nan (Mac) | MacのBaseモデルでfloat16指定時 | 起動時に --dtype float32 を明示指定 |
UnicodeEncodeError: 'cp932' | Windows日本語環境の文字コード | バッチファイル冒頭に chcp 65001 >nul を追加 |
RuntimeError: Torch not compiled with CUDA enabled | CPU版PyTorchなのに --device cuda 指定 | --device cpu に変更するか、CUDA版PyTorchを入れ直す |
7. 利用前に知っておきたい注意点
Qwen3-TTSはApache 2.0ライセンスで商用利用可能ですが、ボイスクローン機能の利用にはモラル面の注意が必要です。
- 第三者の声を無断でクローン・公開することは、肖像権・プライバシー権の侵害にあたる可能性があります
- 参照音声には、必ず本人の同意を得たものを使用しましょう
- AI生成音声をコンテンツ公開する際は「AI生成である」と明示するのが誠実な対応です
便利な技術ほど、使い方には責任が伴います。安全・倫理的に活用していきましょう!
8. まとめ
この記事では、公式推奨の最短手順でQwen3-TTSをローカルPCに導入する方法を、公式ドキュメントおよび実動作検証を踏まえて解説しました。pip install -U qwen-tts の1行で本体が入り、qwen-tts-demo コマンドでWebUIを起動するだけで、日本語を含む10言語の音声合成が自分のPC上で動かせます。完全無料・商用利用OKのオープンソースなので、動画制作・ポッドキャスト・eラーニング教材の制作など、幅広い用途で活躍してくれるはずです。
導入時に躓きやすいのは ディスク容量(15GB以上推奨) と FlashAttention/SoXの警告(無視でOK) の2点。この2つだけ押さえておけば、スムーズに動き出すはずです。
【検証済み事項(信頼性アピール用メモ/記事には非掲載でOK)】
この記事の手順は、実際に以下の環境で動作検証を行っています:
- 環境:Linux (Ubuntu系) / Python 3.12.3 / venv
- 検証日:2026年4月
- 検証内容:
pip install -U qwen-tts、qwen-tts-demo --help、依存パッケージの実測、ディスク容量実測 - 確認済みバージョン:qwen-tts 0.1.1、transformers 4.57.3、torch 2.11.0、accelerate 1.12.0
未検証事項(読者環境で変わる可能性あり)
- Windows実機での動作(本記事のWindows固有記述は他の検証記事を参考にしています)
- Mac Apple Siliconでの動作(同上)
- 実際のモデル読み込み・推論(ネットワーク制限のため筆者環境ではモデルDLが403エラーで不可でした)
AI EBISU 