【日本語対応】SNSで話題！3秒でボイスクローンできる「Qwen3-TTS」のインストール方法

目次表示

【導入文】
【X埋め込み（実在確認済み）】
【補足セクション（h2）：Qwen3-TTSってどんなツール？】
1. 事前に必須：動作環境とディスク容量
- 1-1. 動作推奨環境
- 1-2. 必須：ディスク空き容量
2. インストール手順（公式推奨の最短ルート）
3. モデルのダウンロードに失敗する場合（事前ダウンロード方法）
4. 次回以降サクッと起動するためのバッチファイル（Windows）
5. モデルの使い分けガイド（応用セクション）
6. よくあるエラーと対処法
7. 利用前に知っておきたい注意点
8. まとめ
【検証済み事項（信頼性アピール用メモ／記事には非掲載でOK）】
- 未検証事項（読者環境で変わる可能性あり）

【導入文】

AIの世界でとんでもない音声モデルがオープンソース公開されたのをご存じですか？2026年1月、中国アリババのQwenチームが公開した「Qwen3-TTS」は、わずか3秒の音声サンプルから声質をそっくり再現できる音声生成AI。しかも完全無料・商用利用OK・日本語を含む10言語対応と、三拍子そろった最強クラスのモデルです。「難しそう…」と感じるかもしれませんが、実はインストールは公式ツールを使えばコマンド1行。この記事では、公式ドキュメントと実際の動作検証＋複数の検証記事の情報をもとに、ローカル環境にセットアップする手順をまとめました。

【X埋め込み（実在確認済み）】

※ WordPressの「カスタムHTML」ブロックに、X投稿の埋め込みコードを貼り付け。

推奨投稿：きしだなおき氏（@kis）のQwen3-TTS日本語動作検証ツイート

きしだ氏のブログ「Qwen3-TTSに自分の声でしゃべらせる」内に、実音声付きツイートが複数埋め込まれています。記事内から該当ツイートURLを取得して埋め込むのが最も確実です。

ブログ記事（参考）：https://nowokay.hatenablog.com/entry/2026/01/23/145128
埋め込み用X投稿（ブログ内より実在確認済）：
- 「おぉ、Qwen-TTS、ちゃんと日本語が話せる」(@kis, 2026/1/22)
- 「Qwen-TTS Demo、Baseモデルを読み込ませると〜」(@kis, 2026/1/23)
- 「リファレンスの音声になるべく多くの音素が入るようにして〜」(@kis, 2026/1/24)

推奨：上記の3つの中から、実音声付きの動画ツイートを選んで埋め込み。インパクト重視なら「ちゃんと日本語が話せる」ツイートが第一候補。

【補足セクション（h2）：Qwen3-TTSってどんなツール？】

Qwen3-TTSは、アリババ（Alibaba Cloud）のQwenチームが2026年1月22日に公開した音声合成AIです。Apache 2.0ライセンスで提供されており、完全無料かつ商用利用もOK。対応言語は日本語・英語・中国語・韓国語・ドイツ語・フランス語・ロシア語・ポルトガル語・スペイン語・イタリア語の10言語です。

モデルは用途別に3系統・計5モデルが公開されています。

Base：3秒の参照音声から声をクローンする用途向け
CustomVoice：9種類のプリセット話者（日本語ネイティブの「Ono_Anna」あり）＋感情・口調の指示制御
VoiceDesign：自然言語で「明るく元気な若い女性の声」のように声質を指定して生成

各モデルに 1.7B（高品質） と 0.6B（軽量） の2サイズ（VoiceDesignのみ1.7B）があるので、自分のPCスペックに合わせて選べます。

CustomVoiceの9話者（プリセット）：Vivian、Serena、Uncle_Fu、Dylan、Eric（中国語）／Ryan、Aiden（英語）／Ono_Anna（日本語）／Sohee（韓国語）。日本語ネイティブはOno_Annaのみですが、他の話者でも日本語は話せます（若干の訛りあり）。

1. 事前に必須：動作環境とディスク容量

インストールの前に、以下の環境要件を満たしているか確認してください。特に ディスク容量は盲点になりがち なので要注意です。

1-1. 動作推奨環境

OS：Windows 11 / Ubuntu 22.04以降 / macOS（Apple Silicon）※他記事ではUbuntu 22.04・24.04での動作報告あり
Python：3.12（公式推奨）※3.10以上で動作報告あり
GPU：NVIDIA製 VRAM 8GB以上推奨（1.7Bモデル利用時は12GB以上あると安心）
Mac（Apple Silicon）：MPSで動作する報告があります。ただしBaseモデル利用時はfloat32必須のため、NVIDIA GPU環境より速度は遅くなります
CPUのみ：動作可能だが1.7Bは極端に遅いため 0.6Bモデル推奨

1-2. 必須：ディスク空き容量

最低でも15GBの空き容量を確保してください。 筆者が実際にインストールして実測した結果です。

項目	容量
Python仮想環境（qwen-tts＋torch＋全依存）	約5〜6GB
pipキャッシュ（インストール中の一時ファイル）	約2〜3GB
モデル本体（1.7Bシリーズ）	約4.5GB／モデル
モデル本体（0.6Bシリーズ）	約2.5GB／モデル
合計（1.7Bモデル利用時）	約12〜15GB

特にpipインストール中に [Errno 28] No space left on device エラーが出る例が報告されています。筆者検証環境（Linux）でも、空き10GB程度では依存パッケージのインストール中に容量不足となりました。Cドライブ（システムドライブ）の空きを最低15GB空けてから作業することを強く推奨します。

2. インストール手順（公式推奨の最短ルート）

公式ドキュメントで案内されているのは、たった3ステップ。筆者環境（Linux）ではこの手順で本体インストールまで動作確認できました。

2-1. Python 3.12環境を用意する

condaを使う方法と、標準のvenvを使う方法の2パターンを紹介します。どちらでもOKです。

【パターンA】condaを使う場合（公式推奨）

conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

【パターンB】venvを使う場合（condaを入れたくない方向け）

Python 3.12を公式サイト（https://www.python.org/downloads/）からインストール後：

# 作業用フォルダを作って移動
mkdir qwen3-tts && cd qwen3-tts

# 仮想環境を作成
python -m venv .venv

# 有効化（Windows）
.venv\Scripts\activate

# 有効化（Mac/Linux）
# source .venv/bin/activate

# pipを最新化
python -m pip install -U pip

アクティベートするとプロンプトの先頭に (qwen3-tts) または (.venv) が表示されます。

2-2. PyTorchをインストールする

GPU（NVIDIA）を使う場合は、自分のCUDAバージョンに合ったPyTorchを先に入れます。CUDAバージョンは公式サイト（https://pytorch.org/get-started/locally/）で確認し、表示された最新の推奨インストールコマンドを使ってください。

# 例：CUDA 12.4環境の場合
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

# Mac（Apple Silicon）またはCPUのみで動かす場合
# pip install torch torchvision torchaudio

※CUDAのバージョンに合わせて cu124 の部分（例：cu121、cu128 など）を変更してください。

RTX 50シリーズ（Blackwell / sm_120）をご利用の方は、現時点ではnightlyビルドが必要です：

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

2-3. Qwen3-TTS本体をインストールする（コア手順）

公式推奨の最短ルートは、PyPIから1行でのインストールです。

pip install -U qwen-tts

これだけで、transformers==4.57.3、accelerate==1.12.0、gradio、librosa、soundfile、sox、onnxruntime、einops などの依存パッケージがすべて入ります。

筆者検証ログ：Python 3.12 + venv環境（Linux）で実行したところ、上記コマンド1行で無事 qwen-tts 0.1.1 のインストールが完了しました。所要時間は回線速度やマシン性能によって変わります。

（任意）FlashAttention 2のインストール

公式ではVRAM削減・高速化のため、FlashAttention 2が推奨されています。

pip install -U flash-attn --no-build-isolation

ただし、FlashAttention 2は以下の理由でインストール困難なケースが多いです：

Windowsでのビルドは失敗しやすい
Macではそもそも使えない
RAMが96GB未満だとビルドが重い（その場合は MAX_JOBS=4 pip install -U flash-attn --no-build-isolation を使用）

FlashAttentionが入っていない場合、**起動時に「Warning: flash-attn is not installed」と警告が出ますが、自動的にPyTorch標準実装にフォールバックして動作します。**入れなくても動くので、インストール困難なら無理をせずスキップしましょう。

2-4. デモ（WebUI）を起動する

インストール完了後、qwen-tts-demo コマンドでWebUIを起動できます。

起動前に知っておくべきデフォルト設定

筆者検証で判明した、qwen-tts-demo コマンドのデフォルト値は以下の通りです：

オプション	デフォルト値	備考
`--ip`	`0.0.0.0`	LAN内の他端末からもアクセス可能
`--port`	`8000`	別のアプリが使っている場合は変更
`--device`	`cuda:0`	GPUがない環境では `--device cpu` を明示指定必須
`--dtype`	`bfloat16`	Macの場合はBaseモデル利用時のみ `--dtype float32` を指定
`--flash-attn`	有効	FlashAttention未インストール時は自動でフォールバック（警告のみ）

基本の起動コマンド（NVIDIA GPU環境）

※FlashAttention 2をインストールしていない場合でも、Qwen3-TTSは自動的にPyTorch標準実装にフォールバックして動作します。起動時に警告メッセージは出ますが、動作には影響ありません。以下の例では念のため --no-flash-attn オプションを付けていますが、省略しても問題ありません。

プリセット話者で動作確認（CustomVoice）：

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000 --no-flash-attn

自分の声をクローン（Base）：

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8000 --no-flash-attn

自然言語で声質を指定（VoiceDesign）：

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --port 8000 --no-flash-attn

Mac（Apple Silicon）の場合

※筆者はLinux環境での検証しかしていないため、以下はMac環境で動作検証した他の記事からの情報です。環境によって挙動が変わる可能性があります。

CustomVoice / VoiceDesign：float16で動作する報告があります
Base（ボイスクローン）：--dtype float16 だと probability tensor contains nan エラーが発生するため、--dtype float32 を指定する必要があるとの報告があります

# CustomVoice / VoiceDesign
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --device mps --dtype float16 --no-flash-attn --port 8000

# Base（float32指定が必要との報告あり）
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --device mps --dtype float32 --no-flash-attn --port 8000

参考記事：

「Qwen3-TTS: Apple Silicon M3で試したら日本語品質に驚いた」（blog.tumf.dev）
「Qwen3-TTSに自分の声でしゃべらせる」（きしだのHatena）

CPUのみで動かす場合（低スペック環境）

GPU非搭載マシンでも動作させること自体は可能との報告があります。その場合は軽量な0.6Bモデルの使用を推奨します。ただしGPU環境と比べて生成速度は遅くなります。

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice --device cpu --dtype float32 --no-flash-attn --port 8000

起動時の警告メッセージは無視してOK

起動すると、以下のような警告がターミナルに出ます。これらは全て動作に影響しないので無視してください。

Warning: flash-attn is not installed. Will only run the manual PyTorch version. ...
/bin/sh: 1: sox: not found
SoX could not be found!

FlashAttention・SoXが入っていないだけで、Qwen3-TTS本体の音声生成機能には影響しません。

起動成功のサイン

問題なく起動すると、下記のメッセージが表示されます。

* Running on local URL: http://0.0.0.0:8000

ブラウザで http://127.0.0.1:8000 を開けばWebUIが使えます。初回起動時はモデル（1.7Bで約4.5GB、0.6Bで約2.5GB）のダウンロードが走るため、回線速度とHugging Faceの接続状況によって数分〜数十分かかります。

2-5. 実際に音声を生成してみる

CustomVoice（プリセット話者）の場合

話者リストから「Ono_Anna」を選択（日本語ネイティブ）
テキスト入力欄に読ませたい日本語を入力
「Generate」ボタンを押す

数十秒で自然な日本語音声が生成されます。

Base（ボイスクローン）の場合

「Reference Audio」に3〜5秒の参照音声wavファイルをドラッグ＆ドロップ
「Reference Text」に、その参照音声で話している内容（書き起こし）を入力
読ませたいテキストを入力して「Generate」

参照音声には、多くの音素（カ・サ・タ・ハ・パ行＋長音・促音・撥音）が含まれているほどクローン精度が上がる、との報告があります（参考：きしだなおき氏のブログ）。具体例として「今日はとても晴れた日で、風は少し冷たく感じます。」のような一文が推奨されています。

3. モデルのダウンロードに失敗する場合（事前ダウンロード方法）

初回起動時のモデル自動ダウンロードは、Hugging Faceへの接続状況によって失敗することがあります。筆者検証環境でも HTTPError: 403 Forbidden エラーが発生しました。

その場合は、huggingface-cli で事前にローカル保存しておく のが確実です。

# huggingface_hub CLIツールをインストール
pip install -U "huggingface_hub[cli]"

# 使いたいモデルをローカルにダウンロード（例：1.7B-CustomVoice）
huggingface-cli download Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
  --local-dir ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice

ダウンロード後は、モデル名の代わりにローカルパスを指定して起動できます。

qwen-tts-demo ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000

中国国内からのアクセスや、Hugging Faceが繋がりにくい環境の方は、ModelScope経由の方が早い場合があります：

pip install -U modelscope
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
  --local_dir ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice

4. 次回以降サクッと起動するためのバッチファイル（Windows）

毎回長いコマンドを打つのは面倒なので、バッチファイルを作っておくと便利です。

Qwen3-TTS作業フォルダ直下に run-customvoice.bat として保存：

@echo off
chcp 65001 >nul
call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000 --no-flash-attn
pause

chcp 65001 は文字コードをUTF-8にする命令で、日本語Windows環境での文字化けを防ぎます。ダブルクリックで起動できるようになります。

5. モデルの使い分けガイド（応用セクション）

Qwen3-TTSには3系統・計5モデルが公開されています。目的に合ったモデルを選びましょう。

モデル	ファイルサイズ	特徴	推奨用途	VRAM目安
`1.7B-CustomVoice`	4.52GB	プリセット9話者＋感情・口調指示	動画ナレーション／解説	10〜12GB
`1.7B-Base`	4.54GB	3秒でボイスクローン	自分・他人の声の再現	10〜12GB
`1.7B-VoiceDesign`	4.52GB	自然言語で声質を自由設計	オリジナルキャラボイス作成	10〜12GB
`0.6B-CustomVoice`	2.50GB	軽量版プリセット	低VRAM環境／ストリーミング	4〜6GB
`0.6B-Base`	2.52GB	軽量版クローン	低VRAM環境／高速化重視	4〜6GB

※ファイルサイズはHugging Faceのリポジトリ実測値

VRAMが足りない場合：モデル名の 1.7B を 0.6B に置き換えれば軽量版で動作します。

応用テク：VoiceDesign → Base の合わせ技

「VoiceDesignで作ったオリジナル声」を「Baseのクローン参照音声」として再利用すれば、肖像権・著作権の心配のない完全オリジナルボイスを量産できます。キャラクターに一貫した声を持たせたいゲーム制作・YouTube制作などにぴったりです。

6. よくあるエラーと対処法

エラー内容	原因	対処法
`[Errno 28] No space left on device`	ディスク容量不足	空き15GB以上を確保してから再実行。pipキャッシュ（`/home/ユーザー名/.cache/pip`）も削除
`Warning: flash-attn is not installed`	FlashAttention未インストール	無視してOK（PyTorch標準実装で動作する）
`SoX could not be found`	SoX未インストール	警告のみで動作に影響なし。無視してOK
`HTTPError: 403 Forbidden` (Hugging Face)	モデル自動DLの接続失敗	`huggingface-cli download` で事前ダウンロードしてからローカルパス指定で起動
`CUDA out of memory`	VRAM不足	モデルを `0.6B` 系に切り替える／他アプリを閉じる
`probability tensor contains nan` (Mac)	MacのBaseモデルでfloat16指定時	起動時に `--dtype float32` を明示指定
`UnicodeEncodeError: 'cp932'`	Windows日本語環境の文字コード	バッチファイル冒頭に `chcp 65001 >nul` を追加
`RuntimeError: Torch not compiled with CUDA enabled`	CPU版PyTorchなのに `--device cuda` 指定	`--device cpu` に変更するか、CUDA版PyTorchを入れ直す

7. 利用前に知っておきたい注意点

Qwen3-TTSはApache 2.0ライセンスで商用利用可能ですが、ボイスクローン機能の利用にはモラル面の注意が必要です。

第三者の声を無断でクローン・公開することは、肖像権・プライバシー権の侵害にあたる可能性があります
参照音声には、必ず本人の同意を得たものを使用しましょう
AI生成音声をコンテンツ公開する際は「AI生成である」と明示するのが誠実な対応です

便利な技術ほど、使い方には責任が伴います。安全・倫理的に活用していきましょう！

8. まとめ

この記事では、公式推奨の最短手順でQwen3-TTSをローカルPCに導入する方法を、公式ドキュメントおよび実動作検証を踏まえて解説しました。pip install -U qwen-tts の1行で本体が入り、qwen-tts-demo コマンドでWebUIを起動するだけで、日本語を含む10言語の音声合成が自分のPC上で動かせます。完全無料・商用利用OKのオープンソースなので、動画制作・ポッドキャスト・eラーニング教材の制作など、幅広い用途で活躍してくれるはずです。

導入時に躓きやすいのは ディスク容量（15GB以上推奨） と FlashAttention/SoXの警告（無視でOK） の2点。この2つだけ押さえておけば、スムーズに動き出すはずです。