【日本語対応】SNSで話題!3秒でボイスクローンできる「Qwen3-TTS」のインストール方法

SNSで話題!3秒でボイスクローンできる「Qwen3-TTS」のインストール方法【日本語対応】

【導入文】

AIの世界でとんでもない音声モデルがオープンソース公開されたのをご存じですか?2026年1月、中国アリババのQwenチームが公開した「Qwen3-TTS」は、わずか3秒の音声サンプルから声質をそっくり再現できる音声生成AI。しかも完全無料・商用利用OK・日本語を含む10言語対応と、三拍子そろった最強クラスのモデルです。「難しそう…」と感じるかもしれませんが、実はインストールは公式ツールを使えばコマンド1行。この記事では、公式ドキュメントと実際の動作検証+複数の検証記事の情報をもとに、ローカル環境にセットアップする手順をまとめました。

【X埋め込み(実在確認済み)】

※ WordPressの「カスタムHTML」ブロックに、X投稿の埋め込みコードを貼り付け。

推奨投稿:きしだなおき氏(@kis)のQwen3-TTS日本語動作検証ツイート

きしだ氏のブログ「Qwen3-TTSに自分の声でしゃべらせる」内に、実音声付きツイートが複数埋め込まれています。記事内から該当ツイートURLを取得して埋め込むのが最も確実です。

  • ブログ記事(参考):https://nowokay.hatenablog.com/entry/2026/01/23/145128
  • 埋め込み用X投稿(ブログ内より実在確認済):
    • 「おぉ、Qwen-TTS、ちゃんと日本語が話せる」(@kis, 2026/1/22)
    • 「Qwen-TTS Demo、Baseモデルを読み込ませると〜」(@kis, 2026/1/23)
    • 「リファレンスの音声になるべく多くの音素が入るようにして〜」(@kis, 2026/1/24)

推奨:上記の3つの中から、実音声付きの動画ツイートを選んで埋め込み。インパクト重視なら「ちゃんと日本語が話せる」ツイートが第一候補。

【補足セクション(h2):Qwen3-TTSってどんなツール?】

Qwen3-TTSは、アリババ(Alibaba Cloud)のQwenチームが2026年1月22日に公開した音声合成AIです。Apache 2.0ライセンスで提供されており、完全無料かつ商用利用もOK。対応言語は日本語・英語・中国語・韓国語・ドイツ語・フランス語・ロシア語・ポルトガル語・スペイン語・イタリア語の10言語です。

モデルは用途別に3系統・計5モデルが公開されています。

  • Base:3秒の参照音声から声をクローンする用途向け
  • CustomVoice:9種類のプリセット話者(日本語ネイティブの「Ono_Anna」あり)+感情・口調の指示制御
  • VoiceDesign:自然言語で「明るく元気な若い女性の声」のように声質を指定して生成

各モデルに 1.7B(高品質)0.6B(軽量) の2サイズ(VoiceDesignのみ1.7B)があるので、自分のPCスペックに合わせて選べます。

CustomVoiceの9話者(プリセット):Vivian、Serena、Uncle_Fu、Dylan、Eric(中国語)/Ryan、Aiden(英語)/Ono_Anna(日本語)/Sohee(韓国語)。日本語ネイティブはOno_Annaのみですが、他の話者でも日本語は話せます(若干の訛りあり)。

1. 事前に必須:動作環境とディスク容量

インストールの前に、以下の環境要件を満たしているか確認してください。特に ディスク容量は盲点になりがち なので要注意です。

1-1. 動作推奨環境

  • OS:Windows 11 / Ubuntu 22.04以降 / macOS(Apple Silicon)※他記事ではUbuntu 22.04・24.04での動作報告あり
  • Python:3.12(公式推奨)※3.10以上で動作報告あり
  • GPU:NVIDIA製 VRAM 8GB以上推奨(1.7Bモデル利用時は12GB以上あると安心)
  • Mac(Apple Silicon):MPSで動作する報告があります。ただしBaseモデル利用時はfloat32必須のため、NVIDIA GPU環境より速度は遅くなります
  • CPUのみ:動作可能だが1.7Bは極端に遅いため 0.6Bモデル推奨

1-2. 必須:ディスク空き容量

最低でも15GBの空き容量を確保してください。 筆者が実際にインストールして実測した結果です。

項目容量
Python仮想環境(qwen-tts+torch+全依存)約5〜6GB
pipキャッシュ(インストール中の一時ファイル)約2〜3GB
モデル本体(1.7Bシリーズ)約4.5GB/モデル
モデル本体(0.6Bシリーズ)約2.5GB/モデル
合計(1.7Bモデル利用時)約12〜15GB

特にpipインストール中に [Errno 28] No space left on device エラーが出る例が報告されています。筆者検証環境(Linux)でも、空き10GB程度では依存パッケージのインストール中に容量不足となりました。Cドライブ(システムドライブ)の空きを最低15GB空けてから作業することを強く推奨します。

2. インストール手順(公式推奨の最短ルート)

公式ドキュメントで案内されているのは、たった3ステップ。筆者環境(Linux)ではこの手順で本体インストールまで動作確認できました。

2-1. Python 3.12環境を用意する

condaを使う方法と、標準のvenvを使う方法の2パターンを紹介します。どちらでもOKです。

【パターンA】condaを使う場合(公式推奨)

conda create -n qwen3-tts python=3.12 -y
conda activate qwen3-tts

【パターンB】venvを使う場合(condaを入れたくない方向け)

Python 3.12を公式サイト(https://www.python.org/downloads/)からインストール後:

# 作業用フォルダを作って移動
mkdir qwen3-tts && cd qwen3-tts

# 仮想環境を作成
python -m venv .venv

# 有効化(Windows)
.venv\Scripts\activate

# 有効化(Mac/Linux)
# source .venv/bin/activate

# pipを最新化
python -m pip install -U pip

アクティベートするとプロンプトの先頭に (qwen3-tts) または (.venv) が表示されます。

2-2. PyTorchをインストールする

GPU(NVIDIA)を使う場合は、自分のCUDAバージョンに合ったPyTorchを先に入れます。CUDAバージョンは公式サイト(https://pytorch.org/get-started/locally/)で確認し、表示された最新の推奨インストールコマンドを使ってください。

# 例:CUDA 12.4環境の場合
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu124

# Mac(Apple Silicon)またはCPUのみで動かす場合
# pip install torch torchvision torchaudio

※CUDAのバージョンに合わせて cu124 の部分(例:cu121cu128 など)を変更してください。

RTX 50シリーズ(Blackwell / sm_120)をご利用の方は、現時点ではnightlyビルドが必要です:

pip install --pre torch torchvision torchaudio --index-url https://download.pytorch.org/whl/nightly/cu128

2-3. Qwen3-TTS本体をインストールする(コア手順)

公式推奨の最短ルートは、PyPIから1行でのインストールです。

pip install -U qwen-tts

これだけで、transformers==4.57.3accelerate==1.12.0gradiolibrosasoundfilesoxonnxruntimeeinops などの依存パッケージがすべて入ります。

筆者検証ログ:Python 3.12 + venv環境(Linux)で実行したところ、上記コマンド1行で無事 qwen-tts 0.1.1 のインストールが完了しました。所要時間は回線速度やマシン性能によって変わります。

(任意)FlashAttention 2のインストール

公式ではVRAM削減・高速化のため、FlashAttention 2が推奨されています。

pip install -U flash-attn --no-build-isolation

ただし、FlashAttention 2は以下の理由でインストール困難なケースが多いです:

  • Windowsでのビルドは失敗しやすい
  • Macではそもそも使えない
  • RAMが96GB未満だとビルドが重い(その場合は MAX_JOBS=4 pip install -U flash-attn --no-build-isolation を使用)

FlashAttentionが入っていない場合、**起動時に「Warning: flash-attn is not installed」と警告が出ますが、自動的にPyTorch標準実装にフォールバックして動作します。**入れなくても動くので、インストール困難なら無理をせずスキップしましょう。

2-4. デモ(WebUI)を起動する

インストール完了後、qwen-tts-demo コマンドでWebUIを起動できます。

起動前に知っておくべきデフォルト設定

筆者検証で判明した、qwen-tts-demo コマンドのデフォルト値は以下の通りです:

オプションデフォルト値備考
--ip0.0.0.0LAN内の他端末からもアクセス可能
--port8000別のアプリが使っている場合は変更
--devicecuda:0GPUがない環境では --device cpu を明示指定必須
--dtypebfloat16Macの場合はBaseモデル利用時のみ --dtype float32 を指定
--flash-attn有効FlashAttention未インストール時は自動でフォールバック(警告のみ)

基本の起動コマンド(NVIDIA GPU環境)

※FlashAttention 2をインストールしていない場合でも、Qwen3-TTSは自動的にPyTorch標準実装にフォールバックして動作します。起動時に警告メッセージは出ますが、動作には影響ありません。以下の例では念のため --no-flash-attn オプションを付けていますが、省略しても問題ありません。

プリセット話者で動作確認(CustomVoice):

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000 --no-flash-attn

自分の声をクローン(Base):

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --port 8000 --no-flash-attn

自然言語で声質を指定(VoiceDesign):

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-VoiceDesign --port 8000 --no-flash-attn

Mac(Apple Silicon)の場合

※筆者はLinux環境での検証しかしていないため、以下はMac環境で動作検証した他の記事からの情報です。環境によって挙動が変わる可能性があります。

  • CustomVoice / VoiceDesign:float16で動作する報告があります
  • Base(ボイスクローン)--dtype float16 だと probability tensor contains nan エラーが発生するため、--dtype float32 を指定する必要があるとの報告があります
# CustomVoice / VoiceDesign
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --device mps --dtype float16 --no-flash-attn --port 8000

# Base(float32指定が必要との報告あり)
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-Base --device mps --dtype float32 --no-flash-attn --port 8000

参考記事:

  • 「Qwen3-TTS: Apple Silicon M3で試したら日本語品質に驚いた」(blog.tumf.dev)
  • 「Qwen3-TTSに自分の声でしゃべらせる」(きしだのHatena)

CPUのみで動かす場合(低スペック環境)

GPU非搭載マシンでも動作させること自体は可能との報告があります。その場合は軽量な0.6Bモデルの使用を推奨します。ただしGPU環境と比べて生成速度は遅くなります。

qwen-tts-demo Qwen/Qwen3-TTS-12Hz-0.6B-CustomVoice --device cpu --dtype float32 --no-flash-attn --port 8000

起動時の警告メッセージは無視してOK

起動すると、以下のような警告がターミナルに出ます。これらは全て動作に影響しないので無視してください。

Warning: flash-attn is not installed. Will only run the manual PyTorch version. ...
/bin/sh: 1: sox: not found
SoX could not be found!

FlashAttention・SoXが入っていないだけで、Qwen3-TTS本体の音声生成機能には影響しません。

起動成功のサイン

問題なく起動すると、下記のメッセージが表示されます。

* Running on local URL: http://0.0.0.0:8000

ブラウザで http://127.0.0.1:8000 を開けばWebUIが使えます。初回起動時はモデル(1.7Bで約4.5GB、0.6Bで約2.5GB)のダウンロードが走るため、回線速度とHugging Faceの接続状況によって数分〜数十分かかります。

2-5. 実際に音声を生成してみる

CustomVoice(プリセット話者)の場合

  1. 話者リストから「Ono_Anna」を選択(日本語ネイティブ)
  2. テキスト入力欄に読ませたい日本語を入力
  3. 「Generate」ボタンを押す

数十秒で自然な日本語音声が生成されます。

Base(ボイスクローン)の場合

  1. 「Reference Audio」に3〜5秒の参照音声wavファイルをドラッグ&ドロップ
  2. 「Reference Text」に、その参照音声で話している内容(書き起こし)を入力
  3. 読ませたいテキストを入力して「Generate」

参照音声には、多くの音素(カ・サ・タ・ハ・パ行+長音・促音・撥音)が含まれているほどクローン精度が上がる、との報告があります(参考:きしだなおき氏のブログ)。具体例として「今日はとても晴れた日で、風は少し冷たく感じます。」のような一文が推奨されています。

3. モデルのダウンロードに失敗する場合(事前ダウンロード方法)

初回起動時のモデル自動ダウンロードは、Hugging Faceへの接続状況によって失敗することがあります。筆者検証環境でも HTTPError: 403 Forbidden エラーが発生しました。

その場合は、huggingface-cli で事前にローカル保存しておく のが確実です。

# huggingface_hub CLIツールをインストール
pip install -U "huggingface_hub[cli]"

# 使いたいモデルをローカルにダウンロード(例:1.7B-CustomVoice)
huggingface-cli download Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
  --local-dir ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice

ダウンロード後は、モデル名の代わりにローカルパスを指定して起動できます。

qwen-tts-demo ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000

中国国内からのアクセスや、Hugging Faceが繋がりにくい環境の方は、ModelScope経由の方が早い場合があります:

pip install -U modelscope
modelscope download --model Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice \
  --local_dir ./models/Qwen3-TTS-12Hz-1.7B-CustomVoice

4. 次回以降サクッと起動するためのバッチファイル(Windows)

毎回長いコマンドを打つのは面倒なので、バッチファイルを作っておくと便利です。

Qwen3-TTS作業フォルダ直下に run-customvoice.bat として保存:

@echo off
chcp 65001 >nul
call .venv\Scripts\activate.bat
qwen-tts-demo Qwen/Qwen3-TTS-12Hz-1.7B-CustomVoice --port 8000 --no-flash-attn
pause

chcp 65001 は文字コードをUTF-8にする命令で、日本語Windows環境での文字化けを防ぎます。ダブルクリックで起動できるようになります。

5. モデルの使い分けガイド(応用セクション)

Qwen3-TTSには3系統・計5モデルが公開されています。目的に合ったモデルを選びましょう。

モデルファイルサイズ特徴推奨用途VRAM目安
1.7B-CustomVoice4.52GBプリセット9話者+感情・口調指示動画ナレーション/解説10〜12GB
1.7B-Base4.54GB3秒でボイスクローン自分・他人の声の再現10〜12GB
1.7B-VoiceDesign4.52GB自然言語で声質を自由設計オリジナルキャラボイス作成10〜12GB
0.6B-CustomVoice2.50GB軽量版プリセット低VRAM環境/ストリーミング4〜6GB
0.6B-Base2.52GB軽量版クローン低VRAM環境/高速化重視4〜6GB

※ファイルサイズはHugging Faceのリポジトリ実測値

VRAMが足りない場合:モデル名の 1.7B0.6B に置き換えれば軽量版で動作します。

応用テク:VoiceDesign → Base の合わせ技

「VoiceDesignで作ったオリジナル声」を「Baseのクローン参照音声」として再利用すれば、肖像権・著作権の心配のない完全オリジナルボイスを量産できます。キャラクターに一貫した声を持たせたいゲーム制作・YouTube制作などにぴったりです。

6. よくあるエラーと対処法

エラー内容原因対処法
[Errno 28] No space left on deviceディスク容量不足空き15GB以上を確保してから再実行。pipキャッシュ(/home/ユーザー名/.cache/pip)も削除
Warning: flash-attn is not installedFlashAttention未インストール無視してOK(PyTorch標準実装で動作する)
SoX could not be foundSoX未インストール警告のみで動作に影響なし。無視してOK
HTTPError: 403 Forbidden (Hugging Face)モデル自動DLの接続失敗huggingface-cli download で事前ダウンロードしてからローカルパス指定で起動
CUDA out of memoryVRAM不足モデルを 0.6B 系に切り替える/他アプリを閉じる
probability tensor contains nan (Mac)MacのBaseモデルでfloat16指定時起動時に --dtype float32 を明示指定
UnicodeEncodeError: 'cp932'Windows日本語環境の文字コードバッチファイル冒頭に chcp 65001 >nul を追加
RuntimeError: Torch not compiled with CUDA enabledCPU版PyTorchなのに --device cuda 指定--device cpu に変更するか、CUDA版PyTorchを入れ直す

7. 利用前に知っておきたい注意点

Qwen3-TTSはApache 2.0ライセンスで商用利用可能ですが、ボイスクローン機能の利用にはモラル面の注意が必要です。

  • 第三者の声を無断でクローン・公開することは、肖像権・プライバシー権の侵害にあたる可能性があります
  • 参照音声には、必ず本人の同意を得たものを使用しましょう
  • AI生成音声をコンテンツ公開する際は「AI生成である」と明示するのが誠実な対応です

便利な技術ほど、使い方には責任が伴います。安全・倫理的に活用していきましょう!

8. まとめ

この記事では、公式推奨の最短手順でQwen3-TTSをローカルPCに導入する方法を、公式ドキュメントおよび実動作検証を踏まえて解説しました。pip install -U qwen-tts の1行で本体が入り、qwen-tts-demo コマンドでWebUIを起動するだけで、日本語を含む10言語の音声合成が自分のPC上で動かせます。完全無料・商用利用OKのオープンソースなので、動画制作・ポッドキャスト・eラーニング教材の制作など、幅広い用途で活躍してくれるはずです。

導入時に躓きやすいのは ディスク容量(15GB以上推奨)FlashAttention/SoXの警告(無視でOK) の2点。この2つだけ押さえておけば、スムーズに動き出すはずです。

【検証済み事項(信頼性アピール用メモ/記事には非掲載でOK)】

この記事の手順は、実際に以下の環境で動作検証を行っています:

  • 環境:Linux (Ubuntu系) / Python 3.12.3 / venv
  • 検証日:2026年4月
  • 検証内容pip install -U qwen-ttsqwen-tts-demo --help、依存パッケージの実測、ディスク容量実測
  • 確認済みバージョン:qwen-tts 0.1.1、transformers 4.57.3、torch 2.11.0、accelerate 1.12.0

未検証事項(読者環境で変わる可能性あり)

  • Windows実機での動作(本記事のWindows固有記述は他の検証記事を参考にしています)
  • Mac Apple Siliconでの動作(同上)
  • 実際のモデル読み込み・推論(ネットワーク制限のため筆者環境ではモデルDLが403エラーで不可でした)

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です