Kokoro-FastAPI 導入ガイド

Kokoro-FastAPI とは

Kokoro-FastAPIは、高品質かつ軽量なTTS（音声合成）モデル「Kokoro」を、使いやすいWeb APIとして提供するプロジェクトです。
単にテキストを読み上げるだけでなく、Markdownライクな記法を用いることで、発音やリズムを細かく制御できる点が大きな特徴です。

主な特徴と活用例

特に以下の制御タグを利用することで、人間らしい自然な発話や、正確な専門用語の読み上げを実現できます。

発音のカスタマイズ: [単語](/発音記号/) の形式で、IPA（国際音声記号）を用いた厳密な発音指定が可能です。
ポーズ（間）の制御: [pause:秒数] タグを挿入することで、任意の長さの無音区間を作れます。
※Kokoro-TTS -a Hugging Face Space by hexgardで提供されているベースモデルのKokoro-82MのWeb UIはIPA形式の発音記号に対応していますが、ポーズの制御に対応していないため、Kokoro-FastAPI側で独自にポーズ制御に対応している可能性があります。

制御タグを含んだテキスト例:

The gNodeB utilized [MIMO](/maɪmoʊ/) techniques to achieve high throughput for enhanced mobile broadband services. [pause:0.5s] A 5G network allows operators to optimize a [CORESET](/ˈkɔːɹˌsɛt/) configuration based on available bandwidth and traffic loads.

🔊 サンプル再生:

自動化ワークフローへの応用（n8n連携）

このAPIは n8n などのノーコードツールやAIエージェントと組み合わせることで真価を発揮します。
例えば、AI Agentノードで以下のような処理を自動化し、高度な音声生成パイプラインを構築可能です。

辞書ベースの自動補正: 事前に定義した辞書に基づき、専門用語（例: MIMO → [maɪmoʊ]）の発音指定を自動挿入する。
文脈に応じた演出: テキストの文脈（Context）をAIが解析し、適切なタイミングで「pause」を挿入する。
n8n 音声生成パイプラインの例:

Kokoro-FastAPI セットアップガイド

このガイドでは、軽量で高品質な日本語対応TTS（Text-to-Speech）モデル「Kokoro」を、Web APIとして利用できる「Kokoro-FastAPI」をWindows 11環境で動かす手順を解説します。

1. 事前準備（Prerequisites）

Windows 11 Homeなどの標準環境には、Linuxを動かすためのツールが含まれていません。まずは以下の手順で土台を整えてください。

① 仮想化の有効化（BIOS/UEFI）

WSL2やDockerを動かすために必須です。

PCを再起動し、BIOS/UEFI設定画面に入ります（通常、起動時に Del, F2, F10 などを連打）。
CPU設定にある 「Virtualization」、「SVM Mode」 (AMD)、または 「Intel VT-x」 (Intel) を「Enabled（有効）」にします。
保存して再起動します。

② WSL2のインストール

Windows上でLinuxを動かす仕組みです。

スタートボタンを右クリックし、「ターミナル（管理者）」または「PowerShell（管理者）」を開きます。
以下のコマンドを入力してEnterキーを押します。

wsl --install

インストール完了後、指示に従ってPCを再起動します。
再起動後、自動的に「Ubuntu」のセットアップ画面が開くので、ユーザー名とパスワードを設定してください。

③ NVIDIAドライバーのインストール（GPUを使う場合のみ）

NVIDIA製GPU（GeForceなど）を使用して高速化したい場合のみ必要です。

NVIDIA公式サイトから最新のドライバーをダウンロードしてインストールしてください。
※DockerでGPUを使うために特別な設定は不要ですが、ドライバーは最新（バージョン510以上推奨）にしておくことでトラブルを防げます。

④ Docker Desktopのインストール

コンテナ（アプリの実行環境）を管理するツールです。

Docker公式サイトからインストーラーをダウンロードし、実行します。
インストール中、「Use WSL 2 instead of Hyper-V」にチェックが入っていることを確認してください（通常はデフォルトでオン）。
インストール完了後、Docker Desktopを起動し、エラーが出ないことを確認します。
設定確認: Docker Desktopの設定（歯車アイコン） > Resources > WSL Integration で、UbuntuのスイッチがONになっているか確認してください。

⑤ Gitのインストール（オプション 2を選ぶ場合のみ）

ソースコードをダウンロードするために必要です。

git-scm.comから「Git for Windows」をダウンロードし、デフォルト設定のままインストールしてください。

セットアップ方法の選択（Option 1 vs Option 2）

ご自身の目的に合わせて、以下のどちらかを選んでください。

特徴	Option 1: 既製イメージを使用（推奨）	Option 2: ソースからビルド
難易度	★☆☆（簡単）	★★☆（少し手間）
こんな人に	とりあえず使ってみたい、手軽に済ませたい人。	コードを改造したい、開発者向け。
手順	コマンド1発で起動します。	Gitでダウンロードし、自分のPCで構築します。
データの永続化	コンテナを消すとモデルデータも消えます（再DLが必要）。	設定ファイルでデータを保持しやすい構成です。

詳細手順：Option 1（既製イメージですぐに開始）

一番手軽な方法です。コマンドプロンプトまたはPowerShellで実行します。

インストールと実行（Run）

【CPUのみで動かす場合】

docker run -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-cpu:latest

【NVIDIA GPUを使う場合】

docker run --gpus all -p 8880:8880 ghcr.io/remsky/kokoro-fastapi-gpu:latest

初回実行時: 自動的にイメージ（数GB）のダウンロードが始まります。
起動確認: ログが流れ、サーバーが立ち上がったら、ブラウザで http://localhost:8880 にアクセスしてください。
終了: ターミナルで Ctrl + C を押すと停止します。
Web UI:

アップデート手順（Update）

新しい機能が追加された場合、以下の手順で最新版に更新します。

最新イメージを取得:

# CPUの場合
docker pull ghcr.io/remsky/kokoro-fastapi-cpu:latest

# GPUの場合
docker pull ghcr.io/remsky/kokoro-fastapi-gpu:latest

再実行: 上記の「インストールと実行」と同じ docker run コマンドを実行すれば、自動的に新しいバージョンで起動します。

詳細手順：Option 2（ソースからビルド）

Gitを使ってコードを手元に持ってくる方法です。

インストール（Installation）

リポジトリのクローン（ダウンロード）:

git clone https://github.com/remsky/Kokoro-FastAPI.git
cd Kokoro-FastAPI

ディレクトリの移動: 使用するハードウェアに合わせて移動します。
- CPUの場合: cd docker/cpu
- GPUの場合: cd docker/gpu

実行（Run）

以下のコマンドでビルドと起動を行います。

docker compose up --build

初回はビルドとモデルのダウンロードに時間がかかります。
起動したら http://localhost:8880 にアクセス可能です。
バックグラウンド実行: ログを表示させずに裏で動かしたい場合は docker compose up -d と入力します。

アップデート手順（Update）

最新コードの取得: プロジェクトのルートフォルダ（Kokoro-FastAPI）に戻り、以下を実行します。

git pull origin main

再ビルドと起動: 再度 docker/cpu または docker/gpu フォルダに移動し、以下を実行します。

docker compose up --build

--build を付けることで、最新のコード内容でコンテナが作り直されます。

Kokoro TTS API 動作確認と使い方のヒント

APIドキュメント:
起動後、ブラウザで http://localhost:8880/docs にアクセスすると、Swagger UIが表示されます。ここで「Try it out」ボタンを使って、実際に音声を生成するテストが可能です。
Swagger UI:
トラブルシューティング:
- モデルのダウンロード:
  コンテナ起動時にモデルファイルが見つからない場合、自動的にダウンロードが始まります。これには数分かかる場合があります。
- GPU版でエラーが出る場合は、まず nvidia-smi コマンドをWSL上のUbuntuで実行し、GPUが認識されているか確認してください。
- Port already allocated というエラーが出たら、他のアプリがポート8880を使っていないか確認するか、コマンドの -p 8880:8880 の左側の数字（例: -p 9000:8880）を変更してください。

n8n 連携設定例 (HTTP Request Node)

n8nからKokoro-FastAPIを呼び出す場合の設定例です。
Docker環境同士で通信する場合、URLのホスト名は host.docker.internal を使用することが一般的です。

Method: POST
URL: http://host.docker.internal:8880/v1/audio/speech (※ポート番号8880は、本ガイドの手順に基づいています。設定を変更している場合は適宜読み替えてください)
Authentication: None
Body Content Type: Raw (application/json)

JSON Body:

{
  "model": "kokoro",
  "input": "{{ $json.output }}",
  "voice": "af_heart",
  "response_format": "mp3",
  "download_format": "mp3",
  "speed": 1,
  "stream": true,
  "return_download_link": false,
  "lang_code": "a",
  "volume_multiplier": 1,
  "normalization_options": {
    "normalize": true,
    "unit_normalization": false,
    "url_normalization": true,
    "email_normalization": true,
    "optional_pluralization_normalization": true,
    "phone_normalization": true,
    "replace_remaining_symbols": true
  }
}

Reference: n8n HTTP Request Node configuration:

Kokoro-FastAPI Setup Guide

目次:

Kokoro-FastAPI とは

主な特徴と活用例

自動化ワークフローへの応用（n8n連携）

Kokoro-FastAPI セットアップガイド

1. 事前準備（Prerequisites）

① 仮想化の有効化（BIOS/UEFI）

② WSL2のインストール

③ NVIDIAドライバーのインストール（GPUを使う場合のみ）

④ Docker Desktopのインストール

⑤ Gitのインストール（オプション 2を選ぶ場合のみ）

セットアップ方法の選択（Option 1 vs Option 2）

詳細手順：Option 1（既製イメージですぐに開始）

インストールと実行（Run）

アップデート手順（Update）

詳細手順：Option 2（ソースからビルド）

インストール（Installation）

実行（Run）

アップデート手順（Update）

Kokoro TTS API 動作確認と使い方のヒント

n8n 連携設定例 (HTTP Request Node)