Conqui TTS 入门指南：从零搭建高可用文本转语音系统

变量 v1vvv

290人浏览 · 2026-01-31 01:08:58

变量 v1vvv · 2026-01-31 01:08:58 发布

背景：为什么又造一个 TTS 轮子？

做语音通知、智能客服或者有声书，绕不开“把字读出来”。自建 TTS 往往卡在三点：

延迟高：一次请求动辄 1-2 s，并发一上来就雪崩。
音质差：开源模型默认 22 kHz，放到手机外放全是齿音。
多语言：中文+方言+英文混合时，AWS Polly 直接“罢工”，Google TTS 按字符计费秒变“销金窟”。

Conqui TTS 把声学模型和声码器拆开，支持热插拔，又能本地 GPU 推理，正好补上“可控成本 + 高音质”的空档。下面把我踩坑三个月的笔记一次性倒出来，给想落地的小伙伴当“避坑导航”。

1. 技术选型：Conqui vs. 大厂 API 速览

| 维度 | Conqui TTS | AWS Polly | Google TTS | |---|---|---|---|---| | 网络开销 | 局域网 0 ms | 最近 Region 20-50 ms | 30-80 ms | | 计价 | 电费 + 显卡 | 按字符 | 按字符 | | 流式输出 | websocket | http stream | http stream | | 音色定制 | 自己训 | 标准/神经 | 标准/神经 | | SSML 支持 | 部分标签 | 全 | 全 | | 并发上限 | 看显卡算力 | 默认 80 req/s | 配额制 |

一句话：要“省钱+可深度定制”就选 Conqui；要“一把梭上线快”直接买云。

2. 核心实现：10 步跑通“Hello World”

下面以本地 Docker 版 Conqui TTS Server 为例，GPU 版镜像 ghcr.io/coqui-ai/tts-server:latest-cuda11.8。

2.1 拉起服务

docker run --gpus all -p 5002:5002 \
  -e COQUI_MODEL='tts_models/zh-CN/baker/tacotron2-DDC-GST' \
  ghcr.io/coqui-ai/tts-server:latest-cuda11.8

浏览器打开 http://localhost:5002 能看到 swagger，说明服务 OK。

2.2 鉴权与请求构造

Conqui 社区版默认无鉴权，生产环境建议挂一层 API Gateway 或者启用内置 Key：

docker run ... -e API_KEY=coqui_abc123

请求头带 X-API-KEY: coqui_abc123 即可。

2.3 Python 端流式播放（最小可运行）

import requests, pyaudio

URL = "http://localhost:5002/api/tts"
TEXT = "你好，我是 Conqui。"
params = {"text": TEXT, "speaker_id": "baker", "format": "wav"}

with requests.get(URL, params=params, stream=True) as r:
    r.raise_for_status()
    p = pyaudio.PyAudio()
    stream = p.open(format=pyaudio.paInt16, channels=1,
                    rate=22050, output=True)
    for chunk in r.iter_content(chunk_size=1024):
        if chunk:
            stream.write(chunk)
    stream.stop_stream(); stream.close(); p.terminate()

关键参数：

speaker_id：模型里内置的说话人，可 GET /speakers 枚举。
format=wav 也可改 raw 裸 PCM，省 44 B 头。

2.4 Go 端并发调用（带连接池）

package main

import (
    "context"
    "fmt"
    "io"
    "net/http"
    "os"
    "time"

    "github.com/coqui-ai/tts-go-client/tts" // 官方社区包
    "github.com/hashicorp/go-retryablehttp"
)

func main() {
    // 1. 长连接池
    retryClient := retryablehttp.NewClient()
    retryClient.HTTPClient.Timeout = 5 * time.Second
    retryClient.RetryMax = 3

    client := tts.NewClient("http://localhost:5002",
        tts.WithAPIKey("coqui_abc123"),
        tts.WithHTTPClient(retryClient.HTTPClient))

    // 2. 构造请求
    req := &tts.TTSRequest{
        Text:   "你好，Gopher 也能说会道。",
        Speaker: "baker",
        Format:  "wav",
    }

    // 3. 流式写盘
    ctx, cancel := context.WithTimeout(context.Background(), 30*time.Second)
    defer cancel()

    out, err := client.StreamTTS(ctx, req)
    if err != nil {
        panic(err)
    }
    defer out.Close()

    f, _ := os.Create("hello.wav")
    defer f.Close()
    io.Copy(f, out)
    fmt.Println("done")
}

要点：

用 retryablehttp 自动退避，4xx 不重试，5xx 指数退避。
StreamTTS 返回 io.ReadCloser，边下边写，内存占用 < 10 MB。

3. 进阶优化：让 P99 < 300 ms

音频 chunk 大小
实验结论：网络 RTT 20 ms 场景，chunk 4 KB 能在“首包延迟”与“CPU 上下文”间取折中；RTT > 100 ms 直接 16 KB，减少系统调用。
HTTP 长连接
Conqui 服务端基于 FastAPI，默认 keep-alive=5 s。压测 200 并发时，客户端复用连接可把 TLS 握手开销降到 0，QPS 提升 35%。
并发限流
单卡 T4 安全上限≈120 请求并行，再高压就 OOM。用 golang.org/x/sync/semaphore 或 Python asyncio.Semaphore(120) 兜底，超量快速返回 HTTP 429，别让显卡冒烟。
预加载热模型
把常用语言模型一次性载入显存，切换时只换声码器，可将冷启动 8 s 降到 1 s 内。

4. 避坑指南：方言、重试、异常

方言发音
粤语、闽南语需用 tts_models/yue 系列，否则直接“塑料普通话”。调用前先 GET /models 确认支持，否则返回 400 容易误判为“服务器挂了”。
重试策略
5xx 无限重试会把宕机服务“打活再打死”。推荐：
- max_retry=3
- 首次 100 ms，倍乘 2，封顶 5 s
- 仅对 POST /api/tts 幂等接口重试，流式 GET 不重试（音频半截再请求会重复开头）。
异常日志
Conqui 日志默认打 stderr，Docker 环境记得加 --log-driver=json-file --log-opt max-size=50m，否则 30 G 日志把磁盘塞爆。

5. 验证指标：如何压测才像“生产”

工具链：k6 + InfluxDB + Grafana，脚本示例（Python 版同理）：

import http from 'k6/http';
import { check } from 'k6';

export let options = {
  stages: [
    { duration: '30s', target: 100 },
    { duration: '1m', target: 200 },
    { duration: '30s', target: 0 },
  ],
  thresholds: {
    http_req_duration: ['p(99)<300'], // P99 延迟
    http_req_failed: ['rate<0.1'],    // 错误率
  },
};

export default function () {
  let url = `http://localhost:5002/api/tts`;
  let params = { text: '性能压测', speaker: 'baker' };
  let res = http.get(url, params);
  check(res, {
    'status is 200': (r) => r.status === 200,
    'body size > 20k': (r) => r.body.byteLength > 20000,
  });
}

跑 3 min 能拿到：

平均延迟
P99 / P95
错误率（显存耗尽时飙到 15% 以上）

压测面板

6. 小结与开放问题

走完上面 5 步，你就能把 Conqui TTS 塞进 K8s，灰度发布，让 200 并发 P99 稳在 300 ms 以内，成本只有云厂商的 1/5。但“在线推理”再快，也敌不过“离线一次合成 + CDN 缓存”。如果业务是固定文案（验证码、公告），不妨把句子提前跑成音频，命中率 80% 以上就能把 GPU 时间省下来。