use 22.05khz by default for 11labs

davidzhao · davidzhao · commit c84aabb5465b · 2025-04-15T21:44:30.000-07:00
shorter TTFB
diff --git a/livekit-plugins/livekit-plugins-elevenlabs/livekit/plugins/elevenlabs/models.py b/livekit-plugins/livekit-plugins-elevenlabs/livekit/plugins/elevenlabs/models.py
@@ -10,4 +10,12 @@
     "eleven_flash_v2",
 ]
 
-TTSEncoding = Literal["mp3_44100",]
+TTSEncoding = Literal[
+    "mp3_22050_32",
+    "mp3_44100",
+    "mp3_44100_32",
+    "mp3_44100_64",
+    "mp3_44100_96",
+    "mp3_44100_128",
+    "mp3_44100_192",
+]
diff --git a/livekit-plugins/livekit-plugins-elevenlabs/livekit/plugins/elevenlabs/tts.py b/livekit-plugins/livekit-plugins-elevenlabs/livekit/plugins/elevenlabs/tts.py
@@ -37,7 +37,9 @@
 from .log import logger
 from .models import TTSEncoding, TTSModels
 
-_DefaultEncoding: TTSEncoding = "mp3_44100"
+# by default, use 22.05kHz sample rate at 32kbps
+# in our testing,  reduce TTFB by about ~110ms
+_DefaultEncoding: TTSEncoding = "mp3_22050_32"
 
 
 def _sample_rate_from_format(output_format: TTSEncoding) -> int:
@@ -102,6 +104,7 @@ def __init__(
         *,
         voice: Voice = DEFAULT_VOICE,
         model: TTSModels | str = "eleven_flash_v2_5",
+        encoding: TTSEncoding | None = None,
         api_key: str | None = None,
         base_url: str | None = None,
         streaming_latency: int = 0,
@@ -131,11 +134,14 @@ def __init__(
             language (str | None): Language code for the TTS model, as of 10/24/24 only valid for "eleven_turbo_v2_5". Optional.
         """
 
+        if not encoding:
+            encoding = _DefaultEncoding
+
         super().__init__(
             capabilities=tts.TTSCapabilities(
                 streaming=True,
             ),
-            sample_rate=_sample_rate_from_format(_DefaultEncoding),
+            sample_rate=_sample_rate_from_format(encoding),
             num_channels=1,
         )
 
@@ -161,7 +167,7 @@ def __init__(
             model=model,
             api_key=api_key,
             base_url=base_url or API_BASE_URL_V1,
-            encoding=_DefaultEncoding,
+            encoding=encoding,
             sample_rate=self.sample_rate,
             streaming_latency=streaming_latency,
             word_tokenizer=word_tokenizer,