feat: add support for MMS TTS models via Modal

nikochiko · nikochiko · commit 729aa3fc0a98 · 2025-09-16T17:24:04.000+05:30
diff --git a/daras_ai_v2/settings.py b/daras_ai_v2/settings.py
@@ -517,3 +517,5 @@
 if MODAL_TOKEN_ID and MODAL_TOKEN_SECRET:
     os.environ["MODAL_TOKEN_ID"] = MODAL_TOKEN_ID
     os.environ["MODAL_TOKEN_SECRET"] = MODAL_TOKEN_SECRET
+
+HF_TOKEN = config("HF_TOKEN", "")
diff --git a/daras_ai_v2/text_to_speech_settings_widgets.py b/daras_ai_v2/text_to_speech_settings_widgets.py
@@ -74,6 +74,7 @@ class TextToSpeechProviders(Enum):
     AZURE_TTS = "Azure Text-to-Speech"
     OPEN_AI = "OpenAI"
     GHANA_NLP = "GhanaNLP Text-To-Speech"
+    MMS_TTS = "MMS TTS (Meta)"
 
 
 # This exists only for backwards compatiblity
@@ -170,6 +171,8 @@ def text_to_speech_provider_selector(page):
                 openai_tts_selector()
             case TextToSpeechProviders.GHANA_NLP.name:
                 ghana_nlp_tts_selector()
+            case TextToSpeechProviders.MMS_TTS.name:
+                mms_tts_selector()
     return tts_provider
 
 
@@ -198,6 +201,29 @@ def ghana_nlp_tts_selector():
     )
 
 
+def mms_tts_selector():
+    options = mms_tts_language_options()
+    gui.selectbox(
+        label="""
+        ###### MMS TTS Language
+        """,
+        key="mms_tts_language",
+        format_func=lambda lang: options[lang],
+        options=options,
+    )
+
+
+@redis_cache_decorator(ex=settings.REDIS_MODELS_CACHE_EXPIRY)
+def mms_tts_language_options():
+    import langcodes
+    from daras_ai_v2.mms_tts import MMS_TTS_SUPPORTED_LANGUAGES
+
+    result = {}
+    for lang in MMS_TTS_SUPPORTED_LANGUAGES:
+        result[lang] = langcodes.Language.get(lang).display_name()
+    return result
+
+
 def openai_tts_selector():
     enum_selector(
         OpenAI_TTS_Voices,
diff --git a/recipes/TextToSpeech.py b/recipes/TextToSpeech.py
@@ -4,6 +4,7 @@
 
 import gooey_gui as gui
 import requests
+import modal
 from pydantic import BaseModel, Field
 
 from bots.models import Workflow
@@ -64,6 +65,8 @@ class TextToSpeechSettings(BaseModel):
     openai_tts_model: OpenAI_TTS_Models.api_choices | None = None
     ghana_nlp_tts_language: GHANA_NLP_TTS_LANGUAGES.api_choices | None = None
 
+    mms_tts_language: str = "eng"
+
 
 class TextToSpeechPage(BasePage):
     title = "Compare AI Voice Generators"
@@ -408,6 +411,24 @@ def run(self, state: dict):
                 audio_url = upload_file_from_bytes("ghana_gen.wav", response.content)
                 state["audio_url"] = audio_url
 
+            case TextToSpeechProviders.MMS_TTS:
+                from daras_ai_v2.mms_tts import (
+                    MMS_TTS_SUPPORTED_LANGUAGES,
+                    app as modal_app,
+                )
+
+                language = state.get("mms_tts_language", "eng")
+                if language not in MMS_TTS_SUPPORTED_LANGUAGES:
+                    raise UserError(f"Unsupported language: {language}")
+
+                run_mms_tts = modal.Function.lookup(modal_app.name, "run_mms_tts")
+                with modal.enable_output():
+                    audio = run_mms_tts.remote(language=language, text=text)
+
+                state["audio_url"] = upload_file_from_bytes(
+                    filename="output.wav", data=audio, content_type="audio/wav"
+                )
+
     def _get_elevenlabs_voice_model(self, state: dict[str, str]):
         default_voice_model = next(iter(ELEVEN_LABS_MODELS))
         voice_model = state.get("elevenlabs_model", default_voice_model)