Skip to content

fix: 阿里云百炼流式tts语音卡顿感优化#3008

Open
dbsd11 wants to merge 1 commit into
xinnan-tech:mainfrom
dbsd11:fix_tts_alibl_stream
Open

fix: 阿里云百炼流式tts语音卡顿感优化#3008
dbsd11 wants to merge 1 commit into
xinnan-tech:mainfrom
dbsd11:fix_tts_alibl_stream

Conversation

@dbsd11
Copy link
Copy Markdown

@dbsd11 dbsd11 commented Mar 12, 2026

之前的语音一个词一个词的播,明显流畅度不足。优化成一个句子一个句子的播放,要自然很多

@wengzh12138
Copy link
Copy Markdown
Collaborator

试了一下,生成后返回的语音确实比原版流畅一点点,但是如果让LLM执行返回的文字消息比较多的话,会让TTS执行时间非常长

@Sakura-RanChen
Copy link
Copy Markdown
Collaborator

请问一下用的什么模型和音色,我这边使用的cosyvoice-v2和longxiaochun_v2时响应是缺少original_text字段返回的

@dbsd11
Copy link
Copy Markdown
Author

dbsd11 commented Mar 16, 2026

试了一下,生成后返回的语音确实比原版流畅一点点,但是如果让LLM执行返回的文字消息比较多的话,会让TTS执行时间非常长

不会的,llm流式输出的情况下,也是流式调用的阿里云百炼的语音合成。阿里云百炼那边会自动识别句子,只要满足是个句子(或者分句)就会触发句子合成事件,此时一次将一个句子(或者分句)的音频代码合并起来发给设备。这样设备上播放就会显得流畅了。这种对长文本的llm输出更加友好。比如您看到的我回复的这段话,其实拆分成句子后一个句子就一二十个字。

@dbsd11
Copy link
Copy Markdown
Author

dbsd11 commented Mar 16, 2026

请问一下用的什么模型和音色,我这边使用的cosyvoice-v2和longxiaochun_v2时响应是缺少original_text字段返回的

用的阿里云百炼流式的cosyvoice-v3-flash, 音色是longanhuan。

Sign up for free to join this conversation on GitHub. Already have an account? Sign in to comment

Labels

None yet

Projects

None yet

Development

Successfully merging this pull request may close these issues.

3 participants