fix: 阿里云百炼流式tts语音卡顿感优化 by dbsd11 · Pull Request #3008 · xinnan-tech/xiaozhi-esp32-server

dbsd11 · 2026-03-12T12:58:03Z

之前的语音一个词一个词的播，明显流畅度不足。优化成一个句子一个句子的播放，要自然很多

wengzh12138 · 2026-03-13T02:45:52Z

试了一下，生成后返回的语音确实比原版流畅一点点，但是如果让LLM执行返回的文字消息比较多的话，会让TTS执行时间非常长

Sakura-RanChen · 2026-03-13T03:06:25Z

请问一下用的什么模型和音色，我这边使用的cosyvoice-v2和longxiaochun_v2时响应是缺少original_text字段返回的

dbsd11 · 2026-03-16T09:35:51Z

试了一下，生成后返回的语音确实比原版流畅一点点，但是如果让LLM执行返回的文字消息比较多的话，会让TTS执行时间非常长

不会的，llm流式输出的情况下，也是流式调用的阿里云百炼的语音合成。阿里云百炼那边会自动识别句子，只要满足是个句子(或者分句)就会触发句子合成事件，此时一次将一个句子(或者分句)的音频代码合并起来发给设备。这样设备上播放就会显得流畅了。这种对长文本的llm输出更加友好。比如您看到的我回复的这段话，其实拆分成句子后一个句子就一二十个字。

dbsd11 · 2026-03-16T09:37:43Z

请问一下用的什么模型和音色，我这边使用的cosyvoice-v2和longxiaochun_v2时响应是缺少original_text字段返回的

用的阿里云百炼流式的cosyvoice-v3-flash, 音色是longanhuan。

fix: 阿里云百炼流式tts语音卡顿感优化

83ff7bb

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

fix: 阿里云百炼流式tts语音卡顿感优化#3008

fix: 阿里云百炼流式tts语音卡顿感优化#3008
dbsd11 wants to merge 1 commit into
xinnan-tech:mainfrom
dbsd11:fix_tts_alibl_stream

dbsd11 commented Mar 12, 2026 •

edited

Loading

Uh oh!

wengzh12138 commented Mar 13, 2026

Uh oh!

Sakura-RanChen commented Mar 13, 2026

Uh oh!

dbsd11 commented Mar 16, 2026

Uh oh!

dbsd11 commented Mar 16, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

Conversation

dbsd11 commented Mar 12, 2026 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

wengzh12138 commented Mar 13, 2026

Uh oh!

Sakura-RanChen commented Mar 13, 2026

Uh oh!

dbsd11 commented Mar 16, 2026

Uh oh!

dbsd11 commented Mar 16, 2026

Uh oh!

Reviewers

Assignees

Labels

Projects

Milestone

Development

Uh oh!

3 participants

dbsd11 commented Mar 12, 2026 •

edited

Loading