基于Index-TTS2的视频翻译配音

_

最近老婆大着肚子哪儿也去不了,赶上北京沙尘暴特别夸张,整个天都是黄的,闲来无聊一起找个恋综在看——《换乘恋爱4》。第一次看恋综还是挺有意思的,在X(前任)和NEW(想接触的新人)之间摇摆不定,各怀心思表面和和气气地互相面对面交流,非常刺激。由于是韩国恋综,我和老婆都不懂韩语,所以突发奇想,反正有中文时间轴字幕,能不能处理一下,使用Index-TTS2克隆声音,变成中文配音呢?先记录一下思路,等有空了再好好验证一下~

一、部署Index-TTS2

网上有大佬整合好的包,一键部署。接口格式:http://localhost:9880/?text=你好,我在这里测试一下&speaker=苏瑶&emo=情感参考/愤怒.wav&weight=1.0。

第二步:素材预处理

先把整个视频的音频提取出来,然后分离出人声和背景声。

每个Speaker选取相对清晰的一段语音,保存下来,作为参考音频。

人声部分批量切出来每一段字幕部分,作为情感参考音频。

第三步:批量生成中文语音

遍历字幕,调用接口生成每句话的中文语音

第四步:合成音频

参与合成的音频应有:背景音部分、批量配音的人声部分、无字幕的人声部分。

还只是很初步的想法,等有时间了再研究实现吧🤔

阿里云部署ZeroTier Moon节点踩坑记录 2026-04-10

评论区

© 2026 朝瓜夕拾