最近老婆大着肚子哪儿也去不了,赶上北京沙尘暴特别夸张,整个天都是黄的,闲来无聊一起找个恋综在看——《换乘恋爱4》。第一次看恋综还是挺有意思的,在X(前任)和NEW(想接触的新人)之间摇摆不定,各怀心思表面和和气气地互相面对面交流,非常刺激。由于是韩国恋综,我和老婆都不懂韩语,所以突发奇想,反正有中文时间轴字幕,能不能处理一下,使用Index-TTS2克隆声音,变成中文配音呢?先记录一下思路,等有空了再好好验证一下~
一、部署Index-TTS2
网上有大佬整合好的包,一键部署。接口格式:http://localhost:9880/?text=你好,我在这里测试一下&speaker=苏瑶&emo=情感参考/愤怒.wav&weight=1.0。
第二步:素材预处理
先把整个视频的音频提取出来,然后分离出人声和背景声。
每个Speaker选取相对清晰的一段语音,保存下来,作为参考音频。
人声部分批量切出来每一段字幕部分,作为情感参考音频。
第三步:批量生成中文语音
遍历字幕,调用接口生成每句话的中文语音
第四步:合成音频
参与合成的音频应有:背景音部分、批量配音的人声部分、无字幕的人声部分。
还只是很初步的想法,等有时间了再研究实现吧🤔