前言

就纯粹记录一下这个比较模板化的工作流。

更新记录:

  • 2024年8月9日:创建笔记。

正文

第一步:获取音源

软件:你的浏览器,Chrome或者Firefox。

找一个无损的音源效果在各方面都会比mp3要好。

正版音源获取:

  1. https://mora.jp (大部分日本的创作人都会有在这里开通购买渠道)
  2. https://recochoku.jp (对海外借记卡支付的支持好像比较好,比如Visa、MasterCard、American Express、JCB等)

第二步:分解音轨

软件:Ultimate Vocal Remover
  1. 点击上方链接进入官网
  2. 点击Download跳转到GitHub项目页面
  3. 点击Releases跳转到发行版下载页面
  4. 在Resource栏选择对应系统的最新安装包下载,并运行安装。

2.0. 下载模型

安装完成后,启动UVR,主界面左侧偏下方有一个扳手按钮,点击弹出设置窗口,在上方选项卡栏选中「Download Center」,有三个类型的模型可以下载,选中任意一个类型后在下拉菜单可以看到所有可下载的该类模型列表。如果你没有在主界面可选模型列表里面找到下面提到的模型,可以在「Download Center」里面查找并下载。下载过程可能需要梯子。

2.1. 分离人声与伴奏

使用模型:MDX-Net 的 BS-Roformer-Viperx-1296

手头有伴奏文件就选择「Vocal Only」,如果人声和伴奏都要的话就都不选。

2.2. 去除人声混响

使用模型:

  1. VR Architecture:UVR-De-Echo-Normal选No Echo Only(轻)
  2. VR Architecture:UVR-De-Echo-Aggressive选No Echo Only(中)
  3. VR Architecture:UVR-De-Echo-Dereverb选No Reverb Only(重)
我个人用2和3比较多,具体选择哪个要看音频实际情况。

2.3. 分离主唱与和声

使用模型:

  1. VR Architecture:UVR-BVE-4B_SN-44100-1
  2. VR Architecture:5_HP_Karaoke-UVR(效果比下面那个要来得激进一些)
  3. VR Architecture:6_HP_Karaoke-UVR

第三步(可选):使用歌声合成软件生成歌姬干声

如果你发现提取出来的干声拿去喂给模型出来的效果不合你意,或者多人合唱很难分离出好的效果,也可以花一些时间和精力,把干声的谱子扒下来,尝试在「VoiceVox」或者「Voisona」之类的歌声合成引擎里面制作工程并导出。

注意,在使用特定的引擎之前请务必完整阅读他们的软件使用协议,是否有规定允许或者禁止将软件的产出内容添加到AI工作流程。

制作完干声之后导出为16bit 44100Hz(44.1kHz) 或者 16bit 48000Hz(48kHz) 的单声道音频。然后就可以再一次拿去喂AI了。


第四步:使用AI模型将干声转换为指定角色的音色

较多人使用的翻唱模型:

  1. SoVITS-SVC(效果相对更好,对硬件和训练素材时长要求中等)【我用的是这个】
  2. RVC(对硬件和素材时长要求比上面的低一些,效果还不错)
  3. DDSP-SVC(对硬件和素材时长要求更低,效果……还行吧)

一些模型分享的网站:(我没用过网上下载的来做视频,都是自己拿手头的显卡训练的)

  1. https://mxgf.cc/
  2. https://klrvc.com/

如果你懒得装环境/本地硬件配置足够训练模型/想试着玩一下,我更推荐网络上由他人制作并发布的免费整合包:

SVC-Fusion 一键包 by bilibili@多玩幻灵qwq 【推荐,可以加载「DDSP-SVC」和「SoVITS-SVC」模型,以及新的「Reflow-VAE-SVC」模型】

关于模型的具体使用教程,请查阅对应模型的官方文档。

如果你发现和声转换的效果特别差,而你又不想把和声也扒一遍,那你也可以直接用原唱的和声。

第五步(稍微进阶):混音

有混音的翻唱听起来绝对会比纯干声的翻唱效果要好得多,前提是你确实会混音。

软件:Reaper/Fl Studio/Cubase等。

按照目前我个人的习惯,大致分为以下步骤:

  1. 预处理(门限、去齿音、自动修音(Auto-Tune)等);
  2. EQ(均衡器);
  3. 压缩;
  4. EQ;
  5. 其他效果;
  6. 延迟(侧链);
  7. 混响(侧链);
  8. 人声避让;
具体的教程还在路上……

第六步(如果你做了混音):母带

母带可以用来赢得网络时代的响度战争。

你要是懒得做的话,可以直接丢到Fl Studio里面用自动母带帮你解决。至于Fl Studio怎么获取,就得靠你的钱包或者聪明的脑袋。

具体的教程还在路上……

第七步:导出音频

不管你有没有混音和母带,都要把人声和伴奏都合并到一个文件里边去,然后转成别人能听或者后面能用的格式。

个人常用的有以下规格:

  1. 320kbps MP3
  2. 24bit 48kHz flac
  3. 24bit 48kHz wav
其实AI翻唱模型貌似只能导出16bit位深的干声

第八步:制作视频

使用包括但不限于AE、Pr、达芬奇、剪映、AviUtl等视频编辑软件制作画面。好的画面会给整体观看和听歌的体验加不少分。

一图流会省事很多,你也可以在一图流基础上添加字幕(下一步会稍微讲一下);如果你想直接挪用原唱的MV,那么需要注意版权相关的问题。

具体的教程还在路上……

第九步:制作封面、字幕

你不会以为把视频做完直接投上去就完事了吧?

封面制作相关软件推荐:Photoshop

字幕制作相关软件推荐:剪映、Arctime

制作封面

你当然也可以用AI生成一个同人图然后修改一下比例,或者你有什么其他的想法。如果你会画画,甚至也可以自己画一张。

因为我主要在哔哩哔哩投稿,而且哔哩哔哩视频封面的设计比別家要麻烦,所以就讲一下哔哩哔哩的。

哔哩哔哩需要封面同时支持 4:3 和 16:9,所以你制作的时候需要根据画面结构制作一个大套小的模板框,以免在其中一种比例上产生奇怪的效果。

制作字幕

可以去搜索引擎(或者音乐平台)找一下字幕的原文和翻译(如果你做的AI翻唱是一首外文歌曲。P.S:如果译者要求保留署名的话请务必在视频或者简介中留下译者的ID)。把它们复制下来,一行行排好版之后导入到软件中,把每一句的时长调整到位,就差不多把字幕制作好了。可以选择编码为硬字幕(在视频编辑软件里面导出的时候应该会有相关选项),或者在哔哩哔哩的后台导入为cc字幕。


总结

大概就是这样。