604 字
3 分钟
使用 AI 推理一键获取人声 MIDI:Vocal2Midi 项目体验
最近在折腾 UTAU,刚好在 B 站主页刷到了 Vocal2Midi 的介绍视频,品鉴了一下,感觉这个效果确实挺惊艳的,遂在这里分享一下。
Vocal2Midi 是一款基于 AI 推理的开源人声转 MIDI 工具,专为虚拟歌姬(UTAU / Vocaloid 等)工作流设计。相比传统手动扒谱或简单的音高提取工具,它在歌词对齐、音高识别和节奏还原上都有显著提升,能直接输出可编辑的 MIDI、UTAU 工程文件(USTX)以及歌词对齐辅助文件,大幅降低了“人声 → 虚拟歌姬”的门槛。
附上作者的演示视频
核心亮点
(copy至原视频的)
- 从原始人声直接产出 MIDI / USTX / 对齐辅助文件:无需手动逐字对轨,一步生成虚拟歌姬可用的工程文件。
- 良好的汉语普通话与日语歌词灌注支持:对中文和日文歌曲的歌词识别与对齐效果优秀,减少了后期修词工作量。
- 支持使用现有歌词文件进行匹配,增强识别准确率:如果你已有歌词文本,可以直接导入进行强制对齐,进一步提升转写精度。
- 较低的配置需求,兼容市面主流配置:虽然内置了大模型,但推理效率经过优化,主流中端显卡即可流畅运行。
实际体验
vocal2midi使用了Qwen3-ASR-1.7B和GAME-1.0.3-medium的模型,全部解压完后吃了我10.2G的空间,占用还蛮大的其实。
实际体验下来,生成的人声MIDI只需稍作修改就能达到合格甚至更好的标准,错音、词不对的现象很少见,效果比 X Studio 和 ACE Studio 的人声提取要强太多了。

使用的话也很简单,准备好干声和歌词,无脑填进软件即可。 然后一键推理,放松一下大脑,拿文件,完事。
我用的显卡是 RTX 4070,测试结果贴下面了,供参考:
- 测试音频:一首约 4 分钟的歌曲(若能化为星座)
- 显卡:NVIDIA RTX 4070
- 推理耗时:约 32 秒
这个速度体感还是非常快的,比想象中快不少,演示视频过会在贴这里吧。
使用 AI 推理一键获取人声 MIDI:Vocal2Midi 项目体验
https://flygeon.top/posts/5/