片段翻唱识别数据集
1.数据集名称
Lyra-CoverSegment Dataset(Lyra-CS Dataset) —— 天琴片段翻唱识别数据集
2.数据集说明
为促进听歌识曲技术的发展,解决翻唱改编难以识别的问题 ,腾讯音乐天琴实验室开源片段翻唱识别数据集Lyra-CS , 可用于听歌识曲、片段翻唱识别实验。Lyra-CS来自于QQ音乐曲库满足开源授权条件的歌曲,其中包含不同语言、流派、歌手的歌曲原唱及对应的翻唱或live版本片段,数据集总时长399.7小时,包含539203个录音片段。其中每个片段为长度15秒以下不等长的wav文件(8 kHz,16bit)。此外,还提供片段歌曲所对应的歌曲名和演唱者,供开发者参考(未经允许禁止商用)。
3.数据集分割
Lyra-CS按训练集、测试集比例为8:2进行划分:
数据集 | 片段数 | 时长(小时) |
---|---|---|
训练集 | 431376 | 321.7 |
测试集 | 107827 | 78.0 |
相应的文件路径分别在train_list和test_list中。
4.文件命名规则
/<CORPUS>/<AnchorSongId>/<Songid_SegmentID>
e.g. Lyra_CS_Dataset/00001/00001_0.wav,其中CORPUS为数据集的名称,AnchorSongId为anchor歌曲id编号,Songid_SegmentID为相应的片段id编号,每个组内包含一首或多首anchor歌曲的翻唱片段。如00002_0.wav和00003_0.wav为00001_0.wav对应第一个片段的翻唱片段。此外,Songid后如果带有s或ss字样,表示当前句往后的一句或两句延伸。如00001s_0.wav和00002s_0.wav是在00001_0.wav和00002_0.wav的基础上往后延伸一句,构成一个包含两句的片段对。
5.注意事项
a. Lyra-CS中的片段由完整歌曲通过切片而成,切分的依据是算法和人工标注生成的行时间戳文件,抽样验证准确率为95%,因此部分样本切分存在误差,但不影响使用。
b. 某些组中存在部分片段之间听起来相同的样本,这是由于歌曲来自不同专辑导致的。
6.遵循协议及版权说明
本数据集遵从协议CC BY-NC 4.0,非商业使用时请附上出处链接及本声明。
Lyra-CS 数据集由腾讯音乐天琴实验室团队编译和创作完成,腾讯音乐娱乐集团版权所有。
Lyra-CS 数据集未经允许禁止商用,商业使用请联系腾讯音乐获得授权。
7.如何下载
点击申请按钮后,填写申请信息,填完后确认同意“使用条款”。我们会在3个工作日内将下载链接邮件给到您。
8.反馈
如果您在使用数据集的过程中有任何疑问,请邮件与我们联系:lyracobar@tencentmusic.com。