片段翻唱识别数据集

1.数据集名称

Lyra-CoverSegment Dataset(Lyra-CS Dataset) —— 天琴片段翻唱识别数据集

2.数据集说明

为促进听歌识曲技术的发展,解决翻唱改编难以识别的问题 ,腾讯音乐天琴实验室开源片段翻唱识别数据集Lyra-CS , 可用于听歌识曲、片段翻唱识别实验。Lyra-CS来自于QQ音乐曲库满足开源授权条件的歌曲,其中包含不同语言、流派、歌手的歌曲原唱及对应的翻唱或live版本片段,数据集总时长399.7小时,包含539203个录音片段。其中每个片段为长度15秒以下不等长的wav文件(8 kHz,16bit)。此外,还提供片段歌曲所对应的歌曲名和演唱者,供开发者参考(未经允许禁止商用)。

3.数据集分割

Lyra-CS按训练集、测试集比例为8:2进行划分:

数据集 片段数 时长(小时)
训练集 431376 321.7
测试集 107827 78.0

相应的文件路径分别在train_list和test_list中。

4.文件命名规则

/<CORPUS>/<AnchorSongId>/<Songid_SegmentID>

e.g. Lyra_CS_Dataset/00001/00001_0.wav,其中CORPUS为数据集的名称,AnchorSongId为anchor歌曲id编号,Songid_SegmentID为相应的片段id编号,每个组内包含一首或多首anchor歌曲的翻唱片段。如00002_0.wav和00003_0.wav为00001_0.wav对应第一个片段的翻唱片段。此外,Songid后如果带有s或ss字样,表示当前句往后的一句或两句延伸。如00001s_0.wav和00002s_0.wav是在00001_0.wav和00002_0.wav的基础上往后延伸一句,构成一个包含两句的片段对。

5.注意事项

a. Lyra-CS中的片段由完整歌曲通过切片而成,切分的依据是算法和人工标注生成的行时间戳文件,抽样验证准确率为95%,因此部分样本切分存在误差,但不影响使用。

b. 某些组中存在部分片段之间听起来相同的样本,这是由于歌曲来自不同专辑导致的。

6.遵循协议及版权说明

本数据集遵从协议CC BY-NC 4.0,非商业使用时请附上出处链接及本声明。

Lyra-CS 数据集由腾讯音乐天琴实验室团队编译和创作完成,腾讯音乐娱乐集团版权所有。

Lyra-CS 数据集未经允许禁止商用,商业使用请联系腾讯音乐获得授权。

7.如何下载

点击申请按钮后,填写申请信息,填完后确认同意“使用条款”。我们会在3个工作日内将下载链接邮件给到您。

8.反馈

如果您在使用数据集的过程中有任何疑问,请邮件与我们联系:lyracobar@tencentmusic.com