天琴实验室 - QQ音乐

1.数据集名称

Lyra-CoverSegment Dataset(Lyra-CS Dataset) —— 天琴片段翻唱识别数据集

2.数据集说明

为促进听歌识曲技术的发展，解决翻唱改编难以识别的问题，腾讯音乐天琴实验室开源片段翻唱识别数据集Lyra-CS ，可用于听歌识曲、片段翻唱识别实验。Lyra-CS来自于QQ音乐曲库满足开源授权条件的歌曲，其中包含不同语言、流派、歌手的歌曲原唱及对应的翻唱或live版本片段，数据集总时长399.7小时，包含539203个录音片段。其中每个片段为长度15秒以下不等长的wav文件（8 kHz，16bit）。此外，还提供片段歌曲所对应的歌曲名和演唱者，供开发者参考（未经允许禁止商用）。

3.数据集分割
Lyra-CS按训练集、测试集比例为8:2进行划分:

数据集片段数时长(小时)

训练集 431376 321.7

测试集 107827 78.0

相应的文件路径分别在train_list和test_list中。

数据集	片段数	时长(小时)
训练集	431376	321.7
测试集	107827	78.0

4.文件命名规则

/<CORPUS>/<AnchorSongId>/<Songid_SegmentID>

e.g. Lyra_CS_Dataset/00001/00001_0.wav，其中CORPUS为数据集的名称，AnchorSongId为anchor歌曲id编号，Songid_SegmentID为相应的片段id编号，每个组内包含一首或多首anchor歌曲的翻唱片段。如00002_0.wav和00003_0.wav为00001_0.wav对应第一个片段的翻唱片段。此外，Songid后如果带有s或ss字样，表示当前句往后的一句或两句延伸。如00001s_0.wav和00002s_0.wav是在00001_0.wav和00002_0.wav的基础上往后延伸一句，构成一个包含两句的片段对。

5.注意事项

a. Lyra-CS中的片段由完整歌曲通过切片而成，切分的依据是算法和人工标注生成的行时间戳文件，抽样验证准确率为95%，因此部分样本切分存在误差，但不影响使用。

b. 某些组中存在部分片段之间听起来相同的样本，这是由于歌曲来自不同专辑导致的。

6.遵循协议及版权说明

本数据集遵从协议CC BY-NC 4.0，非商业使用时请附上出处链接及本声明。

Lyra-CS 数据集未经允许禁止商用，商业使用请联系腾讯音乐获得授权。

7.如何下载

点击申请按钮后，填写申请信息，填完后确认同意“使用条款”。我们会在3个工作日内将下载链接邮件给到您。

8.反馈

如果您在使用数据集的过程中有任何疑问，请邮件与我们联系：lyracobar@tencentmusic.com。

片段翻唱识别数据集