歌唱评价数据集

1.数据集名称 

Lyra-Singing Assessment Dataset (Lyra-SA Dataset) —— 天琴歌唱评价数据集

2.数据集说明

自动歌唱评价(ASA, Automatic Singing Assessment)是音乐信息检索的一个重要分支,具有非常广泛的应用。在音乐教育、线上卡拉OK及线下赛事上有非常高的研究与应用价值。自动歌唱评价有助于帮助人们规避个人偏见,以公允客观的角度进行评分。本数据集旨在提供真实场景下的歌唱音频数据和标签,帮助研究人员评估和建立歌唱评价模型。同时也希望更多的研究者能够参与进来,共同推动自动歌唱评价的发展。

3.数据集内容

我们提供了一个真实场景下的干声数据集。包含10首歌曲的100个演唱干声,和对应的MIDI、歌词文件。样本来源于全民K歌的授权用户。演唱者的地域、年龄段和性别没有限制。每位演唱者仅提供一个干声样本,即数据集中不存在相同演唱者提供多个样本的情况。

在基于“普通听众的歌唱评价有着相关性”的观念的基础上,我们邀请了一些普通听众对干声进行评分,并标注出音色性别与音色年龄。请注意,这些标签仅供参考,我们计划后续推出更加严格和精准的标签。

4.歌曲介绍

本数据集选择了全民K歌月点唱量较高(2022年6月)且有版权的10首歌曲。每首歌曲下有100个演唱干声,共有10*100=1000首干声。

在歌曲选择方面,我们希望丰富度尽可能高,涵盖不同的风格、节奏、年代与歌手性别。每首歌曲提供了MIDI和歌词资源。MIDI可以作为歌唱评分的参考,歌词句时间戳可作为乐句划分的参考。下面的表格展示歌曲的详细信息:

编号
歌名
歌手
性别
发行年代
BPM
1 粉红色的回忆 韩宝仪 1987年 110
2 留什么给你 孙楠 1993年 73
3 伤心太平洋 任贤齐 1998年 75
4 十年 陈奕迅 2003年 62
5 太想念 彭筝 2014年 102
6 起风了 买辣椒也用券 2017年 77
7 嘉宾 张远 2020年 75
8 阿拉斯加海湾 蓝心羽 2020年 58
9 永不失联的爱 单依纯 2020年 81
10 在你的身边 盛哲 2022年 81

5.录制条件介绍

录制的设备是IOS或安卓手机的麦克风。为了统一采样率和声道数,干声音频被重采样为44100Hz,单声道,量化位数为16bit。

录制的场景为移动端K歌的普通录制环境,有些演唱者配戴耳机,有些不配戴。不带耳机的演唱者会可能会外放伴奏或原曲,导致录制的音频包含响度较弱的伴奏与原唱,对整个作品的品质带来影响,这些都是在实际歌唱评价场景中的面对的挑战。

6.数据集划分

数据集分为训练、验证和测试集。建议歌曲1~6为训练集,7、8为验证集,9、10为测试集。

7.文件命名

└── lyric
│   ├── 1.lrc
│   ├── 2.lrc
└── MIDI
│   ├── 1.midi
│   ├── 2.midi
├── singing_voice
│   ├── 1
│   │   ├──1_001.wav
│   │   ├──1_002.wav
│   ├── 2
│   │   ├──2_001.wav
│   │   ├──2_002.wav
└── immature_label.csv
                    

8.收集方式

每个演唱者都显式同意了《个人信息使用说明》和《知情同意声明》,完成声音授权。

9.遵循协议及版权声明

本数据集遵循协议CC BY-NC 4.0,非商业使用时请附上出处链接及本声明。 Lyra-SA Dataset数据集由腾讯音乐天琴实验室团队编译和创作完成,腾讯音乐娱乐集团版权所有。 Lyra-SA Dataset数据集未经允许禁止商用,商业使用请联系腾讯音乐获得授权。

10.如何下载

点击申请按钮后,填写申请信息,填完后确认同意“使用条款”。我们会在3个工作日内将下载链接邮件给到您。

11.其他说明

更新提醒:2023年8月14日更新10首歌曲的MIDI文件。下载的压缩包更名为:Lyra_SA_230814.zip。

若您在使用数据集过程中有任何疑问,请邮件联系我们:lyracobar@tencentmusic.com