歌唱评价数据集
1.数据集名称
Lyra-Singing Assessment Dataset (Lyra-SA Dataset) —— 天琴歌唱评价数据集
2.数据集说明
自动歌唱评价(ASA, Automatic Singing Assessment)是音乐信息检索的一个重要分支,具有非常广泛的应用。在音乐教育、线上卡拉OK及线下赛事上有非常高的研究与应用价值。自动歌唱评价有助于帮助人们规避个人偏见,以公允客观的角度进行评分。本数据集旨在提供真实场景下的歌唱音频数据和标签,帮助研究人员评估和建立歌唱评价模型。同时也希望更多的研究者能够参与进来,共同推动自动歌唱评价的发展。
3.数据集内容
我们提供了一个真实场景下的干声数据集。包含10首歌曲的100个演唱干声,和对应的MIDI、歌词文件。样本来源于全民K歌的授权用户。演唱者的地域、年龄段和性别没有限制。每位演唱者仅提供一个干声样本,即数据集中不存在相同演唱者提供多个样本的情况。
在基于“普通听众的歌唱评价有着相关性”的观念的基础上,我们邀请了一些普通听众对干声进行评分,并标注出音色性别与音色年龄。请注意,这些标签仅供参考,我们计划后续推出更加严格和精准的标签。
4.歌曲介绍
本数据集选择了全民K歌月点唱量较高(2022年6月)且有版权的10首歌曲。每首歌曲下有100个演唱干声,共有10*100=1000首干声。
在歌曲选择方面,我们希望丰富度尽可能高,涵盖不同的风格、节奏、年代与歌手性别。每首歌曲提供了MIDI和歌词资源。MIDI可以作为歌唱评分的参考,歌词句时间戳可作为乐句划分的参考。下面的表格展示歌曲的详细信息:
编号
|
歌名
|
歌手
|
性别
|
发行年代
|
BPM
|
---|---|---|---|---|---|
1 | 粉红色的回忆 | 韩宝仪 | 女 | 1987年 | 110 |
2 | 留什么给你 | 孙楠 | 男 | 1993年 | 73 |
3 | 伤心太平洋 | 任贤齐 | 男 | 1998年 | 75 |
4 | 十年 | 陈奕迅 | 男 | 2003年 | 62 |
5 | 太想念 | 彭筝 | 女 | 2014年 | 102 |
6 | 起风了 | 买辣椒也用券 | 女 | 2017年 | 77 |
7 | 嘉宾 | 张远 | 男 | 2020年 | 75 |
8 | 阿拉斯加海湾 | 蓝心羽 | 女 | 2020年 | 58 |
9 | 永不失联的爱 | 单依纯 | 女 | 2020年 | 81 |
10 | 在你的身边 | 盛哲 | 男 | 2022年 | 81 |
5.录制条件介绍
录制的设备是IOS或安卓手机的麦克风。为了统一采样率和声道数,干声音频被重采样为44100Hz,单声道,量化位数为16bit。
录制的场景为移动端K歌的普通录制环境,有些演唱者配戴耳机,有些不配戴。不带耳机的演唱者会可能会外放伴奏或原曲,导致录制的音频包含响度较弱的伴奏与原唱,对整个作品的品质带来影响,这些都是在实际歌唱评价场景中的面对的挑战。
6.数据集划分
数据集分为训练、验证和测试集。建议歌曲1~6为训练集,7、8为验证集,9、10为测试集。
7.文件命名
└── lyric │ ├── 1.lrc │ ├── 2.lrc └── MIDI │ ├── 1.midi │ ├── 2.midi ├── singing_voice │ ├── 1 │ │ ├──1_001.wav │ │ ├──1_002.wav │ ├── 2 │ │ ├──2_001.wav │ │ ├──2_002.wav └── immature_label.csv
8.收集方式
每个演唱者都显式同意了《个人信息使用说明》和《知情同意声明》,完成声音授权。
9.遵循协议及版权声明
本数据集遵循协议CC BY-NC 4.0,非商业使用时请附上出处链接及本声明。 Lyra-SA Dataset数据集由腾讯音乐天琴实验室团队编译和创作完成,腾讯音乐娱乐集团版权所有。 Lyra-SA Dataset数据集未经允许禁止商用,商业使用请联系腾讯音乐获得授权。
10.如何下载
点击申请按钮后,填写申请信息,填完后确认同意“使用条款”。我们会在3个工作日内将下载链接邮件给到您。
11.其他说明
更新提醒:2023年8月14日更新10首歌曲的MIDI文件。下载的压缩包更名为:Lyra_SA_230814.zip。
若您在使用数据集过程中有任何疑问,请邮件联系我们:lyracobar@tencentmusic.com