哼唱识别数据集
1.数据集名称
Lyra-Query by Humming Dataset (Lyra-QBH Dataset) —— 天琴哼唱识别数据集
2. 数据集说明
为促进哼唱识别技术发展,构建哼唱识别行业标准数据集。腾讯音乐天琴实验室开源哼唱识别数据集Lyra-QBH,该数据集主要用于哼唱识别算法评估。
Lyra-QBH数据集包含97位用户的录制数据,其中男性38名,女性59名,共计1005个录音片段;其中用户所哼唱的录音片段覆盖100首曲目,并且这些曲目已满足QQ音乐曲库相应开源条件。供开发者参考(未经允许禁止商用)。
3. 数据集收集方式
Lyra-QBH数据集采用小程序方式进行数据采集,通过在公司内部以及社交圈推广传播,让用户主动参与。用户在参与数据采集前会被明确告知可能涉及到的隐私数据,音频信息,以及该数据集的目的和用途;录制过程中,通过提供曲目列表,用户可选择自己所熟悉的曲目, 在无伴奏的情况下进行哼唱,并且提示用户尽量不唱歌词。对同一个用户而言,同一首歌曲允许提交不重复的多个样本。因此所有的录音数据均通过用户的手机设备采集完成,每个片段的有效录制时长范围在9s~10s,平均时长9.98s。
4.数据集内容
a. 音频文件:query_list
大小与格式:1005个wav音频文件,为8000Hz,16bit,单声道格式
命名规则:歌曲ID_用户ID_性别_上传次数.wav
例如s007_u000_1_2.wav,表示歌曲ID=007, 用户编号000, 性别为女性的用户(1女性,2男性),该歌曲ID第二次上传的音频。
query_list格式如下:
query_id | song_id |
user_id |
HummingWav/u020/s000_u020_2_1.wav |
s000 | u020 |
HummingWav/u069/s000_u069_1_1.wav |
s000 | u069 |
HummingWav/u006/s001_u006_2_1.wav |
s001 | u006 |
HummingWav/u020/s001_u020_2_1.wav |
s001 |
u020 |
HummingWav/u021/s001_u021_1_1.wav |
s001 |
u021 |
HummingWav/u033/s001_u033_2_1.wav |
s001 | u033 |
b.曲谱文件:midi_list
大小与格式:100个midi文件,以及midi文件对应的歌曲信息(包括歌曲名,歌手名)
命名规则:歌曲ID.mid
midi | song_name | singers |
MidiFile/s000.mid | 别叫我达芬奇 | Lil Ghost小鬼 |
MidiFile/s001.mid | 过火 | 张信哲 |
MidiFile/s002.mid | 千千万万 | 深海鱼子酱 |
MidiFile/s003.mid | 下一个天亮 | 郭静 |
MidiFile/s004.mid | 冰雨 | 刘德华 |
MidiFile/s005.mid | 该死的温柔 | 马天宇 |
MidiFile/s006.mid | 王妃 | 萧敬腾 |
MidiFile/s007.mid | 下雨天 | 南拳妈妈 |
MidiFile/s008.mid | 给我一首歌的时间 | 周杰伦 |
5. 遵循协议及版权声明
本数据集遵循协议CC BY-NC 4.0,非商业使用时请附上出处链接及本声明。 Lyra-QBH数据集由腾讯音乐天琴实验室团队编译和创作完成,腾讯音乐娱乐集团版权所有。 Lyra-QBH数据集未经允许禁止商用,商业使用请联系腾讯音乐获得授权。
6. 如何下载
点击申请按钮后,填写申请信息,填完后确认同意“使用条款”。我们会在3个工作日内将下载链接邮件给到您。
7.反馈
在您使用数据集过程中有任何疑问,请您邮件联系:lyracobar@tencentmusic.com