哼唱识别数据集

1.数据集名称 

Lyra-Query by Humming Dataset (Lyra-QBH Dataset) —— 天琴哼唱识别数据集

2. 数据集说明

为促进哼唱识别技术发展,构建哼唱识别行业标准数据集。腾讯音乐天琴实验室开源哼唱识别数据集Lyra-QBH,该数据集主要用于哼唱识别算法评估。

Lyra-QBH数据集包含97位用户的录制数据,其中男性38名,女性59名,共计1005个录音片段;其中用户所哼唱的录音片段覆盖100首曲目,并且这些曲目已满足QQ音乐曲库相应开源条件。供开发者参考(未经允许禁止商用)。

3. 数据集收集方式

Lyra-QBH数据集采用小程序方式进行数据采集,通过在公司内部以及社交圈推广传播,让用户主动参与。用户在参与数据采集前会被明确告知可能涉及到的隐私数据,音频信息,以及该数据集的目的和用途;录制过程中,通过提供曲目列表,用户可选择自己所熟悉的曲目, 在无伴奏的情况下进行哼唱,并且提示用户尽量不唱歌词。对同一个用户而言,同一首歌曲允许提交不重复的多个样本。因此所有的录音数据均通过用户的手机设备采集完成,每个片段的有效录制时长范围在9s~10s,平均时长9.98s。

4.数据集内容

a. 音频文件:query_list

大小与格式:1005个wav音频文件,为8000Hz,16bit,单声道格式

命名规则:歌曲ID_用户ID_性别_上传次数.wav

例如s007_u000_1_2.wav,表示歌曲ID=007, 用户编号000, 性别为女性的用户(1女性,2男性),该歌曲ID第二次上传的音频。

query_list格式如下:

query_id song_id
user_id
HummingWav/u020/s000_u020_2_1.wav
s000 u020
HummingWav/u069/s000_u069_1_1.wav
s000 u069
HummingWav/u006/s001_u006_2_1.wav
s001 u006
HummingWav/u020/s001_u020_2_1.wav
s001
u020
HummingWav/u021/s001_u021_1_1.wav
s001
u021
HummingWav/u033/s001_u033_2_1.wav
s001 u033

b.曲谱文件:midi_list

大小与格式:100个midi文件,以及midi文件对应的歌曲信息(包括歌曲名,歌手名)

命名规则:歌曲ID.mid

midi song_name singers
MidiFile/s000.mid 别叫我达芬奇 Lil Ghost小鬼
MidiFile/s001.mid 过火 张信哲
MidiFile/s002.mid 千千万万 深海鱼子酱
MidiFile/s003.mid 下一个天亮 郭静
MidiFile/s004.mid 冰雨 刘德华
MidiFile/s005.mid 该死的温柔 马天宇
MidiFile/s006.mid 王妃 萧敬腾
MidiFile/s007.mid 下雨天 南拳妈妈
MidiFile/s008.mid 给我一首歌的时间 周杰伦

5. 遵循协议及版权声明

本数据集遵循协议CC BY-NC 4.0,非商业使用时请附上出处链接及本声明。 Lyra-QBH数据集由腾讯音乐天琴实验室团队编译和创作完成,腾讯音乐娱乐集团版权所有。 Lyra-QBH数据集未经允许禁止商用,商业使用请联系腾讯音乐获得授权。

6. 如何下载

点击申请按钮后,填写申请信息,填完后确认同意“使用条款”。我们会在3个工作日内将下载链接邮件给到您。

7.反馈

在您使用数据集过程中有任何疑问,请您邮件联系:lyracobar@tencentmusic.com