天琴实验室 - QQ音乐

1.数据集名称

Lyra-Query by Humming Dataset (Lyra-QBH Dataset) —— 天琴哼唱识别数据集

2. 数据集说明

为促进哼唱识别技术发展，构建哼唱识别行业标准数据集。腾讯音乐天琴实验室开源哼唱识别数据集Lyra-QBH，该数据集主要用于哼唱识别算法评估。

Lyra-QBH数据集包含97位用户的录制数据，其中男性38名，女性59名，共计1005个录音片段；其中用户所哼唱的录音片段覆盖100首曲目，并且这些曲目已满足QQ音乐曲库相应开源条件。供开发者参考（未经允许禁止商用）。

3. 数据集收集方式

Lyra-QBH数据集采用小程序方式进行数据采集，通过在公司内部以及社交圈推广传播，让用户主动参与。用户在参与数据采集前会被明确告知可能涉及到的隐私数据，音频信息，以及该数据集的目的和用途；录制过程中，通过提供曲目列表，用户可选择自己所熟悉的曲目，在无伴奏的情况下进行哼唱，并且提示用户尽量不唱歌词。对同一个用户而言，同一首歌曲允许提交不重复的多个样本。因此所有的录音数据均通过用户的手机设备采集完成，每个片段的有效录制时长范围在9s~10s，平均时长9.98s。

4.数据集内容

a. 音频文件：query_list

大小与格式：1005个wav音频文件，为8000Hz，16bit，单声道格式

命名规则：歌曲ID_用户ID_性别_上传次数.wav

例如s007_u000_1_2.wav，表示歌曲ID=007，用户编号000，性别为女性的用户（1女性，2男性），该歌曲ID第二次上传的音频。

query_list格式如下：

query_id	song_id	user_id
HummingWav/u020/s000_u020_2_1.wav	s000	u020
HummingWav/u069/s000_u069_1_1.wav	s000	u069
HummingWav/u006/s001_u006_2_1.wav	s001	u006
HummingWav/u020/s001_u020_2_1.wav	s001	u020
HummingWav/u021/s001_u021_1_1.wav	s001	u021
HummingWav/u033/s001_u033_2_1.wav	s001	u033

b.曲谱文件：midi_list

大小与格式：100个midi文件，以及midi文件对应的歌曲信息（包括歌曲名，歌手名）

命名规则：歌曲ID.mid

midi	song_name	singers
MidiFile/s000.mid	别叫我达芬奇	Lil Ghost小鬼
MidiFile/s001.mid	过火	张信哲
MidiFile/s002.mid	千千万万	深海鱼子酱
MidiFile/s003.mid	下一个天亮	郭静
MidiFile/s004.mid	冰雨	刘德华
MidiFile/s005.mid	该死的温柔	马天宇
MidiFile/s006.mid	王妃	萧敬腾
MidiFile/s007.mid	下雨天	南拳妈妈
MidiFile/s008.mid	给我一首歌的时间	周杰伦

5. 遵循协议及版权声明

6. 如何下载

点击申请按钮后，填写申请信息，填完后确认同意“使用条款”。我们会在3个工作日内将下载链接邮件给到您。

7.反馈

在您使用数据集过程中有任何疑问，请您邮件联系：lyracobar@tencentmusic.com