天琴实验室 - QQ音乐

泛听歌识曲技术是指在音乐检索、音乐品鉴、音乐理解等相关场景下的音频指纹、翻唱识别、哼唱识别、歌声ASR、歌手音色识别等的基础技术。通过持续在基于歌曲音频的录音、词、曲等内容上多维度的理解、识别与检索上进行深耕，天琴实验室已经打造出一套完备的识别技术矩阵。其应用场景涵盖了音乐生命周期的整个过程，不仅包括下游的听歌识曲、哼唱识别、用户本地歌曲管理等，中游的曲库管理，还有上游的内容创作、版权监控等。泛听歌识曲技术广泛落地于QQ音乐、全民K歌、酷我音乐、小米音乐、腾讯音乐人。
天琴实验室的泛听歌识曲技术所获的主要成就，包括：

通过快速响应用户需求、持续深入打磨技术细节，音频指纹技术在2019年获得国际MIREX比赛音频指纹赛道的冠军；
翻唱识别(LyraC-Net)技术、歌手音色识别技术收录于interspeech 2022、IJCN 2021，并在公开学术论文中达到SOTA效果；
业内首创听歌识曲场景下片段翻唱识别技术；
业内首创的歌声ASR技术持续落地体现出广阔的使用需求；
持续深耕歌唱评价技术，结合业务场景进行拓展创新，基于度量学习的有参考评价方案收录于ISMIR2021。

音乐检索场景

音频指纹技术

音频指纹通过提取歌曲的音频基础特征，来对比歌曲录音级别的相似程度。

典型应用场景：
听歌识曲、本地歌曲词图匹配、盗歌、检测等

翻唱识别技术

翻唱识别相对音频指纹技术比对歌曲录音级别的相似程度，主要刻画歌曲主旋律级别的相似程度。

典型应用场景：
听歌识曲中翻唱识别模块、同曲检测等

哼唱识别技术

哼唱识别同样也是刻画歌曲主旋律级别的相似，但哼唱识别对比的对象不是完整的歌曲，而是用户哼唱的歌声与曲库歌曲进行检索。

典型应用场景：
QQ音乐的哼唱识别

歌声ASR技术

歌声ASR识别歌曲中的唱词，或者识别唱词的音素

典型应用场景：
无歌词情况下生成歌词、歌曲之间词相似度对比以及对输入歌曲识别到唱词后根据唱词进行搜索。

音频品鉴场景

曲库内容品鉴技术

针对已入库歌曲评价，评价维度包括盗歌/原版标记、片段重复歌曲检测、音质评分、翻唱/原唱标记等。
UGC内容品鉴技术

针对用户上传歌曲进行品鉴，品鉴维度包括低质/盗录识别、歌唱评价、人声音色分类、高质作品识别等。
直播内容品鉴技术

针对音频实时直播流的内容进行品鉴，品鉴维度包括直播主播是否在唱歌、是否挂播、唱功水平、音质水平等。

音乐理解场景

智能字幕对齐

对于没有QRC歌词只有逐行歌词（lyric格式）或者文本歌词的歌曲，使用该技术生成逐字歌词（包括并不仅限于QRC格式）。

智能字幕识别

采用自动语音识别技术(ASR)对 Talk show 或其他语音音频内容生成准确的实时字幕，并且该字幕能够根据时间戳在手机端进行动态滚动展示。

音频超分辨率

采用深度学习方式，通过提升低音质歌曲的频谱高度，达到音质提升目的。

MIRLAB歌曲分析

分析歌曲的基本属性，比如流派、副歌位置、Beat点位置、BPM、歌曲audio embedding、主旋律提取、声源分离等等。

联系我们

联系方式

电话：（0755）8601 3388 - 863574

Email：lyracobar@tencentmusic.com

工作时间

工作日：10:30 --- 20:30

常见问题 English 隐私协议（英文）联系我们

片段翻唱识别数据集

哼唱识别数据集

歌唱评价数据集