[ByteCover]-音频翻唱检索论文笔记

时间：2022-08-26分类：菜鸟笔记作者：yangyanbao8389

论文名称：BYTECOVER: COVER SONG IDENTIFICATION VIA MULTI-LOSS TRAINING（ICASSP2021）

论文地址：https://arxiv.org/pdf/2010.14022v2.pdf

代码地址：暂无

背景

研究Music Information Retrieval (MIR)方向中的Cover song identification任务，减少人工特征和对齐算法的使用，本文提出ByteCover网络来检索相同的音乐。

模型流程

模型输入：
- 采用CQT频谱特征，每个octave的bin个数设置为12，hann window大小设置为512，采样率为22050Hz，CQT特征average下采样倍率为100，最终得到的音频特征维度为[84, T]，其中T为时间维度，与音频时长挂钩。
模型结构：

ResNet-IBN模块：为了将ResNet转换为带有IBN模块的模型来学习不变嵌入，将模型的基本元素残差块替换为IBN块（IN有助于模型学习音调、节奏、音色等不变性特征）。
1. 每个残差block的第一个conv添加IBN模块，BN处理一半通道，IN处理另外一半通道。
2. 输入特征1x84xT，最终模型输出的形状为2048x6xT/8。
3. 为保证输出feature map的大小，ResNet50最后一组block的stride设为1。
4. 为防止过多IN层降低模型能力，ResNet50最后一组block保持不变。
GemPool池化模块：将X映射成定长vector，参数p设置为可学习。
BNNeck Loss函数：
1. 结合分类loss和triplet loss对模型进行训练，其中插入BN Layer协调，原因在于分类loss主要优化cosine距离，triplet loss主要优化欧式距离，如果同时对一个FC使用两个Loss，triplet loss会影响到分类的决策面而分类loss会影响到类内紧凑性。
2. GeM模块产生的vector用
  表示，通过BN Layer表示为
  ，训练阶段前者用于计算triplet loss，后者用于计算分类loss。

模型实验结果

模型整体实验结果

模型消融实验

版权声明：本文内容由互联网用户自发贡献，该文观点与技术仅代表作者本人。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容，请发送邮件至 dio@foxmail.com 举报，一经查实，本站将立刻删除。

人工智能深度学习计算机视觉

相关推荐

如何学习编程？新手菜鸟如何学编程？

学习编程是顺着互联网的发展潮流，是一件好事。新手如何学习编程？其实不难，不过在学习编程之前你得先了解你的目的是什么？这个很重要，因为目的决定你的发展方向、决定你的发展速度。

it行业都是什么工作？it行业主要做什么？

IT行业是什么工作做什么？IT行业的工作有：产品策划类、页面设计类、前端与移动、开发与测试、营销推广类、数据运营类、运营维护类、游戏相关类等，根据不同的分类下面有细分了不同的岗位。

女生学Java好就业吗？女生适合学Java编程吗？

女生学Java好就业吗？女生适合学Java编程吗？目前有不少女生学习Java开发，但要结合自身的情况，先了解自己适不适合去学习Java，不要盲目的选择不适合自己的Java培训班进行学习。只要肯下功夫钻研，多看、多想、多练

mysql-connect-confused

Can’t connect to local MySQL server through socket \'/var/lib/mysql/mysql.sock问题 1.进入mysql路径

oracle基本命令

oracle基本命令一、登录操作 1.管理员登录 # 管理员登录 sqlplus / as sysdba 2.普通用户登录

shell判断服务是否启动

一、背景因为项目中需要通北京网络，所以需要连vpn，但是服务器有时候会断掉，所以写个shell脚本每五分钟去判断是否连接，于是就有下面的shell脚本。

SQL BETWEEN 操作符

BETWEEN 操作符选取介于两个值之间的数据范围内的值。这些值可以是数值、文本或者日期。

windows上传ipa到开发者中心app store的方法

假如你已经使用过苹果开发者中心上架app，你肯定知道在苹果开发者中心的web界面，无法直接提交ipa文件，而是需要使用第三方工具，将ipa文件上传到构建版本，开...

SQL 入门篇之什么是别名？

下面的 SQL 语句指定了两个别名，一个是 name 列的别名，一个是 country 列的别名。**提示：**如果列名称包含空格，要求使用双引号或方括号：

windows上传ipa文件到app store的方法

在使用H5混合开发的app打包后，需要将ipa文件上传到appstore进行发布，就需要去苹果开发者中心进行发布。

SQL AND & OR 运算符

+----+--------------+---------------------------+-------+---------+

数组的声明并不是声明一个个单独的变量，比如 number0、number1、...、number99，而是声明一个数组变量，比如 numbers，然后使用 nu...

最全iOS 应用上架流程提交到AppStore

第一步：到appuploader官网下载辅助工具和iCloud驱动，使用前面创建的AppID登录。

SQL ALTER TABLE 语句

如需删除表中的列，请使用下面的语法（请注意，某些数据库系统不允许这种在数据库表中删除列的方式）：

dism操作巨慢

前不久在制作win11pe，制作了一版，1.26GB，太大了，不满意，想再裁剪下，发现这次dism mount正常，commit或discard巨慢，以前都很快...

三种方法卸载Symantec Endpoint Protection 赛门铁克

赛门铁克各个版本概览：https://knowledge.broadcom.com/external/article?legacyId=tech163829

python3.6、python3.10用什么版本的pip

实测Python 3.6.6用pip 21.3.1，再高就报错了，Python 3.10.7用pip 22.3.1是可以的

博通和诺顿

Broadcom Corporation （博通公司，股票代号AVGO）是全球领先的有线和无线通信半导体公司。其产品实现向家庭、办公室和移动环境以及在这些环境...

高版本c4d在低版本windows系统上打开后不显示窗格

发现个问题，server2016上安装了c4d这些版本，低版本的正常显示窗格，但红色圈出的高版本c4d打开后不显示窗格，

基础网络windows不要使用TAT、如何卸载TAT

TAT：https://cloud.tencent.com/document/product/1340

热门文章

最新文章