卷积神经网络在深度学习中新发展的5篇论文推荐

转载自：Deephub Imba

1、Deformable CNN and Imbalance-Aware Feature Learning for Singing Technique Classification

Yuya Yamamoto, Juhan Nam, Hiroko Terasawa

https://arxiv.org/pdf/2206.12230

歌唱技术是利用音色、音高和声音的其他成分的时间波动来进行富有表现力的声乐表演。它们的分类是一项具有挑战性的任务，这主要是因为两个因素:1)歌唱技术的波动种类繁多，受多种因素的影响;2)现有数据集不平衡。为了解决这些问题，论文开发了一种新的基于变形卷积的音频特征学习方法，利用类加权损失函数对特征提取器和分类器进行解耦训练。实验结果表明:1)可变形卷积提高了分类效果，特别是应用于最后两层卷积时;2)对分类器进行再训练，并通过平滑的反频率加权交叉熵损失函数，提高了分类性能。

2、CNN-based fully automatic wrist cartilage volume quantification in MR Image

Nikita Vladimirov, Ekaterina Brui, Anatoliy Levchuk, Vladimir Fokin, Aleksandr Efimtcev, David Bendahan

https://arxiv.org/pdf/2206.11127

软骨缺失的检测对骨关节炎和类风湿关节炎的诊断至关重要。到目前为止已有大量关于关节磁共振图像软骨评估的自动分割工具的论文。与膝关节或髋关节相比，腕关节软骨的结构更为复杂，针对大关节开发的自动工具无法用于腕关节软骨的分割。但是全自动腕关节软骨分割方法具有很高的临床价值，所以论文通过优化U-Net架构的深度和增加注意层(U-Net_AL)，评估了U-Net架构的四种优变体的性能。并·将相应的结果与之前设计的基于patch的卷积神经网络(CNN)的结果进行比较。分割质量的评估基于使用几种形态学（2D DSC、3D DSC、精度）和体积指标与手动分割进行的比较分析。这四种网络在分割的同质性和质量上都优于基于patch的CNN。U-Net_AL计算的三维DSC中值(0.817)显著大于其他网络计算的相应三维DSC值。此外U-Net_AL CNN提供了最小的平均体积误差(17%)和相对于真实值最高的Pearson相关系数(0.765)。使用U-Net_AL计算的再现性比手动分割的再现性更大。带有附加注意力层的U-net卷积神经网络提供了最佳的手腕软骨分割性能。为了在临床条件下使用，经过训练的网络可以对代表一组特定患者的数据集进行微调。

3、EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for Mobile Vision Applications

Muhammad Maaz, Abdelrahman Shaker, Hisham Cholakkal, Salman Khan, Syed Waqas Zamir, Rao Muhammad Anwer, Fahad Shahbaz Khan

https://arxiv.org/pdf/2206.10589

为了追求精度的不断提高，通常需要开发大型和复杂的神经网络。这种模型需要很高的计算资源，因此不能部署在边缘设备上。所以构建资源高效的通用网络在多个应用领域都收到了很大的关注。这篇论文的工作有效地结合了CNN和Transformer模型的优势，并提出了一种新的高效混合架构EdgeNeXt。特别是在EdgeNeXt中，引入了分割深度转置注意力(SDTA)编码器，该编码器将输入分割为多个信道组，并利用深度卷积和跨信道维度的自注意力来隐式增加接收场并编码多尺度特征。通过在分类、检测和分割任务上的大量实验，证明了提出的方法的优点：相对较低的计算要求并优于最先进的方法。以 2.2% 的绝对增益和 28% 的 FLOP 减少的绝对增益超过了 MobileViT。EdgeNeXt模型具有5.6M参数，在ImageNet-1K上实现了79.4% top-1精度。

4、Scaling up Kernels in 3D CNNs

Yukang Chen, Jianhui Liu, Xiaojuan Qi, Xiangyu Zhang, Jian Sun, Jiaya Jia

https://arxiv.org/abs/2206.10555

2D CNN 和 ViT 的最新进展表明，大内核对于足够的感受野和高性能至关重要。受这些论文的启发，改论文研究了 3D 大内核设计的可行性和挑战。证明了在 3D CNN 中应用大卷积核在性能和效率上有更多的困难。在 2D CNN 中运行良好的现有技术在 3D 网络中是无效的，包括流行的 depth-wise convolutions。为了克服这些问题，论文提出了空间组卷积及其大内核模块（SW-LK 块）。避免了传统的 3D 大内核的优化和效率问题。论文提出的大内核 3D CNN 网络，即 LargeKernel3D，对各种 3D 任务（包括语义分割和对象检测）产生了重大改进。它在ScanNetv2语义分割上实现了73.9%的mIoU，在NDS nuScenes对象检测基准上实现了72.8%，在nuScenes LIDAR排行榜上排名第一。通过简单的多模态融合，NDS 进一步提升至 74.2%。LargeKernel3D 获得了与其 CNN 和 Transformer 相当或更好的结果。并首次证明大内核对于 3D 网络是可行且必不可少的。

5、MEStereo-Du2CNN: A Novel Dual Channel CNN for Learning Robust Depth Estimates from Multi-exposure Stereo Images for HDR 3D Applications

Rohit Choudhary, Mansi Sharma, Uma T V, Rithvik Anil

https://arxiv.org/pdf/2206.10375

显示技术中的HDR捕获、处理和显示解决方案是至关重要的。在开发高性价比的3D HDR视频内容中，多曝光立体图像序列的深度估计是一项必不可少的任务。这篇论文提出并开发了一种新的深度架构用于多重曝光立体声深度估计。提出的体系结构有两个新的组件。1、对传统的立体深度估计中使用的立体匹配技术进行了改进，部署了一种立体迁移学习方法，该方法避开了成本体积构造的要求，采用基于ResNet的不同权重的双编码器和单解码器CNN进行特征融合，并使用基于effentnet的块来学习视差。2、利用鲁棒的视差特征融合方法，将不同曝光水平下立体图像的视差图进行组合。用不同的曝光获得的视差图合并使用权重图计算不同的质量。最终得到的预测视差图具有更强的鲁棒性，并保留了深度不连续的最佳特征。论文提出的CNN架构在具有挑战性的场景流和不同曝光的Middlebury立体数据集上，在定量和定性方面都超过了最先进的单眼和立体深度估计方法。该架构在复杂的自然场景中也表现得非常好，证明了它对各种3D HDR应用程序都是有用的。

作者：monodeep