在深度卷积网络的机械臂抓取中,透明物体深度图修复有何地位?

文|小初

编辑|小初

«——【·前言·】——»

透明物体是生产生活中常见的一类物体,其特殊光学性质导致了消费级深度相机很难对其深度图进行准确成像,所以在对透明物体进行抓取位姿检测和抓取规划之前,对深度图进行修复预处理是一项不可或缺的环节。

近年来,在透明物体深度图修复领域涌现了许多研究工作,虽然它们工作能够实现不错的修复效果,但它们普遍存在模型体积大、计算速度慢等缺点。

很难应用到实时性要求较高的场景,对此本文设计了透明物体深度图修复网络E2EDepthNet,该网络是一种轻量级的深度卷积网络。

为了增加网络内部的信息流动路径并提升网络的学习能力,基于密集跳层连接结构设计了编码器-解码器架构,网络中特征提取单元基于融合eSE注意力的单次聚合模块设计。

基于多尺度的思想设计了多层特征融合模块,进一步提升了编码器的特征提取能力,在解码器设计中采用了稠密上采样卷积,以获取更为精细的修复结果。

«——【·抓取透明物体的挑战·】——»

针对透明物体而言,由于其具有特殊的光学特性:折射和反射,导致使用普通商用RGB-D深度相机去对其深度信息进行感知时会出现深度错误甚至深度缺失的问题。

可能会出现的两种错误的深度测量结果,第一类是由于光线的折射导致的深度测量错误,传感器会测量到透明材质背后的表面的深度。

第二类是由于在深度图上表现为存在大面积空洞,以上存在的问题对于依赖深度图的诸如三维重建、抓取检测来说是一个很大的干扰。

«——【·E2EDepthNet透明物体深度修复网络·】——»

DFNet的核心模块是DenseNet中的稠密连接模块(DenseBlock),DenseBlock被应用到了DFNet编码器和解码器的各个阶段,作为基本的组件进行特征提取以及特征融合。

在本文中,将使用更为高效的单次聚合(One-ShotAggregation,OSA)模块作为基本特征提取单元来构建编解码器。

根据前辈关于轻量级网络的理论,在网络的输入输出通道数量一致的情况下,内存访问成本(MemoryAccessCost,MAC)能达到最小值,这样网络就能够实现更高的计算速度并最大限度地发挥硬件平台的计算性能。

基于上述理论,有人提出了VoVNet网络模型,与DenseNet[14]类似,但是比DenseNet计算量更低、效率更高,VoVNet的核心是单次聚合(One-ShotAggregation,OSA)模块,DenseNet的核心是稠密连接模块DenseBlock。

稠密连接模块中的模块每经过一次卷积就会将得到的特征与上一层特征进行聚合,如此一来,频繁的聚合操作虽然使特征得到了更加充分的融合,然而不可避免地也带来了更高的计算复杂度,并且聚合前后的特征的通道个数是不同的。

这样一来,网络中间通道的个数会不断地呈线性趋势增长,这将使得网络的内存访问成本最优化难以实现。

改进得到的OSA模块与DenseBlock不同,OSA模块将各层的特征聚合操作放到了网络的最后,中间各个特征层的前后通道个数都是一致的,通过这样的设计克服了DenseBlock的不足,可以从原理上比前者达到更低的MAC,使其更加高效。

为了进一步提升OSA模块的性能,在模块输出部分加入了高效挤压激励(effectiveSqueeze-Excite,eSE)通道注意力模块。

挤压和激励(Squeeze-and-Excitation,SE)是CNN中常用的具有代表性的通道注意力机制,SE能够对特征通道之间的关系进行显示地建模以增强CNN表达能力。

SE通过全局平均池化(GlobalAveragePooling,GAP)的方式来挤压空间依赖性,学习到通道的特定描述符,然后使用两个全连接层(FullyConnectedLayer)和Sigmoid函数对输入特征图进行重新缩放,以突出更加对网络有用的通道。

然而,原始的SE存在一个局限性:由于全接层降维导致的通道信息丢失,具体来说,SE模块的两个全连接层需要降低通道维度以减少模型复杂度,第一个全连接层使用的缩减比为r,将输入特征的通道缩减。

第二个全连接层再将缩减后的特征通道数扩展到,因此这种通道降维造成了通道特征信息的丢失。

本文将只包含一个全连接层的eSE模块加入到了OSA模块中以在不丢失通道特征信息的情况下提升网络特征表达能力,eSE注意力模块的公式如下:

本章将带有eSE注意力的OSA模块作为基本特征提取单元,结合Unet++中的层间密集连接思想,设计了更加高效的编码器网络。

编码器由5个阶段组成,第一阶段为由步长为2的卷积、批归一化和ReLU函数组成的CBR层。

第二到第五阶段均由OSA模块和最大池化下采样模块组成的基本块构成,基本块将首先将输入的多个特征图进行通道维度连接,接着通过OSA模块提取特征,最后利用步长为2,核大小为3的最大池化层实现特征下采样。

根据Unet++中的层间密集连接思想,除了在相邻阶段之间进行连接之外,还在间隔阶段之间增加了层间跳跃连接。

具体来讲,将第一阶段输出的特征图跳过第二阶段直接输入第三阶段,将第二阶段输出的特征图输入第四阶段,第三阶段输出的特征图输入第五阶段。

值得注意的是,间隔阶段之间特征图尺寸不同,无法直接进行通道维度连接,故分辨率高的特征图在连接之前需要通过卷积步长为2的CBR层来降低其分辨率。

DFNet证明,将原始深度图进行下采样之后分别输入编码器解码器的各个对应阶段能够有效提高深度修复的精度,故本文也在编码器各个阶段融合下采样之后的单通道原始深度图

编码器网络通常由多个编码器阶段组成,每个阶段的输出特征图都具有不断提高的抽象程度和逐渐缩小的分辨率。

这些特征图不仅包含了基础的低级视觉特征,还蕴含着更为丰富的高级语义信息,如对象的形状、颜色、纹理等。

在许多视觉任务中,如语义分割、目标检测等,多尺度的思想被广泛采用,旨在从不同尺度和分辨率的特征中获取更全面和准确的信息。

为此,本章设计了一种多层特征融合模块,该模块通过进一步融合来自编码器阶段不同层级的特征,实现了多尺度思想。

具体来说,该模块将不同尺度和分辨率的特征图进行融合,从而获得更为全面和丰富的视觉信息,这种方法有助于在不同尺度和分辨率上探索对象特征,从而更好地理解视觉场景,并在复杂的视觉任务中获得更好的性能。

在多层特征融合模块的结构图中,模块分为4个阶段,分别对来自4个编码器输出的特征图进行分批融合处理,每个阶段由基本的拼接层(Concatenate)和卷积层CBR组成。

在进行特征拼接之前需要通过CBR层来调整特征图的分辨率,例如编码器1输出的特征图F1分辨率为H/2 W/2。

要与来自编码器2的特征F2进行通道维度连接,则首先需要通过一个步长为2且卷积核尺寸为3 3的CBR层将F1分辨率调整至与F2一致的H/4 W/4。

每个阶段的最后为一个步长为1,卷积核尺寸为1 1的CBR层,其作用是降低特征图通道数,在经过4个阶段的特征融合之后,得到尺寸为H/16 W/16 C的增强特征图。

«——【·网络训练与实验分析·】——»

本文在TransCG数据集上对网络展开性能评估,TransCG数据集由机器人进行自动化收集和标注,包含来自130个不同场景的57715张RGB-D图像,数据集中包含了生活中常见的51个透明物体。

该数据集是透明物体深度修复领域目前已公开的拥有最大规模的真实世界数据集,它提供了在各种杂乱场景中的RGB图像、原始深度值、真实深度值、表面法线以及透明物体区域的二进制掩码等数据。

使用PyTorch深度学习框架来实现E2EDepthNet网络时,在TransCG公开数据集上对网络进行训练和测试,在高性能工作站上进行训练和验证实验。

在本章中,采用AdamW优化器来训练E2EDepthNet网络,AdamW结合了Adam优化算法的自适应学习率和L2正则化的权值衰减,既能够减少训练过程的震荡和不稳定性,又能够有效地控制模型的过拟合情况,能有助于获得更好的训练效果。

为了在训练过程中更好的平衡模型的收敛速度和精度,本章还使用MultiStepLR学习率调整策略来动态调整学习率。

具体来讲,MultiStepLR策略能够在特定的迭代次数或者epoch数处对学习率进行调整,可以更好适应当前的训练状态。

AdamW优化器初始学习率设置为0.001,不设置权重衰减,MultiStepLR的学习率调整点为第5、15、25、35个epoch,MultiStepLR衰减因子设置为0.2,输入批次设置为32,Epoch数设置为40,损失函数中的光滑损失项权重设置为0.001。

«——【·透明物体抓取检测实验·】——»

为了验证DSC-GraspNet抓取检测网络对于透明物体的有效性,并对比原始深度图和通过E2EDepthNet算法修复之后的深度图对抓取检测网络的影响。

本文基于仿真合成的方式构建了透明物体抓取数据集,并在该数据集上进行抓取检测性能评估。

深度神经网络的训练需要大量数据,然而是在涉及到透明物体的抓取位姿检测任务时,在真实世界中获取这些数据的成本非常高昂。

Blender是一款专业的三维计算机图形软件之一,具有出色的物理渲染能力,可以制作高质量、逼真的合成数据样本,即使是在透明材质物体上也能得到非常好的效果。

它提供了简洁的PythonAPI接口,使用户能够方便地自定义渲染管道,以便于满足各种渲染需求。

获取到仿真的RGB图像、原始深度图之后,通过rolableimg工具来手动标注旋转抓取框,标注完成之后会生成xml文件,后通过脚本将其转换为与Jacquard数据集一致的抓取标签格式。

在自建透明物体抓取数据集上开展深度修复前后抓取检测网络准确率对比试验,类似于Jacquard数据集的划分方式。

本文将80%的数据划分为模型的训练集,剩下的20%数据作为测试集,采用与本文3.4.3小节所述的指标对网络预测出的抓取姿态进行准确率评估。

从资料中可以看出,相较于使用未经修复的原始深度图,使用E2EDepthNet算法修复之后的深度图作为网络输入可以明显提高三种抓取检测网络对于透明物体的抓取检测准确率。

并且DSC-GraspNet已经取得了最佳的检测精度,在使用修复后深度图作为输入时,抓取检测准确率达到了84.2%,比使用原始深度图提高了6.7%。

«——【·结语·】——»

本文设计了一个轻量级透明物体深度图修复网络,首先,针对机械臂抓取透明物体时存在的挑战进行了阐述。

其次,设计了一种轻量级透明物体深度图修复网络E2EDepthNet,为了增加网络内部的信息流动路径以提升网络的学习能力,采用了具备密集跳层连接的编码器-解码器架构。

在公开的TransCG数据集上开展了对比实验,实验结果表明E2EDepthNet在多个指标上均领先于现有方法,同时在真实场景下开展了定性对比实验,实验结果表明E2EDepthNet相较于DFNet拥有更好的修复效果。

最后,自建了透明物体抓取数据集,并在该数据集上进行抓取检测性能评估实验,实验结果表明经过E2EDepthNet修复之后的深度图能够提升抓取检测网络的准确率。

«——【·参考文献·】——»

[1]刘亚欣,王斯瑶,姚玉峰,等.机器人抓取检测技术的研究现状[J].控制与决策,2020,35(12):2817–2828.

[2]段倩倩,辛绍杰.基于改进混合粒子群算法的机器人轨迹规划[J].机床与液压,2022,50(17):50-56.

[3]邹慧,周虎,张骐薇等.基于改进粒子群算法的机器人时间最优轨迹规划[J].制造业自动化,2023,45(01):107-110+176.

[4]杨云,周诚,王崴等.基于SUMTNSGA-II的多目标轨迹规划[J].计算机工程与设计,2015,36(11):3076-3081.

[5]申铉京,施英杰,黄永平等.基于双向蚁群算法的路径规划研究[J/OL].哈尔滨工程大学学报,2023(01):1-11.

[6]吴晓雯,郑巧仙,徐鑫强.改进蚁群算法求解多目标单边装配线平衡问题[J].计算机科学,2022,49(S2):164-168.

展开阅读全文

页面更新:2024-03-25

标签:卷积   物体   深度   透明   网络   编码器   模块   通道   特征   地位   数据   机械

1 2 3 4 5

上滑加载更多 ↓
推荐阅读:
友情链接:
更多:

本站资料均由网友自行发布提供,仅用于学习交流。如有版权问题,请与我联系,QQ:4156828  

© CopyRight 2008-2024 All Rights Reserved. Powered By bs178.com 闽ICP备11008920号-3
闽公网安备35020302034844号

Top