• 语料库ID:235485458

DeepLab2:用于深度标记的TensorFlow库

@文章{Weber2021DeepLab2AT,title={DeepLab2:深度标记的TensorFlow库},作者={马克·韦伯(Mark Weber)、王慧余(Huiyu Wang)、乔思源(Siyuan Qiao)、谢军(Jun Xie)、麦克斯韦(Maxwell D.Collins)、朱宇坤(Yukun Zhu)、袁良哲(Liangzhe Yuan)、大亨(Dahun Kim)、余启航(Qihang Yu)、丹尼尔·克莱默斯(Daniel Cremers)、劳拉·利尔·泰克斯(,期刊={ArXiv},年份={2021},体积={abs/2106.09748},网址={https://api.semanticscholar.org/CorpusID:235485458}}
DeepLab2是一个用于深度标记的TensorFlow库,旨在为计算机视觉中的一般密集像素预测问题提供最先进且易于使用的Tensor Flow代码库。DeepLab2包括我们最近开发的所有DeepLab模型变体,带有预处理检查点以及模型培训和评估代码,允许社区复制和进一步改进最先进的系统。为了展示DeepLab2的有效性,我们的Panoptic-DepLab采用了Axial

本文中的数字

询问这篇论文
AI供电

PolyMaX:用屏蔽变压器进行一般密度预测

本文提出将基于聚类预测的方法推广到一般密集预测任务中,并在NYUD-v2数据集的三个基准上展示了最先进的性能,并希望简单而有效的设计能够激发更多研究,开发用于更密集预测任务的掩模变换器。

kMaX-DeepLab:k-表示屏蔽变压器

本文重新思考了像素和对象查询之间的关系,并建议将交叉注意学习重新定义为一个聚类过程,该过程开发了用于分割任务的k-means Mask Xformer(kMaX-DeepLab),它不仅提高了技术水平,而且设计简单优雅。

k表示屏蔽变压器

受传统k-means聚类算法的启发,开发了一种用于分割任务的k-means-Mask X模型,它不仅提高了技术水平,而且设计简单优雅。

TubeFormer-DepLab:视频屏蔽变压器

TubeFormer-DepLab首次尝试以统一的方式处理多个核心视频分割任务,并使用特定的任务标签直接预测视频管,这不仅大大简化了视频分割模型,还提高了多个视频分割基准的最新结果。

计算机视觉多任务自回归译码器的研究

这项工作仔细研究了多任务计算机视觉中用于多任务学习的自回归解码器,包括分类、字幕、视觉问答和光学字符识别,并将其与调整良好的单任务基线进行了比较,以突出多任务所产生的成本。

用于高效语义分割的超像素变换器

这项工作利用了超像素的概念,即图像的过度分割,并将其与现代变换器框架一起应用,由于全局自关注机制生成的丰富超像素特征,在语义分割方面取得了最先进的性能。

Waymo开放数据集:全景视频全景分割

提出了Waymo开放数据集,该数据集为自动驾驶提供了高质量的全景分割标签,并提出了基于DeepLab系列模型的全景视频全景分割新基准。

MOAT:交替移动卷积和注意力带来强大的视觉模型

简单而有效的MOAT将激发卷积和自我关注的更无缝集成,而通过简单地减小信道大小而获得的微小MOAT系列也出人意料地优于ImageNet上的几个基于移动变压器的模型。

BGRD-TransUNet:一种基于TransUNet的超声乳腺病变分割新模型

广泛的实验测试表明,根据使用的所有评估指标,包括医学图像分割领域中最重要和最广泛使用的两个指标,所提出的BGRD-TransUNet模型优于所有最先进的医学图像分割模型,即并集上的交集(IoU)和骰子相似系数(DSC)。

ReMaX:放松心情,更好地训练有效的全景分割

本文提出了ReMaX,它在全景分割的训练过程中为掩模预测和类预测添加了松弛,并证明了在训练过程中通过这些简单的松弛技术,可以在不增加任何额外计算开销的情况下持续改进模型。

TensorFlow:大规模机器学习系统

描述了TensorFlow数据流模型,并演示了Tensor Flow在几个实际应用程序中实现的引人注目的性能。

重新思考计算机视觉的初始架构

这项工作正在探索扩大网络规模的方法,其目的是通过适当的因式分解卷积和积极的正则化,尽可能有效地利用增加的计算。

DeepLab:使用深度卷积网络、Atrous卷积和全连接CRF的语义图像分割

本文研究了基于深度学习的语义图像分割任务,提出了一种atrous空间金字塔池(ASPP),用于在多尺度上对目标进行稳健分割,并通过结合DCNN和概率图形模型的方法改进了目标边界的定位。

宽剩余网络

本文对ResNet块的体系结构进行了详细的实验研究,并提出了一种新的体系结构,其中减少了剩余网络的深度和宽度,由此产生的网络结构称为宽剩余网络(WRN),它远远优于常用的薄剩余网络和深剩余网络。

关注尺度:尺度感知语义图像分割

提出了一种学习在每个像素位置对多尺度特征进行软加权的注意机制,该机制不仅优于平均和最大值法,而且允许我们诊断性地可视化不同位置和尺度上特征的重要性。

具有随机深度的深网络

提出了随机深度,这是一种训练过程,它使看似矛盾的设置能够在测试时训练短网络和使用深网络,大大缩短了训练时间,并显著改善了几乎所有用于评估的数据集的测试误差。

ViP-DeepLab:通过深度软件视频全景分割学习视觉感知

在本文中,我们提出了ViP-DeepLab,这是一个统一的模型,试图解决视觉中长期存在的具有挑战性的反向投影问题,我们将其建模为从

用于语义分割的全卷积网络

关键的见解是构建“完全卷积”网络,该网络接受任意大小的输入,并通过有效的推理和学习产生相应大小的输出。

图像识别中的深度残差学习

这项工作提出了一个残差学习框架,以简化比以前使用的网络深度大得多的网络的训练,并提供了全面的经验证据,表明这些残差网络更容易优化,并且可以从显著增加的深度中获得准确度。
...