结合外观、深度和运动实现高效语义场景理解

蒂莫·雷菲尔德(2018)
结合外观、深度和运动，实现高效的语义场景理解。
达姆施塔特科技大学
博士论文，主要出版物

预览

文本
论文_timo_rehfeld_final_a4_color_refs_marc10_2018_small.pdf-接受的版本
版权信息：CC BY-NC 4.0 International-创意共享、归因非商业.
下载（7MB）|预览

项目类型：

博士论文

条目类型：

主要出版物

标题：

结合外观、深度和运动实现高效语义场景理解

语言：

英语

裁判：

Roth教授Stefan博士;Rother，Carsten博士教授

日期：

2018

出版地点：

达姆施塔特

口试日期：

2017年9月26日

摘要：

计算机视觉在自动驾驶汽车技术中起着核心作用，因为相机价格相对便宜，能够捕捉到丰富的环境信息。特别是，可以基于图像数据很好地提取对象类，即某个对象是行人、骑自行车者还是车辆。城市中心的环境感知是一个极具挑战性的计算机视觉问题，因为环境非常复杂且杂乱：需要实时检测道路边界和标线、交通标志和灯光以及许多不同类型的相互遮挡的物体。现有的汽车视觉系统不容易扩展到这些要求，因为每个问题或对象类别都是独立处理的。另一方面，场景标记将对象类信息分配给图像中的每个像素，是通过跨多个类共享提取的特征来避免这种开销的最有希望的方法。与边界盒检测器相比，场景标记还提供了更丰富、更密集的环境信息。然而，现有的大多数场景标记方法需要大量的计算资源，这使得它们不适用于车内实时应用。此外，就带宽而言，密集像素级表示不适合将感知到的环境传输到自主车辆的其他模块，例如定位或路径规划。

本文通过围绕Pfeiffer（2011）的“Stixel World”模型构建场景标记概念来解决汽车环境中的场景标记问题，该模型将有关环境的密集信息压缩为一组垂直于地平面直立的小“棍子”。这项工作提供了现有Stixel公式的第一个扩展，该公式考虑了学习到的密集像素级外观特征。在第二步中，使用Stixel作为基本场景元素来构建高效的区域级标记方案。本文的最后一部分提出了一个模型，该模型将像素级和区域级场景标记合并为一个单一的模型，可以产生最先进或更好的标记精度，并且可以以典型的相机刷新率实时执行。这项工作进一步研究了现有深度信息（即来自立体相机的深度信息）如何有助于提高标签精度和减少运行时间。

备选摘要：

备选摘要

语言

Maschinelle Bildverabeitung spielt eine zentrale Rolle für autonome Fahrzeuge，da Kameras vergleichsweise günstig sind und eine Vielzahl an Informationonenüber die Umgebung erfassen。Insbesondere die Objektklasse，也是Objek tein Fußnger，Radfahrer oder Auto ist，kann sehr gut anhand von Bildmaterial erkannt werden的最佳人选。Umgebungserfassung im städtischen Umfeld is ein große Herausforderung für Bildverabeitungsalgorithmen，da die Umgebund sehr komplex und unstrukturiert ist:Fahrbahnberang und Spurmarkierungen，Schilder und Ampeln，und viele weitere Objekte die sich gegenseitig verdecken können，müssen in Echtzeit erkannt werden。Die derzeit存在于智能化的Fahrzeugen skalieren nicht ohne weiteres zu diesen Anforderungen中，da-jedes问题bzw jede Objektklasse getrent behandelt wird。Sogenanntes“场景标记”，welches jedem Pixel im Bild eine Klasse zuweist，ist eine vielversprechende Methode um diesen Mehraufwand zu vermeiden indem extrahierete Bildmerkmale zwischen verschiedenen Klassen geteilt werden。Verglichen mit Bounding-Box Detektoren liefert场景标签außerdem eine reichhaltigere und dictere Darstellung der Umgebung。Die meisten理解了场景标签Verfahren haben的意思，即在Echtzeit nicht ermöglicht中的eine Anwendung。Zusätzlich是Hinblick auf Bandbreite eine dictite Darstellung auf Pixel-Ebene nicht ideal um die erfasset Umgebung an andere Module in einem autononem Fahrzeug（wie z.B.Lokalisierung und Pfad-Planung）zuübertragen。

Diese Dissertation geht Scene Labeling aus einem Automobil-Kontext an，indem ein Scene Labeling Konzept um das“Stixel Welt”Modell von Pfeiffer（2011）aufgebaut wird，welches dicte Umgebungsinformation zu einer Menge von kleinen senkrecht auf dem Boden stehenden Stäben komprimert。在dieser Arbeit wird erstmals die besthend Stixel-Formulierung dahingehend erweitert中，dass dicte gelernte Bildmerkmale auf Pixel-Ebene berücksichtigt werden。在einem zweiten Schritt werden Stixel als Bassisbortine der Szene benutzt um ein hocheffizientes标签模式auf Regions-Ebene zu realifieren中。Der letzte Teil dieser Arbeit stell ein Konzept vor，dass Labeling auf Pixel-Enee und Regions-Enee in einem einzigen Modell kombiniert，welches eine Genauggeit vergleichbar oder besser als Der aktuelle Stand Der Technik liefert und in Echtzeit mit typischen Bildwiederholraten ausgeführt werden kann。Diese Arbeit untersucht des Weiteren in wiefern vorhandene Tiefeninformation，z.B.von einer Stereo-Kamera，helfen kann um die Labeling-Präzision zu erhöhen und Laufzeit zu reduzieren。

德国的

URN:

urn:nbn:de:tuda-tuprints-73155

分类DDC：

000通用、计算机、信息>004计算机科学

分部：

20计算机科学系
20计算机科学系>视觉推理

存款日期：

2018年4月26日07:26

上次修改时间：

2020年7月9日02:03

URI（URI）：