Continually learning new languages

Pham, Ngoc Quan

doi:10.5445/IR/1000164125

摘要：

Spracherkenung is die Aufgabe，automatisch Transkriptionen von gegebenen Sprachäußerungen zu erstellen。Dieser Forschungsbereich在unserm täglichen Leben breite Anwendung，z.B.bei der Unterstützung ausländischer Studierenden in Vorlesungen oder bei der Steuerung intelligenter Geräte wie Smart-TV oder Autos durch Sprachbefehle中发现了这一点。

Die 7000 Sprachen，Die auf der Welt gesprochen werden，stellen eine Herausforderung für Spracherkennungssysteme dar。Herkömmliche Spracherkenungsmethoden，die Hidden Markov-Modelle verwenden，sind in der Praxis nicht für viele Sprachen gleichzeitig an wendbar，da sie Aussprachweörterbücher und eine Pipeline von getrententententente Komponenten erfordern。 …迈尔神经网络端到端-安萨茨-恩斯潘在安福orderungen死亡，神经网络在Netzwerk verwendet wird死亡，神经信号在Wortoberflächenausgaben zu erlernen死亡，以及神经网络在Netzwerk werden死亡Lernziel optimiert死亡。Auf diese Weise kann ein einziges Modell培训师werden，um viele Sprachen gleichzeitig zu erkennen。

Zu den Desireden eines mehrsprachigen Erkennungssystems gehören die folgenden Faktoren公司：

Das Trainingsverfahren mit einem kombinierten Datensatz aus mehreren Sprachen sollte nichtübermäßig kompliziert sein und ist industriell viel effizienter als die Entwicklung mehrerer einsprachigher Erkennungssysteme。
Die Erkennungsqualität des mehrsprachigen Systems sollte konkurrenzfähig order besser sein als Die der einsprachigen Einzelsysteme公司。Da viele Sprachenähnliche akustische Merkmale aufweisen，sollte die Architektur der Erkennungssysteme dies widerspiegeln und gleichzeitig Raum für die Modellierung der einzigartigen Merkmalen der einzelnen Sprachen lassen。
Entscheidend ist，dass das System erweiterungsfähig ist，d.h.dass es ständig neue Sprachen lernen kann。Die Einführung neuer Sprachen sollte Die Leistung der bereits erlernten Sprachen nicht beeinterächtigen。Gleichzeitig mus die Qualität dieser neuen Sprachen im Vergleich zum idealen Szenario，in dem alle Sprachen auf einmal vorhanden sind，konkurrenzfähig sein。Dieser Faktor is wichtig für die Skalierung von Erkennungssystemen in einem weltweiten Umfeld，in dem die Beschafung von Daten für-neue Sprachen schwierig is und die Datenspeicherung aufgrund von Speicherbedarf und Datenschutzproblemen nicht ewig möglich ist。

Ziele柴油机Arbeit sind darauf ausgerichet，Spracherkennung in Richtung柴油机Desider weiterzuentwickeln。过去的Ziel wurde一直在努力工作。Die Motivation hierfür war，dass aufgrund des hohen Abstraktionsniveaus im Vergleich zu traditionellen Methoden，wie z.B.der Entfernung von Wörterbüchern und konkretem Alignment-Lernen，Die Leistung von neuronalen End-End-End-Modellen immer noch schleter war als bei traditionallen Systemen。变压器网络的Verwendung von sehr tiefen Transformer Netzen是一场现代的Ergebnis战争，是一场端到端的战争。

Nachdem ein主演neuronales End-to-End-Modell erreicht wurde，besteht das nächste Ziel darin，es für eine großanglegte mehrsprachige Erkennung einzusetzen。这是一个微不足道的问题，因为这是一个由Dutzen von Sprachen zu erstellen和Desiderat Ziel erfüllt共同开发的开发系统。Um eine klare Lernstrategie zu haben，die sprachabhängige und unabhäncige Merkmale trennt，haben wir die Gewichtsfaktorisierung als Technik vorgeschlagen，die jede Gewichtmatrix im Netzwerk in sprachabängig und ungage Faktoren zerlegt。Die sprachabhängigen Gewichte werden weiter faktorisiert，um das Netzwerk zu ermutigen，universelle Merkmale zu lernen。Darüber hinaus kann diese Technik mit Transfer-Lernen kombiniert werden，wodurch die Wortfehlerrate für 32 Sprachen um 33%im Vergleich zu einer konkurrierenden Transformer-Baseline reduziert wird公司。

Mit der Gewichtungsfaktorisierung是修女daskontinuierliche Lernen neuer Sprachen möglich。Die Netze können neue Gewichte für neue Sprachen zuweisen，ohne in Die Logik der alten Sprachen einzugreifen，wodurch ein katastrophales Vergessen，das Hauptproblem des Verlusts von Wissenüber frühere Sprachen beim Training neuer Sprachen，vollständig virseden wird。Die Gewichtsfaktorisierung，eine Form der progressiven neuronalen Netze，kann auch mit der elastischen Gewichts consolidierung kombiniert werden，einer Regularisierungsmethode zur Vermeidung des katastrophalen Vergessens。Diese Kombination macht die gesamte Netzarchitektur flexibler，da sie Leerstellen im Netz findet，um neues Wissen zu lernen公司。Auf diese Weise ist es möglich，neue Sprachen mit der gleichen Qualityät zu erlen，wie wenn man alle Sprachen von Anfang an berrschen würde，ohne dass es zu ernsthaften Kompromissen in Bezug Auf das katastropale Vergessen kommt。

让Beitra Der Arbeit在Bereich Der directen Sprachübersetzung的Anwendung去世。Für viele Sprachen is es bequemer，die u bersetzung anstelle des Transkripts von Sprachäußerungen zu sammeln。Die gleiche neuronale Architektur kann in dieser Situation ohne jegliche Modifikation-angewendet-werden。Beitrag wird dadurch hervorgehoben，dass gezeigt wird，dass ein neuronales Modell jetzt leistungsfähig genug ist，um kaskadierte Ansätze zuübertreffen，entweder in großangelegten Sprachübersetzungen oder in ressourcenbeschränkten mehrsprachigen Sprachíbersetzhungszenarien。

摘要（英语）：

语音识别的任务是自动生成给定语音的转录。该研究领域广泛应用于我们的日常生活中，例如帮助外国学生讲课或通过语音命令控制智能设备，如智能电视或汽车。

世界上使用的7000种语言对语音识别系统提出了挑战。传统的基于隐马尔可夫模型的语音识别方法由于语音字典和分离组件流水线的要求，实际上并不适用于多种语言。 …迈尔

Zugehörige学院（en）am KIT	人类与机器人研究所（IAR）
发布类型p	Hochschulschrift公司
发布数据	2023年12月1日
喷水	恩利施
标识符	KITopen标识：1000164125
Verlag公司	卡尔斯鲁厄技术研究所（KIT）
圆周	十六、191 S。
阿尔贝特美术馆	论文
法库尔特	Fakultät für Informatik（信息）
研究所	人类与机器人研究所（IAR）
普吕·冯斯达姆（Prüfungsdatum）	02.02.2023
施拉格沃尔特	深度学习、语音识别、语音翻译、持续学习
参考/Betreuer	亚历山大·威贝尔渡边信吉

存储库KITopen

不断学习新语言

摘要：

摘要（英语）：