Spracherkennung是Aufgabe公司的自动化Transkrionen von gegebenen Sprachäußerungen zu erstellen公司。Dieser Forschungsbereich在unserm täglichen Leben breite Anwendung,z.B.bei der Unterstützung ausländischer Studierenden in Vorlesungen oder bei der Steuerung intelligenter Geräte wie Smart-TV oder Autos durch Sprachbefehle中发现了这一点。
Die 7000 Sprachen,Die auf der Welt gesprochen werden,stellen eine Herausforderung für Spracherkennungssysteme dar。Herkömmliche Spracherkenungsmethoden,die Hidden Markov-Modelle verwenden,sind in der Praxis nicht für viele Sprachen gleichzeitig an wendbar,da sie Aussprachweörterbücher und eine Pipeline von getrententententente Komponenten erfordern。…迈尔端到端的神经网络是在Anforderungen的基础上建立的,在Netzwerk的神经网络中,以及在Wortoberflächenausgaben的领导下建立的Abbildung von Sprachssignalengaben,以及在Netzwerk的所有成员都是Lernziel优化的领导。Auf diese Weise kann ein einziges Modell培训师werden,um viele Sprachen gleichzeitig zu erkennen。
Zu den Desireden eines mehrsprachigen Erkennungssystems gehören die folgenden Faktoren公司:
Das Trainingsverfahren mit einem kombinierten Datensatz aus mehreren Sprachen sollte nichtübermäßig kompliziert sein und ist industriell viel effizienter als die Entwicklung mehrerer einsprachigher Erkennungssysteme。 Die Erkennungsqualität des mehrsprachigen Systems sollte konkurrenzfähig order besser sein als Die der einsprachigen Einzelsysteme公司。Da viele Sprachenähnliche akustische Merkmale aufweisen,sollte die Architektur der Erkennungssysteme dies widerspiegeln und gleichzeitig Raum für die Modellierung der einzigartigen Merkmalen der einzelnen Sprachen lassen。 Entscheidend ist,dass das System erweiterungsfähig ist,d.h.dass es ständig neue Sprachen lernen kann。Die Einführung neuer Sprachen sollte Die Leistung der bereits erlernten Sprachen nicht beeinterächtigen。Gleichzeitig mus die Qualität dieser neuen Sprachen im Vergleich zum idealen Szenario,in dem alle Sprachen auf einmal vorhanden sind,konkurrenzfähig sein。Dieser Faktor is wichtig für die Skalierung von Erkennungssystemen in einem weltweiten Umfeld,in dem die Beschafung von Daten für-neue Sprachen schwierig is und die Datenspeicherung aufgrund von Speicherbedarf und Datenschutzproblemen nicht ewig möglich ist。
Die Ziele dieser Arbeit sind darauf ausgerichtet,Die Spracherkenung in Richtung dieser Desireate weiterzuentwickeln。过去的Ziel wurde一直在努力工作。Die Motivation hierfür war,dass aufgrund des hohen Abstraktionsniveaus im Vergleich zu traditionellen Methoden,wie z.B.der Entfernung von Wörterbüchern und konkretem Alignment-Lernen,Die Leistung von neuronalen End-End-End-Modellen immer noch schleter war als bei traditionallen Systemen。Durch die Verwendung von sehr tiefen Transformer-Netzen mit stochamischen Schichten und einem Mechanismus für relative Positionsselbstaufmerksamkeit ist es möglich,eine konkurrenzfähige Leistung in Standard-Benchmarks für-Konversations-Englisch zu erreichen,was das modernste Ergebnis war,das mit Englien-Engliel-wourde Engledelt wurde。
Nachdem ein主演neuronales End-to-End-Modell erreicht wurde,besteht das nächste Ziel darin,es für eine großanglegte mehrsprachige Erkennung einzusetzen。Da dieser Ansatz nicht durch sprachspezifische Aussprachhewörterbücher eingeschränkt是一个微不足道的系统,它由Dutzenden von Sprachen zu erstellen开发,das das erste Desider Ziel erfüllt开发。Um eine klare Lernstrategie zu haben,die sprachabhängige und unabhäncige Merkmale trennt,haben wir die Gewichtsfaktorisierung als Technik vorgeschlagen,die jede Gewichtmatrix im Netzwerk in sprachabängig und ungage Faktoren zerlegt。Gewichte大学的学生们都在学习,比如Netzwerk zu ermutigen大学、Merkmale zu lernen大学。Darüber hinaus kann diese Technik mit Transfer-Lernen kombiniert werden,wodurch die Wortfehlerrate für 32 Sprachen um 33%im Vergleich zu einer konkurrierenden Transformer-Baseline reduziert wird公司。
Mit der Gewichtungsfaktorisierung是修女daskontinuierliche Lernen neuer Sprachen möglich。Die Netze können neue Gewichte für neue Sprachen zuweisen,ohne in Die Logik der alten Sprachen einzugreifen,wodurch ein katastrophales Vergessen,das Hauptproblem des Verlusts von Wissenüber frühere Sprachen beim Training neuer Sprachen,vollständig virseden wird。Die Gewichtsfaktorisierung,eine Form der progressiven neuronalen Netze,kann auch mit der elastischen Gewichts consolidierung kombiniert werden,einer Regularisierungsmethode zur Vermeidung des katastrophalen Vergessens。Diese Kombination macht die gesamte Netzarchitektur flexibler,da sie Leerstellen im Netz findet,um neues Wissen zu lernen公司。Auf diese Weise ist es möglich,neue Sprachen mit der gleichen Qualityät zu erlen,wie wenn man alle Sprachen von Anfang an berrschen würde,ohne dass es zu ernsthaften Kompromissen in Bezug Auf das katastropale Vergessen kommt。
让Beitra Der Arbeit在Bereich Der directen Sprachübersetzung的Anwendung去世。Für viele Sprachen is es bequemer,die u bersetzung anstelle des Transkripts von Sprachäußerungen zu sammeln。Die gleiche neuronale Architektur kann in dieser Situation ohne jegliche Modifikation-angewendet-werden。Beitrag wird dadurch hervorgehoben,dass gezeigt wird,dass ein neuronales Modell jetzt leistungsfähig genug ist,um kaskadierte Ansätze zuübertreffen,entweder in großangelegten Sprachübersetzungen oder in ressourcenbeschränkten mehrsprachigen Sprachíbersetzhungszenarien。