FÖR OMEDELBAR PUBLICERING Nr 3259
Det här pressmeddelandet är en översättning av den officiella engelskspråkiga versionen. Det publiceras endast som praktisk referens för användaren. Läs den ursprungliga engelska versionen för information. Vid skillnader mellan texterna är det den engelska versionen som gäller.
Den här tekniken kommer att kunna användas till att skapa röstgränssnitt för en mängd olika situationer genom att använda företagets kompakta Maisart-teknik för artificiell intelligens till att identifiera och förstå tal samtidigt, även när flera personer pratar
Tokyo den 13 februari 2019 – Mitsubishi Electric Corporation (TOKYO: 6503) meddelade i dag att företaget har utvecklat vad som troligen är den första tekniken i världen som klarar av röstigenkänning av flera språk med hög noggrannhet utan behov av att ange vilket språk som talas. Den nya tekniken, som kallas för Seamless Speech Recognition, bygger på Mitsubishi Electrics egenutvecklade kompakta Maisart®-teknik* för artificiell intelligens och är ett enda system som samtidigt kan identifiera och förstå tal på olika språk. I tester med 5 och 10 språk som utfördes i tysta miljöer kunde systemet känna igen tal med 90 respektive 80 procents noggrannhet, utan någon information om vilka språk som talades. Tekniken kan även användas till att förstå flera människor som talar antingen samma språk eller olika språk samtidigt.
* Mitsubishi Electrics AI skapar toppmodern teknik (Mitsubishi Electrics AI State-of-the-ART, Maisart)
I Seamless Speech Recognition-tekniken används Mitsubishi Electrics egenutvecklade djupgående träningsmetod, vilket ger oöverträffad flexibilitet och noggrannhet. Genom att använda ett ramverk för djupgående träning där ett djupgående nätverk tränas med indata- och utdataprover går det att skapa ett enda system som samtidigt identifierar och förstår tal, utan att behöva använda någon expertkunskap som fonemsystem eller uttalslexikon. Tack vare den samtidiga träningen med röstdata på flera språk går det att öka tillförlitligheten.
I det nya systemet används Mitsubishi Electrics egenutvecklade Hybrid CTC/Attention Method för röstigenkänning, vilket avsevärt förbättrar noggrannheten i processen för röstigenkänning. Metoden bygger på två representativa metoder för röstigenkänning, CTC (Connectionist Temporal Classification) och uppmärksamhetsbaserad avkodning, och utgör en kombination av styrkorna hos de olika metoderna samtidigt som den undviker nackdelarna med dem. Hybridmetoden utnyttjar i synnerhet förmågan att använda CTC till att exakt förutsäga avgränsningar i indataröstsignaler och utdatatecken och uppmärksamhetsmetoden till att överväga beroendena mellan de akustiska egenskaperna och språkegenskaperna för tal.
Fungerar utan att vilka språk som talas behöver anges | 5 språk | 10 språk | |
---|---|---|---|
Ny teknik | Ja | > 90 % | > 80 % |
Konventionell teknik** | Nej | 87 % | 72 % |
Tekniken för röstigenkänning har gjort det möjligt att styra enheter som smarta telefoner och navigeringssystem för bilen med rösten, men eftersom konventionella röstigenkänningssystem utvecklas separat för varje språk måste användare välja vilket språk de vill använda. Det går att använda en språkidentifieringsmetod före röstigenkänningen men det medför att användbarheten försämras på grund av den fördröjning som behövs för språkidentifiering och dessutom ökar igenkänningsfel på grund av språkidentifieringsfel och sämre röstigenkänningssystem som har tränats med otillräckliga enspråkiga data. Noggrannheten i konventionella röstigenkänningssystem blir också avsevärt sämre när flera talare talar samtidigt, vilket även begränsar deras användbarhet.
Mitsubishi Electric förväntar sig att Seamless Speech Recognition-tekniken ska kunna användas i röstgränssnitt för en mängd olika användningsområden, som flerspråkiga familjer där alla familjemedlemmar vill kunna använda samma hushållsapparat eller internationella resenärer som vill kunna ställa frågor till flygplatsterminaler på sitt eget språk. I framtiden kommer Mitsubishi Electric att arbeta för att ytterligare förbättra noggrannheten och användbarheten för automatisk röstigenkänning i verkliga miljöer, som bilar, hem, offentliga inrättningar och mycket mer.
Observera att informationen är korrekt vid tidpunkten för publicering men kan ändras utan föregående meddelande.