Spracherkennung mit dem Dev Board Mini

In diesem Beitrag startest du ein weiteres spannendes KI-Projekt mit deinem Dev Board Mini. Dieses Mal geht es um Spracherkennung. Ein Keyphrase-Detektor, oft auch als Keyword Spotter (KWS) bezeichnet, ist eine einfache Sprachverarbeitung, die das Vorhandensein eines vordefinierten Wortes oder einer kurzen Phrase in einem Audiostrom erkennt. Das Prinzip kennst du von Wörtern und Phrasen wie „OK Google“ oder „Alexa“, die digitale Assistenten erkennen.

Weiteres Zubehör ist dafür nicht notwendig, denn das Board bringt ein eingebautes digitales PDM-Mikrofon mit. PDM steht für Pulse Density Modulation. Das ist eine Form der Modulation, um ein analoges Signal mit einem binären Signal darzustellen. Zunächst ist kein Bildschirm für das Projekt notwendig. Verbinde also dein Board mit dem Host-PC, öffne die Git Bash und starte mit mdt shell das Terminal von Mendel Linux.

Das Modell zur Erkennung von Schlüsselwörtern erfordert eine Eingabe von zwei Sekunden Audio, die in 32-dimensionale sogenannte Logmel-Daten umgewandelt werden. Logmel verwendet eine logarithmische Darstellung. Die Mel Frequency Cepstral Coefficients (MFCC) werden zur Spracherkennung eingesetzt und ermöglichen eine kompakte Darstellung des Frequenzspektrums. Mel leitet sich vom englischen Wort „Melody“ ab und ist die Maßeinheit für die wahrgenommene Tonhöhe. […]

Blog-Beitrag für Buyzero