Detailansicht Kurs

Kurs 5.3
Machine Learning-based Voice Analysis

Was die Stimme verrät – und wie Maschinen es erkennen

Zur Akademie Roßleben 2026-5
09.07. - 25.07.2026 Roßleben-Wiehe

nicht rollstuhlgeeigneter Standort

Die menschliche Stimme transportiert viele Informationen, darunter emotionale, körperliche und psychische Zustände. Der Kurs untersucht, welche Merkmale die Stimme enthält, wie sie sich technisch erfassen lassen und wie Computer sie analysieren können.

Vor Beginn des Kurses bereiten die Teilnehmenden ein Referat vor und lesen einen Einführungstext. Im Kurs erarbeiten sie zunächst grundlegende Konzepte der Sprache. Dazu zählen zentrale Ansätze aus der Linguistik (was gesagt wird) und der Paralinguistik (wie es gesagt wird).

Darauf aufbauend lernen sie, wie sich die Sprache unter dem Einfluss psychologischer,medizinischer und sozialer Faktoren verändern kann.

In Kleingruppen beschäftigen sich die Teilnehmenden mit verschiedenen Repräsentationen der Stimme, die Computer zur Analyse nutzen können (z.B. Mel-Spektrogramme, siehe Abb. 1). Im zweiten Teil des Kurses eignen sie sich grundlegende Konzepte des Maschinellen Lernens (ML) an. Ziel ist es, vorbereiteten Python-Code lesen, ausführen und anpassen zu können. Anhand von Beispielen vergleichen die Teilnehmenden unterschiedliche Klassifikatoren. Zur kritischen Einordnung diskutieren sie ethische Aspekte und Grenzen der ML-basierten Stimmanalyse.

Das erarbeitete Wissen wenden die Teilnehmenden in einem begleitenden Forschungsprojekt an. Im Verlauf des Kurses erheben sie eigene Sprachdaten und bearbeiten eine ausgewählte Forschungsfrage. Die Ergebnisse halten sie in einem wissenschaftlichen Text fest.

Am Ende des Kurses verfügen die Teilnehmenden über einen Einblick in die ML-basierte Sprachanalyse. Sie können die Stimme mit unterschiedlichen Parametern beschreiben und haben praktische Erfahrung darin gesammelt, wie wissenschaftliches Arbeiten in interdisziplinärer computergestützter Forschung funktioniert.

Abbildung 1: Mel-Spektrogramm des Kurstitels ‘Machine Learning-based Voice Analysis’. Ein Mel-Spektrogramm stellt den Frequenzinhalt des Audiosignals über die Zeit dar.

Die Kursleitung

Anika Spiesberger

Kursleitung

Anika (sie/ihr) hat nach ihrem Bachelor in Psychologie einen Master in Human Factors Engineering studiert und sich dabei auf medizinische Anwendungen spezialisiert. Aktuell promoviert sie am TUM Klinikum zum Thema ‘Zyklusphasenerkennung anhand von Sprachdaten’. In ihrer Freizeit tanzt, schwimmt und klettert Anika gerne oder kuschelt sich mit einem guten Buch und Tee aufs Sofa. Ansonsten lässt Anika kaum eine Gelegenheit aus, ins Ausland zu reisen, sei es zum Studieren oder zum Reisen.

Michelle Schlicher