Chatklavier
Das Klavier als interaktiver Gesprächspartner mit KI-Synthese
Präsentation : Dienstag, 24. Juni 2025
🕡 ab 18:30 Uhr
📍 Future Art Lab, mdw – Universität für Musik und darstellende Kunst Wien
Anton-von-Webern-Platz 1, 1030 Wien

 

Präsentationsvideo / Chatklavier

Chatklavier


„Das Klavier als interaktiver Gesprächspartner mit KI-Synthese”
In Memoriam Peter Ablinger (1946–2025)

KI-gesteuerte Klanginstallation von Markus Sepperer

Die Installation transformiert Sprache in Klavierklang durch eine mehrstufige technische und konzeptuelle Kette.

Ausgangspunkt ist die Audioaufnahme der menschlichen Stimme des Users. Diese wird mit OpenAI Whisper transkribiert und als Text an ein lokal laufendes KI-Sprachmodell (Ollama) übergeben, das mittels Retrieval-Augmented Generation (RAG) antwortet.
RAG ist ein Verfahren, das die Antwort eines Sprachmodells durch gezieltes Nachschlagen in einer großen Textsammlung verbessert. Dabei sucht das System zuerst relevante Textstellen aus einem zuvor erstellten Korpus heraus und nutzt diese als Grundlage, um präzisere und kontextbezogene Antworten zu erzeugen.

Der Textkorpus für das Chatklavier besteht aus 1700 Textdateien, die automatisiert mit einem Python-Skript aus sämtlichen Texten der Website von Peter Ablinger (ablinger.mur.at) extrahiert wurden.Eine semantische Ähnlichkeitssuche mit FAISS, einer Softwarebibliothek für schnelle Suche in großen Vektor-Datenbanken, wählt relevante Textfragmente aus. Diese dienen dem Modell als inhaltlicher Kontext, was die Qualität der KI-Antworten steigert.Ein präziser Prompt, der auf den Input des Users abgestimmt ist, steuert das Modell so, dass es nur Begriffe und Satzfragmente aus dem Ablinger-Korpus nutzt. Die Antworten variieren im Stil (nüchtern, poetisch, dadaistisch, sachlich) und in der Länge. So entsteht eine sprachlich freie, formal eng gebundene Reaktion, die den User in Ablingers Gedankenwelt eintauchen lässt.     Die KI-Antwort wird mit einer Text-to-Speech-Engine (pyttsx3) gesprochen. Gleichzeitig wird der Text Wort für Wort auf einem Bildschirm angezeigt und an die Software übertragen.

Parallel wird die Audioausgabe der KI verarbeitet. Die Software extrahiert 16 dominante Sinuskomponenten pro Frame – also kurzen Momentaufnahmen von wenigen Millisekunden. Die daraus gewonnenen Frequenzen und Amplituden werden in MIDI-Pitch und Velocity übersetzt und auf 16 Kanäle verteilt, was eine dynamische MIDI-Struktur erzeugt, die die Sprachformung approximiert. Diese MIDI-Daten werden an den von Winfried Ritsch und Peter Ablinger entwickelten und hier verbauten Klaviervorsetzer übergeben, der es ermöglicht, digitale Daten in mechanische Impulse umzuwandeln. Der Klaviervorsetzer war in zahlreichen Klangkunstprojekten Ablingers zentral und ermöglicht das präzise Spiel rhythmisch komplexer und maximal polyphoner Strukturen. Das Ergebnis ist kompexes Klangbild das die Sprachklänge hörbar macht. Ablinger nennt dies „Verständlichkeit durch Reduktion“: Das Klavier „spricht“ durch Tonhöhe, Akzente und Rhythmus – nicht semantisch, sondern klanglich-phonetisch.

Erstmals erhält dieses Instrument nun eine KI-gestützte, interaktive Erweiterung:
Die Maschine spricht nicht mehr nur – man kann nun mit ihr sprechen.
Das Klavier wird zur dialogfähigen Instanz: Die eigene Stimme formt eine Antwort aus Ablingers Sprachmaterial, wird zu digitalem Klangtext, der in mechanische Klavierimpulse umgesetzt wird – ein Kreislauf aus Hören, Denken, Sprechen und Spielen.                                                                                                       

Inhaltliche und technische Betreuung : Dipl.Ing Patrik Lechner, Dr. Thomas Grill, Dipl.Ing Peter Plessas