CL — Prof. Dr. Christian Langmann
DR — Dr. Doron Reichmann
CL: Lieber Herr Reichmann, Sie haben mit Ihrer Forschergruppe eine vielbeachtete Studie zu CEO-Stimmen auf Bilanzpressekonferenzen durchgeführt, um daraus Rückschlüsse auf die Gewinnerwartungen zu schließen. Könnten Sie für unsere Leserschaft den Aufbau und die zentralen Ergebnisse der Studie zusammenfassen?
DR: Ja, sehr gerne. Die zentrale Frage, die wir uns in der von Ihnen angesprochenen Studie stellen, ist, ob wir über die Stimme von CEOs Gewinnerwartung prognostizieren können. Dabei kann man sich zunächst die Frage stellen: Warum machen wir das überhaupt? Aus der Psychologie wissen wir, dass die Stimme immer auch Emotion kommuniziert und damit mehr Informationen preisgibt als nur das gesprochene Wort. Letzteres haben viele von uns schon in Situationen erlebt. Man sieht zum Beispiel einen Vortrag und bei einer Zwischenfrage kommt die Vortragende ins Schwitzen. Die Vortragende will natürlich nicht preisgeben, dass sie gestresst ist oder die Frage nicht wirklich beantworten kann. Dennoch merken wir anhand nonverbaler Kommunikation, dass die Person verunsichert oder gestresst ist. An dem Beispiel sieht man aber, dass nonverbale Kommunikation in diesem Moment Informationen preisgibt, die wir gar nicht preisgeben wollen. Hierbei gilt die Stimme als besonders ausdrucksstarkes Medium der nonverbalen Kommunikation. Die Stimme ist sehr komplex, wir können sie zudem nur sehr schwer kontrollieren. In der Medizin gilt der Sprachprozess als eine der kompliziertesten Aktivitäten, die wir überhaupt im menschlichen Körper tagtäglich ausüben. Das angesprochene Wissen über die Stimme können wir nun nehmen und auf die Situation in Bilanzpressekonferenzen übertragen. Die Idee dabei ist, dass die Stimme von CEOs möglicherweise weitere Informationen (z.B. über die Zukunftsaussichten des Unternehmens) preisgibt, und zwar über das gesprochene Wort des Managements hinaus. Und um diese Frage zu analysieren, haben wir ein Sample von über 8.000 Bilanzpressekonferenzen zusammengestellt und deren Audiospuren – also MP3-Aufnahmen – ausgewertet. Wir hatten quasi für jede Pressekonferenz eine eigene Audiodatei und haben darin jeweils die Sprache des Managements separiert. Insbesondere die Frage-Antwort-Phasen von den Bilanzpressekonferenzen waren dabei interessant, weil diese unvorbereiteter sind und man da wirklich in eine echte Interaktion gerät. Die Präsentationen zu Beginn werden dagegen oft einfach nur abgespult.
Die Audiodaten wurden dann zunächst in ein Spektrogramm umgewandelt. Dieses stellt im Wesentlichen eine Visualisierung von Audiospuren dar. Die Daten aus den Spektrogrammen haben wir dann in ein KI-Modell auf Basis eines neuronalen Netzes gespeist, das die Spektrogramme mithilfe von Algorithmen aus dem Bereich image recognition analysiert hat. Das sind ähnliche Algorithmen wie diejenigen, mit denen Sie zum Beispiel Bilder erkennen. Beispielsweise könnte ein derartiger Algorithmus auch dafür genutzt werden, um in einem Bild einen Husky von einem Wolf zu unterscheiden. In unserem Beispiel mit den Bilanzpressekonferenzen wissen wir aus der Historie, welches der untersuchten Unternehmen im darauffolgenden Jahr besser oder schlechter performt hat. Diese Erkenntnis zur Performance verbindet das Modell mit den Spektrogrammen. Das Modell sucht nun nach Mustern in den Spektrogrammen, um eine Prognose für die Unternehmensperformance abzuleiten. Die Prognose, die das Modell ausgespuckt hat, war überraschend gut und hat besser funktioniert, als wenn wir Bilanzkennzahlen oder Texte aus den Bilanzpressekonferenzen eingespeist haben. Die gewonnenen Prognosen könnten auch dazu genutzt werden, um Trading-Strategien zu optimieren und Forecasts von professionellen Analysten zu verbessern. Das sind unsere zentralen Ergebnisse.
CL: Mithilfe von neuronalen Netzen haben Sie also die Strukturen und Muster in den Spektrogrammen untersucht. Soweit mir bekannt ist, lassen sich mit neuronalen Netzen aber keine linearen Zusammenhänge und damit keine Faktoren herauskristallisieren. Das heißt, wir könnten jetzt nicht sagen, welche Rolle das Geschlecht im Sinne einer Männer- oder Frauenstimme für die Prognose gespielt hat, richtig?
DR: Ja, genau. Wir können heute nicht genau sagen, welches die bestimmenden Faktoren sind. Da muss man aber auch gleichzeitig sagen, generell wissen wir in der Forschung, also abseits der Wirtschaftswissenschaften, noch gar nicht genau, wie Emotionen in Stimmen entstehen. Nehmen wir als Beispiel eine Person, die wütend wird. Es gibt Personen, die werden dann leise, kommunizieren ruhig. Andere werden laut, erhöhen die Lautstärke der Stimme und ihre Stimmhöhe.
…
Lesen Sie kostenfrei das gesamte Interview.