Lesedauer ca. 4 Minuten

Zukunftsszenario oder bereits Realität – Können wir uns mit einer Künstlichen Intelligenz (KI) unterhalten wie mit einem Menschen? Was bis vor wenigen Jahren befremdlich klang, gehört mittlerweile zum Alltag. Obwohl steife Computerstimmen und stupide Bandansagen derzeit noch in der Mehrheit sind, zeigen neueste Softwareentwicklungen, dass es auch anders geht. Einen kleinen Einblick wie das funktioniert, erhaltet ihr hier.


Künstliche Intelligenz als alltäglicher Begleiter

Schon 1997 gelang es dem Schachcomputer Deep Blue von IBM den damals amtierenden
Schachweltmeister unter realen Turnierbedingungen zu schlagen
. Das ist mittlerweile knapp 25 Jahre her und in dieser Zeit hat sich im Bereich der KI enorm viel getan.
Von selbstständig antwortenden Sprachassistenten über automatisierte Lagerverwaltungssysteme bis hin zu selbstfahrenden Autos. KI wird mittlerweile in nahezu
jedem Lebens- und Geschäftsbereich eingesetzt. Kein Wunder, dass enorm viele neue
Unternehmen diese Technologie als Grundlage für ihr Startup-Business auswählen.
Allerdings ist der Großteil der beeindruckenden Entwicklungen bisher nicht vollständig
ausgereift und daher nur in eingeschränkter Variante im Alltag zu finden. Doch wie sieht es
mit der Eingangsfrage aus? Können wir uns tatsächlich schon heute mit einer KI unterhalten wie mit einem Menschen?


Gespräche ohne Missverständnisse

Nahezu Jede:r von uns hat schon mindestens ein Mal mit einer Künstlichen Intelligenz
gesprochen, sei es mit Sprachassistenten wie Siri und Alexa oder einem digitalen Telefonbot während eines Anrufs.
Je nach Art des Bots kann sich die Qualität des Gesprächs dabei extrem unterscheiden.
Während einige Systeme nur einem vorab festgelegten Dialog folgen können, sind andere in der Lage flexibel zwischen verschiedenen Fragestellungen hin und her zu springen (siehe
Grafik). Damit können sie besser auf die Person am anderen Ende der Leitung eingehen
und sorgen für einen natürlichen Gesprächsablauf.

Das richtige Sprachverständnis

Damit der Telefonassistent die gesprochenen Worte tatsächlich verstehen und einordnen
kann, müssen diese korrekt verarbeitet werden. Dies geschieht beim Natural Language
Processing (NLP). NLP gibt Computern die Fähigkeit, Texte und gesprochene Sprache wie ein Mensch zu verstehen. Dabei ist er in der Lage nicht nur Worte, sondern auch den Sinn sowie die Intention dahinter zu erkennen. Letzteres geschieht insbesondere durch das Teilgebiet Natural Language Understanding (NLU).
Um die gesprochene Sprache zu verarbeiten, muss ein NLP-Algorithmus mehrere Schritte
durchlaufen:

  1. Der Anrufverlauf wird als Audiodatei abgespeichert und in Text umgewandelt.
  2. Dieser Text wird in einzelnen Sätze und Worte unterteilt.
  3. Die jeweiligen Wortarten werden passend zugeordnet.
  4. Die Grundform der Worte sowie Eigennamen werden erkannt.
  5. Bei der Syntaxanalyse wird die grammatikalische Struktur untersucht und
    verstanden.
  6. Mithilfe der NLU werden Sinn und Intention des Textes erkannt.Die KI erzeugt eine darauf passende Reaktion in Textform, die abschließend in gesprochene Sprache umgewandelt wird.

Um den natürlichen Gesprächsfluss nicht zu stören, geschehen all diese Schritte innerhalb
weniger Sekundenbruchteile in Echtzeit.


Man lernt nie aus – das gilt auch für eine KI

Wie bereits erwähnt ist es für eine KI im Telekommunikationsbereich enorm wichtig
gesprochene Worte zu erkennen sowie deren Bedeutung zu verstehen. Angesichts der
sprachlichen Vielfalt ist das gar nicht so einfach, weshalb die NLU hinter dem
Spracherkennungssystem stetig verbessert werden muss. Meist liegen diesen Technologien

Deep Learning Algorithmen zugrunde, die es ihnen ermöglichen selbstständig zu lernen.
Unter Deep Learning versteht man eine spezielle Methode der Informationsverarbeitung, in
der unvorstellbar große Datensätze analysiert werden, um Muster zu erkennen und – ähnlich wie im menschlichen Gehirn – Schlussfolgerungen zu ziehen. Diese Fähigkeit machen sich digitale Telefonassistenten zunutze, indem reale Gesprächsdaten direkt zum Training der KI verwendet werden.


Doch wie sieht dieser Prozess grob aus? Zur Erklärung sind im Folgenden ein paar
Definitionen aufgeführt:

  • Intent: Ein Intent steht für eine Absicht des Anrufenden. Beispielsweise sind
    Anliegen wie “Termin vereinbaren” oder “Medikament bestellen” typische Intents für
    einen Telefonassistenten. Das jeweilige Unternehmen legt die für den eigenen
    Betrieb relevanten Intents vorab individuell fest.
  • Beispielsätze: Für jede Absicht gibt es eine schier endlose Anzahl unterschiedlicher
    Wortkombinationen und Formulierungsmöglichkeiten. Aus diesem Grund wird die KI
    vor ihrem produktiven Einsatz mit einer vielfältigen Auswahl an Beispielsätzen für
    jeden Intent versorgt, anhand derer sie lernt zu erkennen, was der Anrufende von ihr
    möchte. Im Lauf der Zeit wird diese Sammlung mit realen Sätzen aus der Nutzung
    des digitalen Telefonassistenten erweitert – quasi learning by doing.
  • Labeling: So wird der Vorgang des “Nachtrainierens” bezeichnet. Hier wird der KI
    auf die Sprünge geholfen, indem ihr mitgeteilt wird, welche der Intents sie richtig bzw.
    falsch erkannt hat.

Das Besondere daran: Je öfter dieser Vorgang wiederholt wird, desto besser funktioniert die
KI.


Mensch oder KI am Telefon?

Trotz der beeindruckenden Leistung digitaler Telefonassistenten stoßen auch diese Systeme
irgendwann an ihre Grenzen. Zwar können sie einfache Standardanfragen, wie
Terminvereinbarungen, FAQ-Beantwortungen und die Aufnahme von Rückrufwünschen
problemlos erledigen, bei individuellen Anliegen bleibt ein Mensch aber weiterhin die
bessere Ansprechperson. Das heißt jedoch nicht, dass der Einsatz digitaler
Telefonassistenten überflüssig ist, ganz im Gegenteil: Digitale Assistenten stellen eine
Ergänzung dar, indem sie Standardanrufe übernehmen und damit mehr Zeit für komplexere
Anliegen schaffen, denen der Mensch sich fokussierter widmen kann – ohne andauernd
unterbrochen zu werden.


Nach all der Theorie neugierig wie sich das in der Realität anhört?
Ruft gerne Mal im Testgasthof an und reserviert euren fiktiven Tisch für’s nächste Abendessen: +49911374935

Sandra Waniek
Sandra Waniek verstärkt das Team von VITAS seit rund 1 ½ Jahren in den Bereichen Marketing und Growth. Das Nürnberger Tech-Startup entwickelt auf künstlicher Intelligenz basierende Telefonassistenten, die bereits tausende Anrufe täglich übernehmen - sprachbasiert und in hunderten Gesprächen gleichzeitig. Über die Plattformlösung von VITAS haben Unternehmen jeder Branche die Möglichkeit sich ohne technische Vorkenntnisse ihren individuellen Telefonassistenten zu konfigurieren und jederzeit nach ihren Wünschen anzupassen.