Lesedauer ca. 5 Minuten

„Tut mir leid, ich habe Sie leider nicht verstanden.“ So oder so ähnlich lautet meistens die Antwort der mehr oder weniger smarten sprachgesteuerten Assistenten, die inzwischen auf allen großen mobilen Plattformen vorhanden sind. Mit dem neuen Projekt Adam will Microsoft der sprachbasierten Suche zu mehr Intelligenz und damit endlich zum Durchbruch helfen. Ein grundlegend anderer Aufbau soll Microsofts Waffe im Kampf gegen Google und Apple sein.

Die Frage „Welcher Titel läuft gerade im Radio?“ beantworten Google Now, Microsofts Cortana und Apples Siri (ab iOS 8) inzwischen relativ zuverlässig. Klar, denn bei Musiktiteln wird ein festes Schema aus Höhen und Tiefen immer gleich wiedergegeben. Ist diese Information einmal gespeichert, funktioniert die Erkennung anhand weniger Musikschnipsel in Sekunden. Doch spätestens bei einer seltenen Live- oder A-Capella-Version versagen die Assistenten, da das bekannte Schema durch andere Geräusche gestört wird oder die entscheidenden Informationen fehlen. Eine Suche in der Datenbank führt zu keinem Ergebnis und statt einer Antwort heißt es „Titel nicht gefunden“.

Verknüpftes Wissen

Das Fehlen von Informationen sorgt aber auch bei anderen Suchen, wie beispielsweise der Bilderkennung, für nur wenig aussagekräftige Resultate. Beim Foto eines Hundes könnte ein intelligenter Assistent mit etwas Mühe vielleicht den Hund als solchen erkennen, nicht jedoch die Rasse, geschweige denn eine spezielle Züchtung. Möchte man wissen, was für eine Gemüsesorte auf dem Teller im asiatischen Restaurant liegt, ist die Chance groß, dass die Erkennung komplett fehlschlägt und die Antwort „Keine Informationen gefunden“ lautet. Analog zu seltenen Musiktiteln gilt auch in diesem Fall, dass vergleichbare Informationen fehlen. Der Aufbau einer riesigen Datenbank mit weiteren Details oder die Verknüpfung mit zusätzlichen Datenbänken wäre zwar ein Schritt in die richtige Richtung, doch der Abgleich würde in diesem Szenario zu nicht akzeptablen Wartezeiten führen.

Neubau statt Nachbau

Schuld an den begrenzten Skalierungs- und Verbindungsmöglichkeiten ist die Richtung der Forschung in den Achtzigern. Statt das Gehirn als Beispiel zu nehmen und Computer-Netze auf eine ähnlich vernetzte Art und Weise zu konstruieren, wurde lange Zeit nach Alternativen geforscht. Neubau statt Nachbau lautete die Maxime mit dem Ziel, künstliche Intelligenz über eine Abkürzung zu entwickeln. Statt Verbindungen und bessere Kommunikationsmöglichkeiten zu entwickeln, stand die stetige Steigerung der Rechenleistung zentral.

Einen anderen Ansatz verfolgt der britische Wissenschaftler Geoffrey Hinton, der seit 2013 auf der Gehaltsliste von Google steht. Zusammen mit anderen IT-Profis, Biologen, Elektroingenieuren, Neurowissenschaftlern, Physikern und Psychologen setzte Hinton, finanziert vom kanadischen Institut for Advanced Research, seine Arbeit am Nachbau des Gehirns fort. Sogenannte Deep-Learning-Algorithmen sollten schon bald mit riesigen Datenmengen jonglieren und die Wissenschaftler bei Künstliche-Intelligenz-Wettbewerben an die Spitze befördern. Mit der Einsicht, dass die bis dato im großen Umfang eingesetzten konkurrierenden Systeme nicht den zukünftigen Ansprüchen genügen würden, wurden Google, Facebook und Co. auf das digitale Gehirn und Hintons Team aufmerksam. Inzwischen entwickelt fast jedes größere IT-Unternehmen and künstlichen Nervennetzwerken, darunter auch Microsoft. „Computer waren bisher vor allem gute Zahlendreher. Inzwischen bringen wir ihnen bei, Muster zu erkennen“, so Trishul Chilimbi, Mitarbeiter bei Microsoft Research. Diese Erkenntnisse hat Chilimbis Team unter Projekt Adam vertieft.

Das Gehirn in der Cloud

Wie schon Hinton diente auch Chilimbi und seinen Teamkollegen Karthik Kalyanaraman, Johnson Apacible, Yutake Suzue „der beste Computer der Welt: das menschliche Gehirn“ als Vorbild. Der größte Vorteil des menschlichen Gehirns sind die durchschnittlich 1.000 Verbindungen der Nervenzellen miteinander. Die Verknüpfungen erlauben es unserem Hirn, Informationen zu einem Objekt schnell zusammenzutragen und aufgrund von Details wie Farbe, Form, Größe, Oberflächenstruktur, Geruch und mehr innerhalb von Millisekunden eine eindeutige Einordnung vornehmen zu können.

Bild: Team Projekt Adam (von Links): Karthik Kalyanaraman, Trishul Chilimbi, Johnson Apacible, Yutaka Suzue / Microsoft
Team Projekt Adam (von Links): Karthik Kalyanaraman, Trishul Chilimbi, Johnson Apacible, Yutaka Suzue / Microsoft

Im Falle von Microsoft Adam sind die Nervenzellen Windows-Azure-Server, die miteinander in Verbindung stehen. Soll die Suche schneller, effizienter und genauer werden, muss gleichzeitig die Anzahl von Servern und Verbindungen untereinander steigen. Bedingt durch den synchronen oder linearen Datenaustausch war dieser Schritt bisher nur durch eine Steigerung von Rechenleistung möglich, um den Nachteil von langen Wartezeiten auszugleichen. Die asynchrone und damit gleichzeitige Verarbeitung von Daten ist aufgrund ihrer Fehleranfälligkeit unter ITlern nur wenig beliebt. Speichern mehrere Prozesse gleichzeitig am selben Ort, kann dies die Überschreibung der Daten und somit Datenverlust zur Folge haben. Doch den Microsoft-Wissenschaftlern ist es mit Projekt Adam gelungen, aufgrund eines Netzwerks mit insgesamt zwei Milliarden Verbindungen mehrere Berechnungen gleichzeitig und unabhängig voneinander asynchron durchzuführen, ohne dass dabei Daten überschrieben werden.

Projekt Adam kann Datensets nicht nur mit neuen Informationen verbessern, sondern auch Unbekanntes schneller erkennen. „Beim Lernen geht es nicht nur um die Optimierung und dem Training der Datensets. Es geht um die Generalisierung von unbekannten Daten“, so Microsoft. „Als Kind bekommt man Bilder eines kompletten Autos zu sehen. Aber als Erwachsener sieht man ein Auto manchmal nur teilweise im Winkel eines Spiegels, aber man erkennt es trotzdem. Wenn sich ein Auto schnell bewegt und das Bild ein wenig verschwimmt, weiß man trotzdem, dass es ein Auto ist. Das ist das, was unser System macht. Es ermöglicht das Training mit verschiedenen Datentypen in unterschiedlichen Situationen.“

Das macht Projekt Adam anders als die Anderen

Der Schlüssel zu Adams Erfolg sind einzelne Lagen mit Informationen. Bei der Erkennung einer Hunderasse würde die erste Lage die grobe Form erkennen, die Zweite die Oberflächenbeschaffenheit und die Behaarung und die Dritte die Formen einzelner Körperteile. Ab der vierten und fünften Lage wird es mit winzigen Details wie Kopfform oder Augen-Anordnung schon deutlich komplizierter. Je mehr Informationen zusammenkommen und im Netzwerk von unten nach oben weiter gereicht werden, desto genauer das Resultat.

Laut Microsoft arbeitet das System durch diese Methode 50 Mal schneller als herkömmliche Netzwerke. Dabei sind 30 Mal weniger Computer im Netzwerk verbunden als bei vergleichbaren digitalen Gehirnen. Aufgrund der massiven Anzahl von Verbindungen ist wie schon in Hintons Projekt das sogenannte Deep Learning möglich. Dieser Prozess speichert ähnlich wie das menschliche Hirn selbst kleinste Details, die später für die Erkennung von Objekten dienen. Laut Microsoft sind Projekt-Adam-basierte Suchen dadurch doppelt so genau. Die Präzision von Projekt Adam würde das Erkennen von bestimmten Nahrungsmitteln oder aber auch Hautkrankheiten nur aufgrund eines Fotos ermöglichen.

Wann Project Adam oder auch die als Konzept entwickelte Fotoerkennungs-App veröffentlicht werden, ist derzeit noch nicht bekannt. Da Microsoft mit Bing aber eine eigene Suchmaschine betreibt und unter Windows Phone die Sprachassistentin Cortana einsetzt, ist es durchaus denkbar, dass eine Lizenzierung an andere Unternehmen überhaupt nicht geplant ist. Der Vorteil gegenüber Google und Apple wäre für Microsoft für unschätzbaren Wert.