Alles Gute zum 25sten Geburtstag, Dragon!

 „Ist [die Lösung] perfekt, ist sie der Bordcomputer aus Star Trek? … nein … aber im Großen und Ganzen leistet sie richtig gute Arbeit. Und das ist ein großer Schritt nach vorne.“

Michael Miller, Chefredakteur des PC Magazine

Das war der erste Eindruck von Michael Miller, Chefredakteur des PC Magazine, als Dragon Systems (heute Nuance) 1997 seine Software Dragon NaturallySpeaking im World Trade Center vorstellte. Im Vergleich zu heute sah die Techbranche damals noch ganz anders aus: Steve Jobs kehrte als CEO zu Apple zurück und Windows 95 eroberte als erstes „modernes“ Betriebssystem von Microsoft Marktanteile. Das Institute of Electrical Electronics Engineers (IEEE) veröffentlichte den neuen 802.11 Standard, heute besser bekannt als WLAN, um Computer kabellos mit dem World Wide Web zu verbinden, das damals noch in den Kinderschuhen steckte. Bereits fünf Jahre bevor das erste Blackberry-Smartphone das Licht der Welt erblickte, waren Personal Digital Assistants gang und gäbe. Zu dieser Zeit arbeiteten Geschäftsleute bereits mit „Graffiti“, der Software für Handschrifterkennung des Palm Pilot. Das animierte „tanzende Baby“ war eines der ersten Memes. Mark Zuckerberg hatte sein Studium an der Harvard University noch nicht begonnen. Larry Page und Sergey Brin wiederum verließen die Stanford University ohne Abschluss, gaben ihrer Suchmaschine „BackRub“ einen neuen Namen und meldeten die Domain google.com an.

Vor diesem Hintergrund wollte Dragon Systems seine eigenen Spuren in der Gesellschaft hinterlassen und entwickelte sein erstes Spracherkennungssystem, das die natürliche menschliche Sprache verstehen und in Text umwandeln konnte. Der Name der Software: Dragon NaturallySpeaking. Die Lösung revolutionierte nicht nur die Interaktion zwischen Mensch – später auch ganzen Branchen – und Computer, sondern machte auch das Dokumentieren wesentlich effizienter.

Das Konzept von Computern, die die menschliche Sprache erfassen und auf Befehle reagieren, war damals nicht neu – der Bordcomputer, mit dem die Crew in Star Trek regelmäßig interagiert, ist wohl das bekannteste popkulturelle Beispiel. Jedoch stießen frühe Spracherkennungssysteme schnell an ihre Grenzen: Sie verfügten lediglich über ein eingeschränktes und vordefiniertes Vokabular. Nutzer*innen mussten Wörter bedächtig aussprechen, fast stakkatoartig. Zudem ließ die Genauigkeit oftmals zu wünschen übrig und die Geschwindigkeit, mit der frühe Programme die diktierten Worte transkribierten, war nicht viel schneller als manuelles Tippen. Obwohl Dragon NaturallySpeaking damals „nicht perfekt“ war, repräsentierte die Software einen grundlegenden Wandel und beseitigte frühere Mängel. Es war die erste Lösung, die Spracherkennung für eine breite Zielgruppe zugänglich machte: Geschäftsleute, Student*innen, Autor*innen, Blogger*innen, Menschen mit physischen oder kognitiven Einschränkungen oder gestresste Eltern, die inmitten ihres hektischen Alltags ein wenig Zeit zurückgewinnen wollten.

Für uns ist es heute selbstverständlich, mit Computern zu sprechen. Wir gehen automatisch davon aus, dass sie das gesprochene Wort – der natürlichste aller Input-Mechanismen – in einen akkuraten Text übertragen. Doch wie haben wir den Schritt geschafft von frühen Spracherkennungssystemen über die „nicht perfekte, jedoch ein großer Schritt nach vorne“ Software Dragon NaturallySpeaking zur modernen Spracherkennung, die unser Leben heute erleichtert? Lösungen wie Nuance Dragon Professional Anywhere und Nuance Dragon Medical One sind schnell, bis zu 99 Prozent akkurat und für eine breite Palette von Branchen wie dem Gesundheitswesen, der Strafverfolgung und dem juristischen Sektor verfügbar. Wie hat es Spracherkennungstechnologie auf unsere Smartphones geschafft, die wir täglich überall hin mitnehmen? Wie schaffen es Spracherkennungssysteme, verschiedene Akzente zu verstehen und in Sprachen wie Deutsch, Spanisch, Französisch, Schwedisch und Italienisch zur Verfügung zu stellen? Die Antwort lässt sich am besten in zwei Wörtern zusammenfassen: technologische Konvergenz.

Im Prinzip ist die moderne Spracherkennung nichts Anderes als ein von technologischer Konvergenz angetriebenes statistisches Zahlenspiel. Sobald die Stimme einer Person digital erfasst wird, ordnet die Software diesen Lauten Wortsequenzen zu. Ein akustisches Modell vergleicht die Stimme mit Phonemen (die kleinsten Einheiten von Konsonanten und Vokalen in einem gesprochenen Wort), die in riesigen digitalen Bibliotheken gespeichert sind. Gleichzeitig liefert ein Sprachmodell entsprechenden Kontext, um zum Beispiel zwischen gleichklingenden Wörtern wie „Meer“ und „mehr“ zu unterscheiden.

Das Ergebnis ist die Transkription von Sprache zu Text. In den letzten zehn Jahren wurden die Schlüsseltechnologien, die dies praktikabel und wirtschaftlich tragbar machen, immer fortschrittlicher. Dazu gehören:

  • Eine enorme Rechenleistung, die oftmals über Cloud-Hosting-Plattformen wie Microsoft Azure bereitgestellt wird
  • Riesige Akustik-Bibliotheken
  • Hochentwickelte Algorithmen, die erst durch die gewaltigen Fortschritte in den Bereichen Künstliche Intelligenz (KI) und Machine Learning möglich sind
  • Schnellere und leistungsstärkere Hardware wie zum Beispiel die neusten Smartphones
  • Die allgegenwärtige mobile und schnelle Anbindung zum Internet – unter anderem dank 5G

All diese Technologien ermöglichen jene erschwingliche Form der Spracherkennung wie wir sie heute kennen. Auch wenn KI heute in aller Munde ist, war es interessanterweise die Spracherkennung – eine Technologie, die bis in die 1970er Jahre zurückreicht – die als erstes und wahrscheinlich am stärksten vom KI-Fortschritt profitierte.

Seit 25 Jahren hält Nuance an der Vision fest, Computer zu „vermenschlichen“ und den Umgang mit ihnen natürlicher zu gestalten. Dieses Ziel spiegelt sich in den Millionen von Krankenhausmitarbeiter*innen wider, die Nuance Dragon Medical One nutzen, um die Historie ihrer Patient*innen akkurat und mit viel Empathie zu dokumentieren, während gleichzeitig das Burnout-Risiko sinkt. Tausende von Polizeibeamt*innen in den USA können dank Nuance Dragon Law Enforcement sicher und situationsbezogen arbeiten sowie Berichte dreimal schneller erfassen, als wenn sie diese im Streifenwagen abtippen. Mitarbeitende aus Pflege- und Sozialberufen wie zum Beispiel Sozialarbeiter*innen sind in der Lage, Informationen zu ihren Klient*innen schnell für in ihrem „mobilen Büro“ zu erfassen. Zudem unterstützt Spracherkennung Menschen mit physischen und kognitiven Einschränkungen maßgeblich in ihrem Alltag, wodurch Nuance seinen Teil für die Inklusion von Menschen mit Behinderungen beiträgt. Zu guter Letzt manifestiert sich die Vision in der Weiterentwicklung von Ambient Computing: Als Microsoft-Unternehmen beschreitet Nuance das nächste Feld im Bereich der noch intelligenteren KI, die im Gesundheitswesen dafür sorgen wird, dass sich „klinische Dokumentation von selbst schreibt“.

Dragon,  wir gratulieren dir herzlich zum 25sten Geburtstag! Wir können es kaum erwarten, was du in den nächsten 25 Jahren erreichen wirst! Und wer weiß – vielleicht ist der Bordcomputer aus Star Trek gar nicht mehr so weit entfernt wie wir denken! (Kleiner Tipp: bis 1:50 dranbleiben!)

Dragon wird 25 Jahre alt!

Feiern Sie mit uns, wie Spracherkennung seit einem Viertel-jahrhundert zu enormer Produktivitätssteigerung beiträgt.

Mehr Informationen

Lassen Sie uns gemeinsam die Zukunft gestalten.

Finden Sie heraus, was Nuance für Ihr Unternehmen tun kann.

Kontakt
Ed McGuiggan

Über Ed McGuiggan

Ed McGuiggan is General Manager for the Dragon Professional and Consumer business, overseeing the strategy for Nuance's Dragon speech recognition and documentation product line. Ed has held various leadership roles within Nuance over the past two decades, including the creation, development, and expansion of the company’s worldwide eCommerce business, as well as the management of the Corporate and Retail sales teams. Prior to joining Nuance in 1997, Ed held senior management roles at FTP Software and Corporate Software, Inc. He holds a Bachelor of Science Degree in Mass Communications from Emerson College.