- FragRoger
- Posts
- Warum wir mehr und mehr mit Computern sprechen werden
Warum wir mehr und mehr mit Computern sprechen werden
Über Vibe Coding, Sprach Assistenzen und die Möglichkeit den KI Agenten direkte Sprachbefehle geben zu können

TLDR: Hast Du gewusst? Menschen sprechen durchschnittlich 3-5 mal schneller als sie tippen können (150+ Wörter pro Minute vs. 40-80 WPM). Diese Geschwindigkeitsdifferenz macht Sprachanweisungen besonders effizient für die Formulierung komplexer Ideen und Konzepte. Und das Ziel von einem Large Language Modell (LLM) mit Natural Language Processing (NLP)? Na klar: Sprache verstehen und Sprachbefehle umsetzen. Trotz aktueller Herausforderungen wie Verzögerungen bei Siri und Alexa steigt die Bedeutung der Sprachtechnologie rasant an. Diese Entwicklung verspricht Produktivitätssteigerungen, neue Programmieransätze wie "Vibe-Coding" und eine Demokratisierung des Technologiezugangs.
Die Evolution der Mensch-Computer-Interaktion
Ich glaube, in den nächsten Jahren werden wir eine drastische Veränderung erleben, wie wir mit digitaler Technologie interagieren. Was mit Tastatur und Maus begann, entwickelte sich zu Touchscreens und nun zunehmend zu Sprachschnittstellen. Diese Evolution ist kein Zufall, sondern entspringt unserem grundlegenden Bedürfnis nach natürlicherer Kommunikation mit Technologie. Und mal ehrlich, wer hat schon das Zehnfingersystem mit Freude gelernt? Ich kann es sehr gut und bereue nichts, aber war das eine Tortur…
Nun gut, die Schweizer Spitch AG berichtet in einer Studie, dass 65% der befragten Computerexperten Sprache als die mit Abstand natürlichste Umgangsform mit modernen Computern betrachten. Dies erstaunt nicht, denn verbale Kommunikation ist unsere primäre Interaktionsform im Alltag und erfordert keine spezielle Ausbildung oder komplexe Bedienkonzepte.
Unsere intuitive Natur der Sprachinteraktion ermöglicht es auch technisch weniger versierten Personen, komplexe Technologien zu nutzen. Du musst keine Programmiersprache lernen oder komplizierte Benutzeroberflächen verstehen – du sprichst einfach mit deinem Gerät wie mit einem Menschen. Diese Demokratisierung des Technologiezugangs öffnet digitale Möglichkeiten für eine breitere Bevölkerungsschicht und überwindet Barrieren, die bisher den Zugang erschwerten.
Aber Achtung: ich finde auch dass man dennoch die Grundlagen jeder Arbeit beherrschen sollte und neben den Prinzipien auch das Handwerk verstehen muss.
A propos Handwerk: sehen wir uns im KI Update am Montag Abend? Immer kostenlos und live auf Zoom: www.ki-update.com
Aktuelle Herausforderungen der Sprachassistenten
Wie sieht es denn auf Konsument:Innen Seite aus? Wie toll wäre es wenn wir doch endlich Siri sagen könnten: erstelle mir eine Terminserie - oder: sag alle Termine ab, oder: gratuliere XY zum Geburtstag. Versprochen wurde es letztes Jahr, geschehen ist wenig.
Die grossen Technologieunternehmen kämpfen derzeit mit erheblichen Herausforderungen bei der Weiterentwicklung ihrer Sprachassistenten. Microsoft-CEO Satya Nadella bezeichnete eins die erste Generation von Sprachassistenten wie Siri, Alexa und Cortana sogar als "dumm wie ein Stein" – eine harte, aber nicht unbegründete Kritik.
Bei Apple wurde die für April 2025 geplante Siri-Aktualisierung verschoben und soll nun erst im kommenden Jahr erscheinen. Die Verzögerung betrifft insbesondere die personalisierten Antwortfunktionen, die Nutzerdaten aus dem iPhone verwenden sollten. Intern wird die Situation als "hässlich" und "peinlich" beschrieben.
Amazon steht vor ähnlichen Problemen: Die Markteinführung von Alexa 2.0 wurde von Februar auf frühestens Ende März 2025 verschoben. Grund sind Schwierigkeiten bei grundlegenden Testfragen, die falsch beantwortet wurden. Trotz einer Präsentation in New York City Ende Februar 2025 wurde der tatsächliche Marktstart verzögert.
Google hingegen vollzieht einen kompletten Strategiewechsel: Der Google Assistant wird bis Ende 2025 für die meisten Geräte eingestellt und durch Gemini ersetzt. Bereits im letzten Jahr wurden 22 Features des Google Assistant entfernt, darunter beliebte Funktionen wie der Interpreter-Modus und Family Bell. Obwohl Gemini derzeit langsamer reagiert als der Google Assistant, soll er mit der Zeit schneller werden und auf mehr Plattformen verfügbar sein.
Diese technischen Schwierigkeiten verdeutlichen, dass der Übergang zu fortschrittlicheren KI-Systemen für Sprachassistenten komplexer ist als erwartet. Dennoch zeigt die intensive Investition aller grossen Technologieunternehmen in diesen Bereich, dass sie Sprachschnittstellen als zentrale Zukunftstechnologie betrachten.
Gehen wir mal auf diese Schnittstellen ein und was sie für Dich und dein Unternehmen bedeuten.
PS: Kennst Du meinen Podcast?
Die technologischen Treiber der Sprachrevolution
Die Revolution in der sprachbasierten Interaktion wäre ohne zwei entscheidende technologische Entwicklungen undenkbar: Natural Language Processing (NLP) und Large Language Models (LLM).
Natural Language Processing als Grundlage
NLP ist ein Teilbereich der künstlichen Intelligenz, der sich mit der Fähigkeit von Computern befasst, menschliche Sprache zu verstehen, zu interpretieren und zu generieren. Durch Techniken wie Tokenisierung, kontextuelles Verständnis und Selbstaufmerksamkeitsmechanismen ermöglichen NLP-Systeme die präzise Verarbeitung natürlicher Sprache. Diese Technologie schafft die Grundlage dafür, dass Computer unsere Sprache nicht nur hören, sondern auch verstehen können.
Large Language Models als Revolution
LLMs wie GPT-4o oder Claudes 3.7 Sonnet nutzen neuronale netzwerkbasierte Modelle und "unüberwachtes Lernen", um Sprache zu verstehen und zu generieren. Sie bilden das Herzstück moderner Sprachverarbeitungssysteme und können komplexe Zusammenhänge zwischen Wörtern und Sätzen erfassen, Wahrscheinlichkeiten für Wortfolgen berechnen und natürliche Sprache in programmierbare Anweisungen umwandeln.
Die eigentliche Revolution liegt aber in der Verschmelzung bzw dem Zusammenbringen dieser Technologien: Die Spracherkennung wandelt gesprochene Worte in Text um, NLP-Techniken extrahieren die Bedeutung, und LLMs generieren kontextbezogene Antworten oder Code. Diese Integration ermöglicht es Anwendungen, Spracheingaben zu verarbeiten, Anfragen tiefgreifend zu verstehen und kohärente, kontext-sensitive Antworten zu liefern. Und hier kommt das Powerplay zusammen.
Effekt 1: Unschlagbare Effizienz
Menschen sprechen durchschnittlich 3-5 mal schneller als sie tippen können (150+ Wörter pro Minute vs. 40-80 WPM). Diese Geschwindigkeitsdifferenz macht Sprachanweisungen besonders effizient für die Formulierung komplexer Ideen und Konzepte. Ein Adobe-Survey ergab bereits 2019, dass 48% der Verbraucher Sprachsteuerung für die Websuche nutzen, während 40% sie verwenden, weil sie schneller als Tippen ist.
Du kannst E-Mails diktieren, während du einen Kaffee zubereitest, oder deinen Smart-Home-Assistenten bitten, die Lichter zu dimmen, während du bereits im Bett liegst. Diese Effizienzsteigerung wird mit zunehmender Verbesserung der Technologie immer deutlicher spürbar.
In einer Welt, in der Produktivität und Effizienz zunehmend wichtiger werden, bietet die Sprachsteuerung damit einen signifikanten Vorteil.
Effekt 2: Verbesserte Zugänglichkeit
Sprachsteuerung macht Technologie für Menschen mit körperlichen Einschränkungen oder Behinderungen zugänglicher. Für Personen mit eingeschränkter Mobilität, Sehbehinderungen oder motorischen Einschränkungen bietet die Sprachsteuerung oft die einzige Möglichkeit, moderne Technologie vollständig zu nutzen.
Auch für Entwickler mit RSI (Repetitive Strain Injury) oder anderen Einschränkungen bietet Voice-Coding eine ergonomische Alternative zur herkömmlichen Programmierung. Diese Inklusivität ist ein entscheidender Vorteil sprachbasierter Schnittstellen und trägt zu ihrer wachsenden Bedeutung bei.
Effekt 3: Vibe Coding
Eine besonders spannende Entwicklung ist die Programmierung mittels Sprache, die grundlegend verändert, wie Software entsteht.
Der Begriff "Vibe-Coding" wurde von Andrej Karpathy geprägt und beschreibt einen Ansatz, bei dem Entwickler sich auf übergeordnete Ideen konzentrieren können, während KI-gestützte Tools die Übersetzung von Spracheingaben in Code übernehmen. Diese Methode ermöglicht es, durch natürliche Sprachbefehle komplexe Softwarelösungen zu erstellen.
Tools wie Super Whisper, VSCode Speech Extension und spezielle Voice-to-Code-Anwendungen wie Speech2Code ermöglichen bereits heute, durch einfache Sprachbefehle Code zu schreiben und zu manipulieren. Ein Entwickler kann beispielsweise sagen: "Erstelle eine Funktion, die den durchschnittlichen Wert eines Arrays berechnet" und die KI generiert den entsprechenden Code.
Mit diesem Produktivitätsschub verändert sich die Rolle der Entwickler:Innen grundlegend. Der Fokus verschiebt sich von der Beherrschung der Syntax hin zu Produktvision und Architektur, Anleitung der KI zur Generierung von Code sowie Bewertung und Verbesserung der Codequalität. Die Fähigkeit, präzise Anweisungen zu formulieren und die Arbeit der KI zu lenken, wird zur entscheidenden Kompetenz.
Auswirkungen und Chancen für Unternehmen
Die zunehmende Verbreitung von sprachbasierten Technologien bietet Unternehmen vielfältige strategische Chancen und verändert Arbeitsprozesse grundlegend.
Der Markt für Sprachassistenten, der 2019 bereits 11 Milliarden USD wert war, wird voraussichtlich bis 2025 um 17% wachsen. Unternehmen setzen zunehmend auf KI-basierte Sprachtechnologien für Kosteneinsparungen, Automatisierung, Business Intelligence und verbesserte Kundenerfahrungen.
In Callcentern können Sprachbots Routineanfragen beantworten und so die Mitarbeiterproduktivität steigern. Im Einzelhandel ermöglichen sprachgesteuerte Assistenten personalisierte Einkaufserlebnisse. Und in der Fertigung können Arbeiter per Sprachbefehl Maschinen steuern, während ihre Hände für andere Aufgaben frei bleiben.
Und für die Implementierung von LLMs in Unternehmen gibt es verschiedene Ansätze, vom einfachen Einsatz von Lösungen wie OpenAI Whisper über die Verwendung von Open-Source-Modellen wie Llama 2 bis hin zum Training eigener massgeschneiderter Modelle. Die Wahl hängt von spezifischen Unternehmenszielen, Ressourcenverfügbarkeit und Sicherheitsanforderungen ab.
Ein paar technische Hürden
Die Spracherkennungsgenauigkeit bleibt eine Herausforderung. 73% der Befragten in einer Umfrage nannten die Genauigkeit als grösstes Hindernis bei der Einführung von Spracherkennungstechnologie. Besonders in Umgebungen mit Hintergrundgeräuschen haben Sprachassistenten Schwierigkeiten, Befehle korrekt zu verstehen.
Mit zunehmenden Fähigkeiten steigt zudem der Rechenleistungsbedarf für die Echtzeit-Verarbeitung. Die lokale Verarbeitung auf Geräten (Edge-AI) bleibt kostspielig und technisch anspruchsvoll, was die Verbreitung leistungsfähiger Sprachassistenten auf Mobilgeräten einschränkt.
Datenschutz und Sicherheit
Sprachassistenten hören ständig auf Aktivierungswörter, was zu unbeabsichtigten Aufnahmen führen kann. Die Speicherung von Sprachdaten wirft Bedenken hinsichtlich potenzieller Datenschutzverletzungen auf. Entwickler:Innen müssen komplexe Datenschutzgesetze wie GDPR in Europa, das DSG in der Schweiz oder CCPA in Kalifornien einhalten, was die Entwicklung und den Einsatz dieser Technologien verlangsamt aber eben auch sicherer macht.
Ressourcenherausforderungen und Nachhaltigkeit
Da LLMs ständig Wahrscheinlichkeiten berechnen, benötigen sie erhebliche Rechenressourcen. Mit wachsender Modellgrösse steigen Kosten, Energieverbrauch und Nachhaltigkeitsbedenken. Dies könnte zu einer digitalen Kluft führen, da viele grosse LLMs von finanzstarken Unternehmen finanziert werden und in deren Cloud-Umgebungen angesiedelt sind, was die Zugänglichkeit für kleinere Technologieunternehmen einschränkt.
Die strategische Bedeutung für die digitale Zukunft
Sprachbasierte Interaktion ist tatsächlich erst der Anfang einer fundamentalen Transformation in der Mensch-Computer-Interaktion. Die Kombination aus NLP und LLMs ermöglicht bereits heute eine zunehmend natürliche, effiziente und zugängliche Kommunikation mit Computersystemen - mit Limitationen halt noch.
Für Unternehmen bedeutet diese Entwicklung sowohl Chance als auch Herausforderung. Jene, die frühzeitig die strategischen Möglichkeiten sprachbasierter Technologien erkennen und nutzen, werden Wettbewerbsvorteile erzielen können. Gleichzeitig erfordert die Integration dieser Technologien eine sorgfältige Planung, Investitionen in Infrastruktur und die Entwicklung neuer Kompetenzen.
Ich bin aber überzeugt: Die Zukunft gehört nicht mehr dem Tippen und Klicken, sondern dem natürlichen Gespräch mit intelligenten Systemen. Wir stehen am Beginn einer Ära, in der die Grenzen zwischen Mensch und Maschine durch Sprache neu definiert werden – einer Ära, in der wir mit unseren Computern nicht mehr über Tastaturen und Mäuse kommunizieren, sondern durch die natürlichste Form der menschlichen Interaktion: das Gespräch.
Und wenn Du mit mir zusammenarbeiten willst: melde Dich gerne www.rogerbasler.ch
Disclaimer: Dieser Artikel wurde nach meinem eigenen Wissen und dann mit Recherchen mit KI (Perplexity.Ai und Gemini.Google.com) manuell zusammengestellt und mit Deepl.com/write vereinfacht. Der Text wird dann nochmals von zwei Personen meiner Wahl gelesen und kritisch hinterfragt. Das Bild stammt von Ideogram und ist selbst erstellt. Dieser Artikel ist rein edukativ und erhebt keinen Anspruch auf Vollständigkeit. Bitte melde dich, wenn Du Ungenauigkeiten feststellst, danke.
Quelle und weitere Informationen:
Reply