• FragRoger
  • Posts
  • Attention is all you need - was macht Google eigentlich in Sachen KI?

Attention is all you need - was macht Google eigentlich in Sachen KI?

Die mit "Attention is all you need" begonnene Revolution setzt sich fort, und Google spielt dabei weiterhin eine zentrale Rolle.

TLDR: Alle Welt spricht über Ghibli Bilder mit ChatGPT oder Manus aus China - Aber Google, oft unbeachtet im KI-Hype um ChatGPT, steht an der Spitze der KI-Innovation mit drei Schlüsseltechnologien: Gemini 2.5, ein "Denkmodell" mit einem Kontextfenster von 1 Million Token, überlegenen Programmier- und Multimodalfähigkeiten; NotebookLM, ein revolutionärer Forschungsassistent, der eigene Dokumente mit Websuchen kombiniert und Audio-Übersichten erstellt; und Google AI Studio, eine Entwicklungsplattform für massgeschneiderte KI-Lösungen mit Computer-Steuerungsfunktionen. Was viele nicht wissen: Ironischerweise erfand Google mit seinem Paper "Attention is all you need" die grundlegende Transformer-Technologie im Jahr 2017 und steht damit massgeblich hinter dem aktuellen KI-Boom. Und heute?

  • Gemini 2.5 ist derzeit eines der wohl fortschrittlichen KI-Modelle mit 1 Million Token Kontextfenster, gut für komplexe Aufgaben wie Denken und Codierung, verfügbar in Google AI Studio.

  • NotebookLM hilft bei der Forschung, analysiert Dokumente, erstellt Zusammenfassungen und bietet Audio-Überblicke, mit Mindmaps, Live Quellen und hilft nicht nur Student:Innen

  • Google AI Studio ermöglicht Entwicklern, Prototypen mit Gemini-Modellen zu bauen, mit kostenloser Testphase und Pay-as-you-go-Preisen.

  • Und Google ist immer noch ein KI-Leader in der Forschung durch Google DeepMind, mit über 1’000 Forschungsarbeiten.

Das "Denk-Modell": Gemini 2.5 revolutioniert maschinelle Intelligenz

Gemini 2.5 Pro, im März 2025 gestartet, ist Googles intelligentestes Modell mit einem Kontextfenster von 1 Million Token, was bedeutet, es kann 1.500 Seiten Text gleichzeitig verarbeiten. Es ist für komplexe Aufgaben wie logisches Denken, Codierung und Wissenschaft optimiert, mit Benchmarks wie 18,8 % bei Humanity’s Last Exam und 63,8 % bei SWE-Bench Verified für agentisches Codieren (Gemini 2.5 Pro Benchmarks).

Dies ist nicht nur semantisches Marketing, sondern repräsentiert einen fundamentalen Fortschritt in der KI-Entwicklung. Während herkömmliche Modelle direkt auf Eingaben reagieren, führt Gemini 2.5 einen mehrstufigen Denkprozess durch. Es zerlegt komplexe Probleme in kleinere, lösbare Elemente und demonstriert dabei ein Verständnis, das über blosse Statistik hinausgeht. Die Ergebnisse sprechen für sich: Bei anspruchsvollen Benchmarks wie "Humanity's Last Exam" erreicht Gemini 2.5 Pro beeindruckende 18,8%, deutlich mehr als Konkurrenten wie OpenAIs o3-mini (14%) und Claude 3.7 (8,9%).

Besonders enorm ist die erweiterte Kontextverarbeitung. Mit einer Kapazität von einer Million Token (1 Mio Tokens sind etwa 750’000 Wörter) zum Start und geplanten zwei Millionen Token kann Gemini 2.5 beispiellose Mengen an Informationen gleichzeitig verarbeiten – das entspricht mehreren Büchern oder ganzen Codebasen auf einmal. Dies eröffnet völlig neue Anwendungsmöglichkeiten, bei denen KI komplexe Dokumente verstehen und analysieren kann, ohne den Kontext zu verlieren.

Für Unternehmen bedeutet diese Fähigkeit eine Revolution bei der Datenanalyse. Stellen Sie sich vor, eine KI könnte jahrelange Finanzberichte, Marktanalysen und Kundenfeedbacks simultan durchforsten und dabei übergreifende Muster erkennen, die selbst erfahrenen Analysten entgehen würden. Diese Art von umfassender Analyse war bisher durch die Kontextbeschränkungen älterer Modelle schlicht unmöglich.

Und auch die Programmierkapazitäten von Gemini 2.5 verdienen besondere Aufmerksamkeit. Mit einer Erfolgsquote von 63,8% bei SWE-Bench Verified – einem anspruchsvollen Benchmark zur Lösung realer Softwareprobleme – übertrifft es andere führende Modelle deutlich. Es kann nicht nur Code schreiben, sondern auch bestehende Codebasen durchsuchen, Bugs identifizieren und Optimierungen vorschlagen. Für Entwicklungsteams bedeutet das potenzielle Produktivitätssprünge, die bisher undenkbar waren.

Die multimodalen Fähigkeiten runden das Paket ab. Anders als frühere Modelle, die hauptsächlich auf Text beschränkt waren, versteht Gemini 2.5 Pro Text, Bilder, Audio und Video gleichzeitig und kann diese Informationen kohärent verarbeiten. Ein Marketingteam könnte beispielsweise ein KI-gestütztes System verwenden, das Verkaufsdaten analysiert, Kundenfeedback-Videos auswertet und gleichzeitig die visuelle Wirkung von Werbekampagnen beurteilt – alles mit einem einzigen Modell.

Trotz dieser Forschungsstärke hält Googles Gemini-Chatbot derzeit einen kleineren Marktanteil im US-amerikanischen Chatbot-Markt als ChatGPT und Microsoft Copilot. Im März 2025 betrug Geminis Anteil 13,5%, während ChatGPT (einschliesslich der Technologie hinter Copilot) fast 60% erreichte. Diese Diskrepanz zwischen wissenschaftlicher Führerschaft und Marktdurchdringung ist bezeichnend für Googles bisherigen Ansatz: technologische Exzellenz, aber zurückhaltendere Kommerzialisierung.

NotebookLM: Der intellektuelle Assistent, der Recherche neu definiert

In der Flut von Informationen, die täglich auf uns einprasselt, ist NotebookLM Googles Antwort auf die Frage, wie wir sinnvoll Wissen extrahieren und organisieren können. NotebookLM ist dabei ein KI-gestütztes Werkzeug für Forschung und Notizen, das Dokumente wie PDFs und Webseiten analysiert, Zusammenfassungen erstellt und Audio-Überblicke bietet, die wie Podcasts klingen.

Für 20 USD/Monat über Google One AI Premium bietet NotebookLM Plus höhere Limits, z. B. 500 Notizbücher und 20 Audio-Generierungen pro Tag, ideal für Teams (NotebookLM Plus Pricing).

Der entscheidende Unterschied zu herkömmlichen KI-Assistenten liegt in der Quellenbasierung. NotebookLM verankert seine Antworten fest in den von uns Nutzer:Innen bereitgestellten Dokumenten, seien es Google Docs, PDFs, Präsentationen, Websites oder sogar YouTube-Videos und neu: LIVE QUELLEN. Diese kontextuelle Verankerung sorgt für etwas, das in der Welt der generativen KI selten geworden ist: Zuverlässigkeit und Nachvollziehbarkeit.

Nach dem Hochladen von Quellen erstellt NotebookLM automatisch Zusammenfassungen, identifiziert Schlüsselthemen und schlägt relevante Fragen vor. Bei Anfragen antwortet es nicht nur mit Informationen, sondern liefert präzise Inline-Zitate, die direkt auf die Originalquellen verweisen. Diese Transparenz ist in einer Zeit, in der Halluzinationen von KI-Modellen zunehmend problematisch werden, ein entscheidender Vorteil.

Besonders innovativ ist die Audio-Übersicht-Funktion. Sie verwandelt komplexe Forschungsergebnisse in podcast-ähnliche Zusammenfassungen, präsentiert von zwei KI-Hosts, die wichtige Erkenntnisse diskutieren. Im interaktiven Modus können Nutzer diesen virtuellen Hosts sogar Folgefragen stellen und erhalten Echtzeitantworten – eine Art wissenschaftlicher Podcast nach Mass. Stellen Sie sich vor, Sie könnten während Ihres Arbeitswegs einen personalisierten Audio-Digest hören, der genau die Informationen zusammenfasst, die für Ihr aktuelles Projekt relevant sind.

Die nun im April 2025 eingeführte Funktion "Quellen entdecken" hebt NotebookLM auf eine neue Ebene. Nutzer:Innen können einfach ihr Interessengebiet beschreiben, und die KI durchsucht in Sekundenschnelle das Web, analysiert Hunderte potenzieller Quellen und präsentiert die relevantesten mit kommentierten Zusammenfassungen. Diese nahtlose Integration von internen Dokumenten und externes Webwissen beschleunigt Rechercheprozesse dramatisch.

Für Unternehmen bietet NotebookLM revolutionäre Möglichkeiten zur Wissensgewinnung. Ein Marketingteam könnte beispielsweise aktuelle Branchenberichte, Wettbewerber-Websites und Kundenfeedbacks hochladen und innerhalb von Minuten tiefgreifende Erkenntnisse gewinnen, die sonst Tage an Analysezüt erfordert hätten. Führungskräfte können komplexe Geschäftsinformationen synthetisieren und datengestützte Entscheidungen treffen, basierend auf einer umfassenden Analyse interner und externer Daten.

Google AI Studio: Die Demokratisierung der KI-Entwicklung

In der Vergangenheit war die Entwicklung fortschrittlicher KI-Anwendungen ein Privileg für Unternehmen mit spezialisierten Entwicklerteams und grossen Budgets. Google AI Studio verändert diese Dynamik grundlegend, indem es die Leistungsfähigkeit der Gemini-Modelle durch eine benutzerfreundliche Oberfläche zugänglich macht.

Google AI Studio ist eine cloudbasierte Entwicklungsumgebung, die Entwicklern ermöglicht, mit Gemini-Modellen Prototypen zu bauen und Chatbots zu entwickeln. Es hat eine kostenlose Testphase und Pay-as-you-go-Preise, z. B. 0,00025 USD pro 1’000 Eingabetoken und 0,0005 USD pro 1.000 Ausgabetoken, perfekt für massgeschneiderte KI-Lösungen (Google AI Studio Pricing).

Diese cloud-basierte Plattform ermöglicht es Entwicklern und Unternehmen, mit generativer KI zu experimentieren, Modelle zu optimieren und massgeschneiderte Lösungen zu erstellen – ohne tiefgreifende Expertise im Bereich des maschinellen Lernens. Die intuitive Schnittstelle für Prompt Engineering erlaubt es, KI-Antworten präzise zu steuern und an spezifische Geschäftsanforderungen anzupassen.

Die jüngste Revolution in Google AI Studio ist die "Computer Use"-Funktionalität, die die Grenzen zwischen KI-Assistenz und direkter Aufgabenautomatisierung verwischt. Durch die Bildschirmfreigabe kann Gemini den Desktop des Nutzers sehen und in Echtzeit mit Anwendungen interagieren. Die KI analysiert visuelle Elemente, identifiziert Objekte, liest Text und versteht das Layout von Anwendungen, was eine direktere und praktischere Form der Unterstützung ermöglicht.

Diese Fähigkeit ebnet den Weg für KI-Agenten, die Aufgaben direkt auf dem Computer des Nutzers automatisieren können – vom Navigieren auf Websites über das Eingeben von Text bis zum Debuggen von Code in einer IDE. Stellen Sie sich vor, ein virtueller Assistent, der nicht nur Ratschläge gibt, sondern tatsächlich repetitive Aufgaben für Sie übernimmt, während Sie sich auf strategische Entscheidungen konzentrieren.

Für Unternehmen bedeutet AI Studio eine drastische Senkung der Eintrittsbarrieren in die Welt der generativen KI. Ein mittelständisches Unternehmen könnte beispielsweise einen massgeschneiderten Kundenservice-Chatbot entwickeln, der spezifische Produktanfragen beantwortet, oder ein Tool zur automatisierten Datenverarbeitung erstellen, das Berichte in Echtzeit generiert. Die kostenlose Testphase und die flexiblen Preismodelle machen diese Technologie auch für kleinere Organisationen erschwinglich.

Google DeepMind: Der unterschätzte Riese

Und nun noch zurück zum Anfang. Denn da Stand in der aktuellen KI-Revolution das 2017 von Google-Wissenschaftlern veröffentlichte Paper "Attention is all you need". Diese bahnbrechende Forschungsarbeit führte die Transformer-Architektur ein – das fundamentale Konzept, auf dem praktisch alle modernen grossen Sprachmodelle basieren, einschliesslich derer von OpenAI. Die Ironie ist unverkennbar: Google legte das Fundament für einen KI-Boom, von dem zunächst andere stärker profitierten.

Google DeepMind, entstanden aus der Fusion von DeepMind und Google Brain im April 2023, steht heute an der Spitze der KI-Forschung. Mit bahnbrechenden Entwicklungen in Bereichen wie neuronalen Turing-Maschinen, Reinforcement Learning (AlphaGo, AlphaZero) und Proteinfaltung (AlphaFold) demonstriert das Team kontinuierlich seine Innovationskraft. Die mehr als 1.000 veröffentlichten Forschungsarbeiten, darunter 13 in renommierten Publikationen wie Nature und Science, unterstreichen Googles wissenschaftliche Dominanz.

Und dann ist da ja noch die Entwicklung benutzerdefinierter KI-Chips, die potentiell die Kosten für KI-Inferenzen senken könnten, könnte einen weiteren entscheidenden Vorteil darstellen. Während andere Unternehmen von externen Hardwareanbietern abhängig sind, kann Google seine eigene KI-Infrastruktur optimieren und skalieren.

Quo Vadis Google? – Die KI-Integration im Alltags-Ökosystem

Die KI-Reise von Google wird sich in den kommenden Jahren wohl vor allem durch die nahtlose Integration in die Alltagsprodukte manifestieren, die Milliarden Menschen täglich nutzen. Android-Geräte dürften zu persönlichen KI-Companions evolvieren, wobei Gemini direkt im Betriebssystem verankert sein wird – nicht nur als reaktiver Assistent, sondern als proaktiver Begleiter, der Nutzerverhalten antizipiert und kontextbezogene Hilfestellung leistet. Der Google Kalender könnte sich von einem passiven Terminplaner zu einem intelligenten Zeitmanager entwickeln, der Meetings priorisiert, Vorbereitungszeit einplant und automatisch NotebookLM-Briefings zu bevorstehenden Besprechungen erstellt.

Bei Gmail werden wir wahrscheinlich eine Revolution in der Kommunikationseffizienz erleben: Die KI wird nicht nur Antworten vorschlagen, sondern gesamte E-Mail-Korrespondenzen führen können, komplexe Informationsanfragen selbstständig recherchieren und beantworten, und wichtige von unwichtigen Nachrichten mit beispielloser Präzision trennen. Besonders spannend ist das Potenzial im Gesundheitsbereich, wo Google seine Ambitionen mit KI neu beleben könnte – DeepMinds medizinische Expertise kombiniert mit Geminis Sprachfähigkeiten könnte personalisierte Gesundheitsassistenten ermöglichen, die Gesundheitsdaten kontinuierlich analysieren, präventive Empfehlungen aussprechen und die Kommunikation zwischen Patienten und Ärzten revolutionieren.

Die strategische 75-Milliarden-USD-Investition zielt darauf ab, KI nicht als separates Produkt, sondern als fundamentale Schicht in der gesamten Google-Erfahrung zu etablieren – eine Vision, in der künstliche Intelligenz so alltäglich und unaufdringlich wird wie die Internetsuche selbst, während sie gleichzeitig tiefgreifende Produktivitätsgewinne und eine völlig neue Art der digitalen Interaktion ermöglicht.

Im Bildungsbereich könnten Lehrkräfte NotebookLM nutzen, um personalisierte Lernmaterialien zu erstellen. Durch das (erlaubte und gewollte) Hochladen von Lehrbüchern, Forschungsartikeln und eigenen Notizen könnte das Tool massgeschneiderte Studienleitfäden, Zusammenfassungen und sogar interaktive Übungen generieren, die auf die spezifischen Bedürfnisse einzelner Schüler oder Klassen zugeschnitten sind. Die Audio-Übersichtsfunktion würde zudem alternative Lernwege für auditive Lerntypen eröffnen.

übrigens: Ich bin nach wie vor überzeugt: Die Zukunft gehört nicht mehr dem Tippen und Klicken, sondern dem natürlichen Gespräch mit intelligenten Systemen. Wir stehen am Beginn einer Ära, in der die Grenzen zwischen Mensch und Maschine durch Sprache neu definiert werden – einer Ära, in der wir mit unseren Computern nicht mehr über Tastaturen und Mäuse kommunizieren, sondern durch die natürlichste Form der menschlichen Interaktion: das Gespräch. Also wenn Du reden willst, und wenn Du mit mir zusammenarbeiten willst: melde Dich gerne www.rogerbasler.ch

Disclaimer: Dieser Artikel wurde nach meinem eigenen Wissen und dann mit Recherchen mit KI (Perplexity.Ai und Grok.com sowie Gemini.Google.com) manuell zusammengestellt und mit Deepl.com/write vereinfacht. Der Text wird dann nochmals von zwei Personen meiner Wahl gelesen und kritisch hinterfragt. Das Bild stammt dieses Mal von ChatGPT und ist selbst erstellt. Dieser Artikel ist rein edukativ und erhebt keinen Anspruch auf Vollständigkeit. Bitte melde dich, wenn Du Ungenauigkeiten feststellst, danke.

Reply

or to participate.