
Sign up to save your podcasts
Or


Stellen Sie sich vor: Sie suchen in Ihrer Buchhaltung nach “Reisekosten 2025” und bekommen nur die Hälfte der Ergebnisse. Warum? Weil Ihre Mitarbeiter die Daten unterschiedlich abgespeichert haben – mal “Reisekosten 25”, mal “Reisekosten ’25” oder “Reisekosten-5”. Herkömmliche SQL-Datenbanken arbeiten nach dem strikten If-Then-Prinzip und finden nur exakte Übereinstimmungen.
Large Language Models (LLMs) funktionieren jedoch völlig anders: Sie arbeiten mit Bedeutung, nicht mit exakten Suchbegriffen. Hier kommen Embeddings ins Spiel – eine revolutionäre Art, Daten zu speichern.
Ein Embedding ist ein Zahlenvektor, der Bedeutungen in einem mehrdimensionalen Raum darstellt. Stellen Sie sich vor, wir haben einen dreidimensionalen Raum mit den Achsen:
Menschen hätten den Vektor [1, 0.1, 0.5] – sie leben, sind größtenteils nicht fest (viel Blut, Muskeln) und halbwarm. Landtiere bekämen den identischen Vektor. Insekten hingegen [1, 0.5, 0.1] – sie leben, sind durch ihren Chitinpanzer fester, aber kaltblütig.
Wenn Sie nach “Was lebt alles?” suchen, kommen Menschen, Landtiere, Insekten und Fische zurück – alle haben eine 1 bei “lebendig”. Pudding mit [0, 0.3, 0.5] fällt raus, da er nicht lebt.
Bei einer Suche nach ähnlicher Konsistenz könnte Pudding jedoch zusammen mit Menschen auftauchen – beide haben ähnliche Werte bei “Konsistenz”.
In der Praxis verwenden Embeddings nicht drei, sondern bis zu 8.192 Dimensionen! Standard-Systeme arbeiten mit etwa 1.536 Dimensionen, wobei jede Dimension eine 32-Bit-Float-Zahl ist. Das ergibt pro Vektor etwa 6 Kilobyte Daten.
Was diese einzelnen Dimensionen genau repräsentiren, bleibt jedoch ein Mysterium. Die Bedeutung entsteht erst durch den gesamten Vektorraum, nicht durch einzelne Dimensionen.
Embeddings lösen das Ausgangsproblem elegant: Suchen Sie nach “Reisekosten 2025”, findet das System alle Varianten – “Reisekosten ’25”, “Reisekosten 25” oder “Reisekosten-5”. Das System erkennt die gleiche Bedeutung und liefert vollständige Ergebnisse.
Zusätzlich können Sie Metadaten anhängen: Wer hat den Eintrag erstellt? Welcher Betrag? Diese bleiben durchsuchbar via klassischem If-Then-Prinzip, während die Hauptsuche über Vektorähnlichkeit läuft
Embeddings sind die Grundlage für moderne KI-Anwendungen. Sie ermöglichen es Maschinen, mit Bedeutungen zu arbeiten statt nur mit exakten Begriffen. In der nächsten Episode schauen wir uns Vektordatenbanken an – die Speichersysteme für diese revolutionäre Technologie.
Bleiben Sie in FĂĽhrung
-----------------------------------------------------------
By Olaf KapinskiStellen Sie sich vor: Sie suchen in Ihrer Buchhaltung nach “Reisekosten 2025” und bekommen nur die Hälfte der Ergebnisse. Warum? Weil Ihre Mitarbeiter die Daten unterschiedlich abgespeichert haben – mal “Reisekosten 25”, mal “Reisekosten ’25” oder “Reisekosten-5”. Herkömmliche SQL-Datenbanken arbeiten nach dem strikten If-Then-Prinzip und finden nur exakte Übereinstimmungen.
Large Language Models (LLMs) funktionieren jedoch völlig anders: Sie arbeiten mit Bedeutung, nicht mit exakten Suchbegriffen. Hier kommen Embeddings ins Spiel – eine revolutionäre Art, Daten zu speichern.
Ein Embedding ist ein Zahlenvektor, der Bedeutungen in einem mehrdimensionalen Raum darstellt. Stellen Sie sich vor, wir haben einen dreidimensionalen Raum mit den Achsen:
Menschen hätten den Vektor [1, 0.1, 0.5] – sie leben, sind größtenteils nicht fest (viel Blut, Muskeln) und halbwarm. Landtiere bekämen den identischen Vektor. Insekten hingegen [1, 0.5, 0.1] – sie leben, sind durch ihren Chitinpanzer fester, aber kaltblütig.
Wenn Sie nach “Was lebt alles?” suchen, kommen Menschen, Landtiere, Insekten und Fische zurück – alle haben eine 1 bei “lebendig”. Pudding mit [0, 0.3, 0.5] fällt raus, da er nicht lebt.
Bei einer Suche nach ähnlicher Konsistenz könnte Pudding jedoch zusammen mit Menschen auftauchen – beide haben ähnliche Werte bei “Konsistenz”.
In der Praxis verwenden Embeddings nicht drei, sondern bis zu 8.192 Dimensionen! Standard-Systeme arbeiten mit etwa 1.536 Dimensionen, wobei jede Dimension eine 32-Bit-Float-Zahl ist. Das ergibt pro Vektor etwa 6 Kilobyte Daten.
Was diese einzelnen Dimensionen genau repräsentiren, bleibt jedoch ein Mysterium. Die Bedeutung entsteht erst durch den gesamten Vektorraum, nicht durch einzelne Dimensionen.
Embeddings lösen das Ausgangsproblem elegant: Suchen Sie nach “Reisekosten 2025”, findet das System alle Varianten – “Reisekosten ’25”, “Reisekosten 25” oder “Reisekosten-5”. Das System erkennt die gleiche Bedeutung und liefert vollständige Ergebnisse.
Zusätzlich können Sie Metadaten anhängen: Wer hat den Eintrag erstellt? Welcher Betrag? Diese bleiben durchsuchbar via klassischem If-Then-Prinzip, während die Hauptsuche über Vektorähnlichkeit läuft
Embeddings sind die Grundlage für moderne KI-Anwendungen. Sie ermöglichen es Maschinen, mit Bedeutungen zu arbeiten statt nur mit exakten Begriffen. In der nächsten Episode schauen wir uns Vektordatenbanken an – die Speichersysteme für diese revolutionäre Technologie.
Bleiben Sie in FĂĽhrung
-----------------------------------------------------------

49 Listeners

8 Listeners

115 Listeners

9 Listeners

3 Listeners

6 Listeners

15 Listeners

41 Listeners

29 Listeners

3 Listeners

30 Listeners

17 Listeners

4 Listeners

0 Listeners

3 Listeners