Data Science Deep Dive

#64: Predictive LLMs: Übertreffen Open-Source-Modelle jetzt OpenAI und XGBoost bei Preisprognosen?


Listen Later

Teil 2 unseres Preisprognose-Experiments für Gebrauchtfahrzeuge: Können Open-Source-LLMs wie Llama 3.1, Mistral und Leo-HessianAI mit GPT-3.5 mithalten? Wir haben fleißig gefinetuned, bis die Motoren qualmten – und es zeigt sich, dass die Unterschiede gar nicht mehr so groß sind. Mit ausreichend vielen Trainingsbeobachtungen nähern sich die Open-Source-Modelle den Ergebnissen von GPT-3.5 an und können es in einzelnen Metriken sogar übertreffen. Für das Finetuning größerer Modelle sind jedoch auch leistungsfähige GPUs notwendig, was die Ressourcenanforderungen deutlich erhöht. In der Folge beleuchten wir, welchen Mehrwert diese Open-Source-LLMs für praxisnahe Use Cases liefern und welche Herausforderungen dabei auftreten.

Zusammenfassung:

  • Vergleich von OpenAI GPT-3.5 und drei Open-Source-LLMs (Llama 3.1, Mistral 7B, Leo-HessianAI)
  • Finetuning der Modelle auf lokalen Daten
  • Ergebnisse: Open-Source-LLMs sind bei größerem Trainingsdatensatz fast so gut wie GPT-3.5
  • XGBoost hinkt etwas hinterher, da Freitexte hier nicht einbezogen wurden
  • Wichtige Faktoren: Batchgröße, Trainingsschritte, Speicherbedarf und Nutzung von Lora-Finetuning
  • Beim Einsatz von Open Source ist mehr Handarbeit nötig, dafür bleibt alles on-premise
  • OpenAI punktet durch Einfachheit und hohe Qualität ohne großen Datenbedarf
  • Frameworks wie Huggingface, Mistral Codebase und Torchtune unterstützen das Finetuning
  • Ausblick: größere LLMs mit Multi-GPU, multimodale Daten und Unsicherheitsquantifizierung
  •  

    ***Links***

    • [Blog] Predictive LLMs: Übertreffen Open-Source-Modelle OpenAI bei Preisprognosen? https://www.inwt-statistics.de/blog/predictive-llms-uebertreffen-os-modelle-openai-bei-preisprognosen
    • [Podcast] #50: Predictive Analytics mit LLMs: ist GPT3.5 besser als XGBoost? https://www.podbean.com/ew/pb-n6wem-165cb2c
    • [Blog] Predictive LLMs: Kann GPT-3.5 die Prognosen von XGBoost verbessern? https://www.inwt-statistics.de/blog/predictive-llms-kann-gpt-xgboost-prognosen-verbessern
    • [Podcast] #43: Damit es im Live-Betrieb nicht kracht: Vermeidung von Overfitting & Data Leakage https://www.podbean.com/ew/pb-vw736-15baac0
    • [Link] Llama-3.1-8B-Instruct auf Huggingface https://huggingface.co/meta-llama/Llama-3.1-8B-Instruct
    • - [Link] Mistral-7B-Instruct-v0.3 auf Huggingface https://huggingface.co/mistralai/Mistral-7B-Instruct-v0.3
    • [Link] Mistral 7B Release Notes https://mistral.ai/news/announcing-mistral-7b/
    • [Link] leo-hessianai-7b auf Huggingface https://huggingface.co/LeoLM/leo-hessianai-7b
    • [Link] The Hessian Center for Artificial Intelligence https://hessian.ai/de/
    • [Docs] LangChain: How to return structured data from a model https://python.langchain.com/docs/how_to/structured_output/#the-with_structured_output-method
    • [Link] Wie hoch sind die Treibhausgasemissionen pro Person in Deutschland durchschnittlich? https://www.umweltbundesamt.de/service/uba-fragen/wie-hoch-sind-die-treibhausgasemissionen-pro-person#:~:text=Der%20deutsche%20Aussto%C3%9F%20an%20Treibhausgasen,sehr%20gro%C3%9Fe%20Unterschiede%20im%20Konsumniveau.
    • ...more
      View all episodesView all episodes
      Download on the App Store

      Data Science Deep DiveBy INWT Statistics GmbH


      More shows like Data Science Deep Dive

      View all
      tagesschau: Die 20 Uhr Nachrichten (Audio) by tagesschau

      tagesschau: Die 20 Uhr Nachrichten (Audio)

      118 Listeners

      Geschichten aus der Geschichte by Richard Hemmer und Daniel Meßner

      Geschichten aus der Geschichte

      196 Listeners

      Lage der Nation - der Politik-Podcast aus Berlin by Philip Banse & Ulf Buermeyer

      Lage der Nation - der Politik-Podcast aus Berlin

      207 Listeners

      Forschung aktuell by Deutschlandfunk

      Forschung aktuell

      21 Listeners

      Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen by Teresa Stiens, Christian Rickens und die Handelsblatt Redaktion, Handelsblatt

      Handelsblatt Morning Briefing - News aus Wirtschaft, Politik und Finanzen

      47 Listeners

      Verbrechen by DIE ZEIT

      Verbrechen

      282 Listeners

      Handelsblatt Disrupt - Der Podcast über die Zukunft der Wirtschaft by Larissa Holzki, Handelsblatt

      Handelsblatt Disrupt - Der Podcast über die Zukunft der Wirtschaft

      13 Listeners

      Die Lage by DER SPIEGEL

      Die Lage

      51 Listeners

      Baywatch Berlin by Klaas Heufer-Umlauf, Thomas Schmitt, Jakob Lundt & Studio Bummens

      Baywatch Berlin

      74 Listeners

      Doppelgänger by Philipp Glöckler, Philipp Klöckner

      Doppelgänger

      12 Listeners

      Quarks Science Cops by Quarks

      Quarks Science Cops

      16 Listeners

      bto – der Ökonomie-Podcast von Dr. Daniel Stelter by Dr. Daniel Stelter

      bto – der Ökonomie-Podcast von Dr. Daniel Stelter

      25 Listeners

      Was bisher geschah - Geschichtspodcast by Joachim Telgenbüscher, Nils Minkmar

      Was bisher geschah - Geschichtspodcast

      46 Listeners

      Der KI-Podcast by ARD

      Der KI-Podcast

      13 Listeners

      KI-Update – ein heise-Podcast by Isabel Grünewald, heise online

      KI-Update – ein heise-Podcast

      3 Listeners