Mein KI-App hat Benutzer getäuscht (und so habe ich es behoben)
Chapters

So... My AI App Has Been Lying to Users (And How I Fixed It)

Chris Raroque
18:59
Apr 7, 2026
10.7K views
595
Show description

Hi my name is Chris and I build productivity apps 👋 and this is a DEEP DIVE on how I build (and iterate on) AI systems --- Braintrust (the tool I use for AI evals): https://braintrustdata.link/Uww5Jin --- My apps and socials: https://chrisraroque.com Timestamps: 0:00 – Intro / What we are covering 1:52 – Overview of AI evals (and why you need them) 4:22 – My ACTUAL AI eval workflow 5:14 – Attempt 1 (split search and calculation system) 6:43 – Attempt 2 (mini agent) 7:55 – Attempt 3 (swapping search providers) 9:33 – Trying to squeeze more out of Exa 10:51 – My new AI system for Amy (using Exa) 11:23 – Braintrust (what i use to run AI evals) 14:23 – Common AI eval mistakes (that i made) 15:37 – Writing good test cases 16:22 – How to IMPROVE your AI system with user feedback 17:37 – A summary of what I learned from my experiments 18:33 – Final thoughts and thank you :) #appdevelopment #dayinthelife #softwareengineer #startup #softwaredev #indieappdeveloper #dayinthelifecoding #codewithme #buildinpublic #vlog

Have questions about this video?

Sign up to chat with AI and get deeper insights.

Sign up — 5 free credits
Herausforderungen der KI-Genauigkeit
KI-Evaluierungssystem
KI-Modelltests
Einfluss der Suchanbieter
Kosten-Leistungs-Optimierung der KI
TL;DR

Chris Raroque diskutiert die Verbesserung der Genauigkeit seiner KI-Kalorienzähler-App durch Tests und Experimente.

8
Watch Score

Das Video bietet bedeutende Einblicke in die KI-Optimierung mit praktischen Ratschlägen.

2/10
Clickbait
positive
Sentiment
Should watch

Jeder App-Entwickler oder KI-Manager, der an der Verbesserung der KI-Genauigkeit und -Tests interessiert ist, sollte zuschauen.

Can skip

Diejenigen, die keine Verbindung zu KI-Technologien haben oder an technischen Tiefenanalysen nicht interessiert sind, können es überspringen.

Quality (9/10)

Das Video bietet wertvolle Einblicke in das Testen von KI mit Transparenz über Methode und Ergebnisse.

Clickbait (2/10)

Der Titel spiegelt den Inhalt genau wieder, ohne übertriebene Behauptungen.

Sponsorship Detected
Brain Trust — ~30s
Summary
Chris Raroque hat Probleme mit der Genauigkeit seiner KI-basierten Kalorienzähler-App, Amy, die zu Abonnenten-Stornierungen führen. Die Genauigkeit der KI ist entscheidend, da sie Daten aus Ernährungsdatenbanken abruft, aber oft Fehler macht, insbesondere bei internationalen Produkten. Raroque zeigt seinen Ansatz zur Verbesserung der KI-Genauigkeit mithilfe von realen Produktionsdaten und iterativem Testen, bekannt als "evals." Er beschreibt, wie er die Werkzeuge von Brain Trust benutzt hat, um Tests durchzuführen und objektive Genauigkeitswerte zu erhalten. Durch mehrere Versuche zur Verbesserung der KI, wie die Trennung von Such- und Denkaufgaben, führt Raroque Vergleiche zwischen verschiedenen Modellen und Suchanbietern durch. Seine Versuche zeigen, dass obwohl einige Innovationen, wie die Verwendung von Gemini 3 für das Denken, die Leistung der App anfangs verschlechtern, andere wie der Wechsel von Suchanbietern von Perplexity zu Exa die Genauigkeit der App verbessern können. Trotz einiger Misserfolge zeigt sich Exa als effektiverer Suchpartner. Raroque reflektiert über die Herausforderungen und Erfolge bei der Optimierung seiner KI und betont die Notwendigkeit kontinuierlicher Tests und Anpassungen an Veränderungen in Daten oder Leistung im Laufe der Zeit. Dieser fortlaufende Prozess hat die Genauigkeit der App erhöht, während die Kosten-Effizienz und Geschwindigkeit erhalten blieben. Er unterstreicht weiter die Bedeutung der Einrichtung eines robusten eval-Systems, das die sorgfältige Auswahl von Testfällen und die Sicherstellung zuverlässiger Urteile beinhaltet. Schließlich ermutigt er die Zuschauer, ihre eigenen eval-Systeme zu implementieren und teilt seine Werkzeuge und Erkenntnisse für ein besseres Management der KI-Leistungsfähigkeit.
Key Takeaways
  • Die Trennung von Such- und Denkaufgaben in der KI kann Kontrolle und Genauigkeit verbessern.
  • Der Wechsel von Suchanbietern hatte einen signifikanten Einfluss auf die Genauigkeit der KI-Ausgaben.
  • Komplexe Lösungen schnitten oft schlechter ab als einfachere.
  • Kontinuierliche Evaluierung ist entscheidend für die Integrität des KI-Systems.
  • Tests mit realen Benutzerdaten hoben internationale Datenunterschiede hervor.
  • Brain Trust bietet wichtige Werkzeuge für umfassendes KI-Testing.
  • Neue KI-Setups zeigten Unterschiede in Geschwindigkeit und Kosten.
  • Experimentieren bestätigte die Notwendigkeit spezifischer Testfälle.
  • Updates von Drittanbieter-KI-Tools können die Leistung unvorhersehbar steigern.
  • DIY-eval-Systeme sind entscheidend für die Implementierung effektiver KI-Lösungen.
Action Items
  • 1Richten Sie ein eval-System für KI-Tests ein.
  • 2Erwägen Sie den Wechsel von Suchanbietern basierend auf den neuesten Leistungsdaten.
  • 3Aktualisieren Sie regelmäßig die Testfälle basierend auf Benutzerfeedback.
Prerequisites
  • Grundverständnis von KI-Modellen
  • Kenntnisse über Konzepte der App-Entwicklung
  • Vertrautheit mit Methoden zur Leistungstests
Key Definitions
evals
Testfälle, die zur Bewertung von Verbesserungen im KI-System verwendet werden.
Brain Trust
Plattform, die zur Ausgabe von evals und zur Bewertung der KI-Leistung verwendet wird.
Mentioned Resources
Brain Trust(tool)

Verwendet zur Evaluierung und Bewertung der Effektivität von KI.

Perplexity Sonar(tool)

Ursprüngliches Such-KI-Modell, das in der App verwendet wird.

Gemini 3 Flash(tool)

Wurde als Denkmodell im Test verwendet.

Exa(tool)

Verbesserter Suchanbieter für Genauigkeitstests.

My Fitness Pal(website)

Erwähnt als Quelle für Ernährungsdatenbanken.

Content Analysis
Type

vlog

Sentiment

positive

Difficulty

intermediate

Complexity

moderate

Target Audience

App-Entwickler, KI-Enthusiasten, Nutzer von Produktivitätstools

#ki-testing#app-entwicklung#ki-genauigkeit#kalorienzähler-app#produktivitätswerkzeuge#brain trust#suchanbieter#eval-system#ki-experimentierung#modelloptimierung