Chapters

So... My AI App Has Been Lying to Users (And How I Fixed It)

Name: Mein KI-App hat Benutzer getäuscht (und so habe ich es behoben)
Uploaded: 2026-04-07T15:03:00.000000Z
Duration: 18 min 59 s
Channel: Chris Raroque
Description: Chris Raroque diskutiert die Verbesserung der Genauigkeit seiner KI-Kalorienzähler-App durch Tests und Experimente.

Chris Raroque

18:59

Apr 7, 2026

10.7K views

595

Show description

Hi my name is Chris and I build productivity apps 👋 and this is a DEEP DIVE on how I build (and iterate on) AI systems --- Braintrust (the tool I use for AI evals): https://braintrustdata.link/Uww5Jin --- My apps and socials: https://chrisraroque.com Timestamps: 0:00 – Intro / What we are covering 1:52 – Overview of AI evals (and why you need them) 4:22 – My ACTUAL AI eval workflow 5:14 – Attempt 1 (split search and calculation system) 6:43 – Attempt 2 (mini agent) 7:55 – Attempt 3 (swapping search providers) 9:33 – Trying to squeeze more out of Exa 10:51 – My new AI system for Amy (using Exa) 11:23 – Braintrust (what i use to run AI evals) 14:23 – Common AI eval mistakes (that i made) 15:37 – Writing good test cases 16:22 – How to IMPROVE your AI system with user feedback 17:37 – A summary of what I learned from my experiments 18:33 – Final thoughts and thank you :) #appdevelopment #dayinthelife #softwareengineer #startup #softwaredev #indieappdeveloper #dayinthelifecoding #codewithme #buildinpublic #vlog

Have questions about this video?

EnglishEspañol Русский

Herausforderungen der KI-Genauigkeit

KI-Evaluierungssystem

KI-Modelltests

Einfluss der Suchanbieter

Kosten-Leistungs-Optimierung der KI

TL;DR

Chris Raroque diskutiert die Verbesserung der Genauigkeit seiner KI-Kalorienzähler-App durch Tests und Experimente.

Watch Score

Das Video bietet bedeutende Einblicke in die KI-Optimierung mit praktischen Ratschlägen.

2/10

Clickbait

positive

Sentiment

Should watch

Jeder App-Entwickler oder KI-Manager, der an der Verbesserung der KI-Genauigkeit und -Tests interessiert ist, sollte zuschauen.

Can skip

Diejenigen, die keine Verbindung zu KI-Technologien haben oder an technischen Tiefenanalysen nicht interessiert sind, können es überspringen.

Quality (9/10)

Das Video bietet wertvolle Einblicke in das Testen von KI mit Transparenz über Methode und Ergebnisse.

Clickbait (2/10)

Der Titel spiegelt den Inhalt genau wieder, ohne übertriebene Behauptungen.

Sponsorship Detected

Brain Trust — ~30s

Summary

Chris Raroque hat Probleme mit der Genauigkeit seiner KI-basierten Kalorienzähler-App, Amy, die zu Abonnenten-Stornierungen führen. Die Genauigkeit der KI ist entscheidend, da sie Daten aus Ernährungsdatenbanken abruft, aber oft Fehler macht, insbesondere bei internationalen Produkten. Raroque zeigt seinen Ansatz zur Verbesserung der KI-Genauigkeit mithilfe von realen Produktionsdaten und iterativem Testen, bekannt als "evals." Er beschreibt, wie er die Werkzeuge von Brain Trust benutzt hat, um Tests durchzuführen und objektive Genauigkeitswerte zu erhalten. Durch mehrere Versuche zur Verbesserung der KI, wie die Trennung von Such- und Denkaufgaben, führt Raroque Vergleiche zwischen verschiedenen Modellen und Suchanbietern durch. Seine Versuche zeigen, dass obwohl einige Innovationen, wie die Verwendung von Gemini 3 für das Denken, die Leistung der App anfangs verschlechtern, andere wie der Wechsel von Suchanbietern von Perplexity zu Exa die Genauigkeit der App verbessern können. Trotz einiger Misserfolge zeigt sich Exa als effektiverer Suchpartner. Raroque reflektiert über die Herausforderungen und Erfolge bei der Optimierung seiner KI und betont die Notwendigkeit kontinuierlicher Tests und Anpassungen an Veränderungen in Daten oder Leistung im Laufe der Zeit. Dieser fortlaufende Prozess hat die Genauigkeit der App erhöht, während die Kosten-Effizienz und Geschwindigkeit erhalten blieben. Er unterstreicht weiter die Bedeutung der Einrichtung eines robusten eval-Systems, das die sorgfältige Auswahl von Testfällen und die Sicherstellung zuverlässiger Urteile beinhaltet. Schließlich ermutigt er die Zuschauer, ihre eigenen eval-Systeme zu implementieren und teilt seine Werkzeuge und Erkenntnisse für ein besseres Management der KI-Leistungsfähigkeit.

Key Takeaways

Die Trennung von Such- und Denkaufgaben in der KI kann Kontrolle und Genauigkeit verbessern.
Der Wechsel von Suchanbietern hatte einen signifikanten Einfluss auf die Genauigkeit der KI-Ausgaben.
Komplexe Lösungen schnitten oft schlechter ab als einfachere.
Kontinuierliche Evaluierung ist entscheidend für die Integrität des KI-Systems.
Tests mit realen Benutzerdaten hoben internationale Datenunterschiede hervor.
Brain Trust bietet wichtige Werkzeuge für umfassendes KI-Testing.
Neue KI-Setups zeigten Unterschiede in Geschwindigkeit und Kosten.
Experimentieren bestätigte die Notwendigkeit spezifischer Testfälle.
Updates von Drittanbieter-KI-Tools können die Leistung unvorhersehbar steigern.
DIY-eval-Systeme sind entscheidend für die Implementierung effektiver KI-Lösungen.

Action Items

1Richten Sie ein eval-System für KI-Tests ein.
2Erwägen Sie den Wechsel von Suchanbietern basierend auf den neuesten Leistungsdaten.
3Aktualisieren Sie regelmäßig die Testfälle basierend auf Benutzerfeedback.

Prerequisites

Grundverständnis von KI-Modellen
Kenntnisse über Konzepte der App-Entwicklung
Vertrautheit mit Methoden zur Leistungstests

Key Definitions

evals: Testfälle, die zur Bewertung von Verbesserungen im KI-System verwendet werden.
Brain Trust: Plattform, die zur Ausgabe von evals und zur Bewertung der KI-Leistung verwendet wird.

Mentioned Resources

Brain Trust(tool)

Verwendet zur Evaluierung und Bewertung der Effektivität von KI.

Perplexity Sonar(tool)

Ursprüngliches Such-KI-Modell, das in der App verwendet wird.

Gemini 3 Flash(tool)

Wurde als Denkmodell im Test verwendet.

Exa(tool)

Verbesserter Suchanbieter für Genauigkeitstests.

My Fitness Pal(website)

Erwähnt als Quelle für Ernährungsdatenbanken.

Content Analysis

Type

vlog

Sentiment

positive

Difficulty

intermediate

Complexity

moderate

Target Audience

App-Entwickler, KI-Enthusiasten, Nutzer von Produktivitätstools

#ki-testing#app-entwicklung#ki-genauigkeit#kalorienzähler-app#produktivitätswerkzeuge#brain trust#suchanbieter#eval-system#ki-experimentierung#modelloptimierung