So... My AI App Has Been Lying to Users (And How I Fixed It)
Show description
Hi my name is Chris and I build productivity apps 👋 and this is a DEEP DIVE on how I build (and iterate on) AI systems --- Braintrust (the tool I use for AI evals): https://braintrustdata.link/Uww5Jin --- My apps and socials: https://chrisraroque.com Timestamps: 0:00 – Intro / What we are covering 1:52 – Overview of AI evals (and why you need them) 4:22 – My ACTUAL AI eval workflow 5:14 – Attempt 1 (split search and calculation system) 6:43 – Attempt 2 (mini agent) 7:55 – Attempt 3 (swapping search providers) 9:33 – Trying to squeeze more out of Exa 10:51 – My new AI system for Amy (using Exa) 11:23 – Braintrust (what i use to run AI evals) 14:23 – Common AI eval mistakes (that i made) 15:37 – Writing good test cases 16:22 – How to IMPROVE your AI system with user feedback 17:37 – A summary of what I learned from my experiments 18:33 – Final thoughts and thank you :) #appdevelopment #dayinthelife #softwareengineer #startup #softwaredev #indieappdeveloper #dayinthelifecoding #codewithme #buildinpublic #vlog
Have questions about this video?
Sign up to chat with AI and get deeper insights.
Sign up — 5 free creditsChris Raroque diskutiert die Verbesserung der Genauigkeit seiner KI-Kalorienzähler-App durch Tests und Experimente.
Das Video bietet bedeutende Einblicke in die KI-Optimierung mit praktischen Ratschlägen.
Jeder App-Entwickler oder KI-Manager, der an der Verbesserung der KI-Genauigkeit und -Tests interessiert ist, sollte zuschauen.
Diejenigen, die keine Verbindung zu KI-Technologien haben oder an technischen Tiefenanalysen nicht interessiert sind, können es überspringen.
Das Video bietet wertvolle Einblicke in das Testen von KI mit Transparenz über Methode und Ergebnisse.
Der Titel spiegelt den Inhalt genau wieder, ohne übertriebene Behauptungen.
- Die Trennung von Such- und Denkaufgaben in der KI kann Kontrolle und Genauigkeit verbessern.
- Der Wechsel von Suchanbietern hatte einen signifikanten Einfluss auf die Genauigkeit der KI-Ausgaben.
- Komplexe Lösungen schnitten oft schlechter ab als einfachere.
- Kontinuierliche Evaluierung ist entscheidend für die Integrität des KI-Systems.
- Tests mit realen Benutzerdaten hoben internationale Datenunterschiede hervor.
- Brain Trust bietet wichtige Werkzeuge für umfassendes KI-Testing.
- Neue KI-Setups zeigten Unterschiede in Geschwindigkeit und Kosten.
- Experimentieren bestätigte die Notwendigkeit spezifischer Testfälle.
- Updates von Drittanbieter-KI-Tools können die Leistung unvorhersehbar steigern.
- DIY-eval-Systeme sind entscheidend für die Implementierung effektiver KI-Lösungen.
- 1Richten Sie ein eval-System für KI-Tests ein.
- 2Erwägen Sie den Wechsel von Suchanbietern basierend auf den neuesten Leistungsdaten.
- 3Aktualisieren Sie regelmäßig die Testfälle basierend auf Benutzerfeedback.
- Grundverständnis von KI-Modellen
- Kenntnisse über Konzepte der App-Entwicklung
- Vertrautheit mit Methoden zur Leistungstests
- evals
- Testfälle, die zur Bewertung von Verbesserungen im KI-System verwendet werden.
- Brain Trust
- Plattform, die zur Ausgabe von evals und zur Bewertung der KI-Leistung verwendet wird.
Verwendet zur Evaluierung und Bewertung der Effektivität von KI.
Ursprüngliches Such-KI-Modell, das in der App verwendet wird.
Wurde als Denkmodell im Test verwendet.
Verbesserter Suchanbieter für Genauigkeitstests.
Erwähnt als Quelle für Ernährungsdatenbanken.
vlog
positive
intermediate
moderate
App-Entwickler, KI-Enthusiasten, Nutzer von Produktivitätstools