Chapters

So... My AI App Has Been Lying to Users (And How I Fixed It)

Name: Mi App de IA Ha Engañado a Usuarios (Y Cómo lo Solucioné)
Uploaded: 2026-04-07T15:03:00.000000Z
Duration: 18 min 59 s
Channel: Chris Raroque
Description: Chris Raroque habla sobre cómo mejorar la precisión de su app de seguimiento de calorías mediante pruebas y experimentación.

Chris Raroque

18:59

Apr 7, 2026

10.7K views

595

Show description

Hi my name is Chris and I build productivity apps 👋 and this is a DEEP DIVE on how I build (and iterate on) AI systems --- Braintrust (the tool I use for AI evals): https://braintrustdata.link/Uww5Jin --- My apps and socials: https://chrisraroque.com Timestamps: 0:00 – Intro / What we are covering 1:52 – Overview of AI evals (and why you need them) 4:22 – My ACTUAL AI eval workflow 5:14 – Attempt 1 (split search and calculation system) 6:43 – Attempt 2 (mini agent) 7:55 – Attempt 3 (swapping search providers) 9:33 – Trying to squeeze more out of Exa 10:51 – My new AI system for Amy (using Exa) 11:23 – Braintrust (what i use to run AI evals) 14:23 – Common AI eval mistakes (that i made) 15:37 – Writing good test cases 16:22 – How to IMPROVE your AI system with user feedback 17:37 – A summary of what I learned from my experiments 18:33 – Final thoughts and thank you :) #appdevelopment #dayinthelife #softwareengineer #startup #softwaredev #indieappdeveloper #dayinthelifecoding #codewithme #buildinpublic #vlog

Have questions about this video?

English DeutschРусский

Desafíos de precisión de IA

Sistema de evaluación de IA

Pruebas de modelos de IA

Impacto de proveedores de búsqueda

Optimización de costos y rendimiento de IA

TL;DR

Chris Raroque habla sobre cómo mejorar la precisión de su app de seguimiento de calorías mediante pruebas y experimentación.

Watch Score

El video proporciona ideas significativas sobre la optimización de IA con consejos prácticos.

2/10

Clickbait

positive

Sentiment

Should watch

Cualquier desarrollador de apps o gerente de IA interesado en mejorar la precisión y pruebas de IA debería verlo.

Can skip

Aquellos que no están involucrados con tecnologías de IA o no están interesados en profundidades técnicas pueden saltar.

Quality (9/10)

El video proporciona valiosas ideas sobre pruebas de IA con transparencia sobre métodos y resultados.

Clickbait (2/10)

El título refleja con precisión el contenido sin afirmaciones exageradas.

Sponsorship Detected

Brain Trust — ~30s

Summary

Chris Raroque enfrenta problemas de precisión en su app de seguimiento de calorías basada en IA, Amy, lo que lleva a cancelaciones de suscriptores. La precisión de la IA es crucial ya que obtiene datos de bases de datos nutricionales, pero a menudo comete errores, especialmente con productos internacionales. Raroque demuestra su enfoque para mejorar la precisión de la IA utilizando datos de producción reales y pruebas iterativas, conocidas como "evals." Describe cómo utilizó las herramientas de Brain Trust para realizar pruebas y obtener puntuaciones de precisión objetivas. A través de múltiples intentos por mejorar la IA, como separar tareas de búsqueda y razonamiento, Raroque realiza comparaciones entre diferentes modelos y proveedores de búsqueda. Sus ensayos muestran que aunque algunas innovaciones, como usar Gemini 3 para razonamiento, inicialmente empeoran el rendimiento de la app, otras, como cambiar el proveedor de búsqueda de Perplexity a Exa, pueden aumentar la precisión de la app. A pesar de algunos fracasos, Exa emerge como un socio de búsqueda más efectivo. Raroque reflexiona sobre los desafíos y éxitos en la optimización de su IA, enfatizando la necesidad de pruebas continuas y adaptación a cambios en los datos o el rendimiento a lo largo del tiempo. Este proceso continuo ha incrementado la precisión de la app mientras mantiene la eficiencia de costos y la velocidad. Además, subraya la importancia de establecer un sistema de eval robusto, que implique elegir judiciosamente los casos de prueba y asegurar que los juicios sean confiables. Finalmente, anima a los espectadores a implementar sus propios sistemas de eval, compartiendo sus herramientas e ideas para una mejor gestión del rendimiento de la IA.

Key Takeaways

Separar tareas de búsqueda y razonamiento en IA puede mejorar el control y la precisión.
Cambiar de proveedores de búsqueda impactó significativamente la precisión de la salida de la IA.
Soluciones complejas a menudo funcionaron peor en comparación con las más simples.
La evaluación continua es vital para mantener la integridad del sistema de IA.
Las pruebas con datos reales de usuarios destacaron disparidades en los datos internacionales.
Brain Trust proporciona herramientas vitales para pruebas exhaustivas de IA.
Nuevas configuraciones de IA revelaron diferencias en velocidad y costo.
La experimentación confirmó la necesidad de casos de prueba específicos.
Las actualizaciones de herramientas de IA de terceros pueden aumentar el rendimiento de manera impredecible.
Los sistemas de eval DIY son cruciales para implementar soluciones de IA efectivas.

Action Items

1Establecer un sistema de eval para pruebas de IA.
2Considerar cambiar de proveedores de búsqueda según el rendimiento de los datos más recientes.
3Actualizar regularmente los casos de prueba basados en comentarios de usuarios.

Prerequisites

Comprensión básica de modelos de IA
Conocimiento de conceptos de desarrollo de apps
Familiaridad con metodologías de pruebas de rendimiento

Key Definitions

evals: Casos de prueba utilizados para evaluar mejoras en el sistema de IA.
Brain Trust: Plataforma utilizada para emitir evals y puntuar el rendimiento de la IA.

Mentioned Resources

Brain Trust(tool)

Utilizado para evaluar y puntuar la efectividad de la IA.

Perplexity Sonar(tool)

Modelo de búsqueda de IA inicial utilizado en la app.

Gemini 3 Flash(tool)

Utilizado como modelo de razonamiento en las pruebas.

Exa(tool)

Proveedor de búsqueda mejorado para pruebas de precisión.

My Fitness Pal(website)

Mencionado como una fuente para bases de datos nutricionales.

Content Analysis

Type

vlog

Sentiment

positive

Difficulty

intermediate

Complexity

moderate

Target Audience

Desarrolladores de apps, entusiastas de la IA, usuarios de herramientas de productividad

#pruebas de ia#desarrollo de apps#precisión de ia#app de seguimiento de calorías#herramientas de productividad#brain trust#proveedores de búsqueda#sistema de eval#experimentos de ia#optimización de modelos