So... My AI App Has Been Lying to Users (And How I Fixed It)
Show description
Hi my name is Chris and I build productivity apps 👋 and this is a DEEP DIVE on how I build (and iterate on) AI systems --- Braintrust (the tool I use for AI evals): https://braintrustdata.link/Uww5Jin --- My apps and socials: https://chrisraroque.com Timestamps: 0:00 – Intro / What we are covering 1:52 – Overview of AI evals (and why you need them) 4:22 – My ACTUAL AI eval workflow 5:14 – Attempt 1 (split search and calculation system) 6:43 – Attempt 2 (mini agent) 7:55 – Attempt 3 (swapping search providers) 9:33 – Trying to squeeze more out of Exa 10:51 – My new AI system for Amy (using Exa) 11:23 – Braintrust (what i use to run AI evals) 14:23 – Common AI eval mistakes (that i made) 15:37 – Writing good test cases 16:22 – How to IMPROVE your AI system with user feedback 17:37 – A summary of what I learned from my experiments 18:33 – Final thoughts and thank you :) #appdevelopment #dayinthelife #softwareengineer #startup #softwaredev #indieappdeveloper #dayinthelifecoding #codewithme #buildinpublic #vlog
Have questions about this video?
Sign up to chat with AI and get deeper insights.
Sign up — 5 free creditsChris Raroque habla sobre cómo mejorar la precisión de su app de seguimiento de calorías mediante pruebas y experimentación.
El video proporciona ideas significativas sobre la optimización de IA con consejos prácticos.
Cualquier desarrollador de apps o gerente de IA interesado en mejorar la precisión y pruebas de IA debería verlo.
Aquellos que no están involucrados con tecnologías de IA o no están interesados en profundidades técnicas pueden saltar.
El video proporciona valiosas ideas sobre pruebas de IA con transparencia sobre métodos y resultados.
El título refleja con precisión el contenido sin afirmaciones exageradas.
- Separar tareas de búsqueda y razonamiento en IA puede mejorar el control y la precisión.
- Cambiar de proveedores de búsqueda impactó significativamente la precisión de la salida de la IA.
- Soluciones complejas a menudo funcionaron peor en comparación con las más simples.
- La evaluación continua es vital para mantener la integridad del sistema de IA.
- Las pruebas con datos reales de usuarios destacaron disparidades en los datos internacionales.
- Brain Trust proporciona herramientas vitales para pruebas exhaustivas de IA.
- Nuevas configuraciones de IA revelaron diferencias en velocidad y costo.
- La experimentación confirmó la necesidad de casos de prueba específicos.
- Las actualizaciones de herramientas de IA de terceros pueden aumentar el rendimiento de manera impredecible.
- Los sistemas de eval DIY son cruciales para implementar soluciones de IA efectivas.
- 1Establecer un sistema de eval para pruebas de IA.
- 2Considerar cambiar de proveedores de búsqueda según el rendimiento de los datos más recientes.
- 3Actualizar regularmente los casos de prueba basados en comentarios de usuarios.
- Comprensión básica de modelos de IA
- Conocimiento de conceptos de desarrollo de apps
- Familiaridad con metodologías de pruebas de rendimiento
- evals
- Casos de prueba utilizados para evaluar mejoras en el sistema de IA.
- Brain Trust
- Plataforma utilizada para emitir evals y puntuar el rendimiento de la IA.
Utilizado para evaluar y puntuar la efectividad de la IA.
Modelo de búsqueda de IA inicial utilizado en la app.
Utilizado como modelo de razonamiento en las pruebas.
Proveedor de búsqueda mejorado para pruebas de precisión.
Mencionado como una fuente para bases de datos nutricionales.
vlog
positive
intermediate
moderate
Desarrolladores de apps, entusiastas de la IA, usuarios de herramientas de productividad