So... My AI App Has Been Lying to Users (And How I Fixed It)
Show description
Hi my name is Chris and I build productivity apps 👋 and this is a DEEP DIVE on how I build (and iterate on) AI systems --- Braintrust (the tool I use for AI evals): https://braintrustdata.link/Uww5Jin --- My apps and socials: https://chrisraroque.com Timestamps: 0:00 – Intro / What we are covering 1:52 – Overview of AI evals (and why you need them) 4:22 – My ACTUAL AI eval workflow 5:14 – Attempt 1 (split search and calculation system) 6:43 – Attempt 2 (mini agent) 7:55 – Attempt 3 (swapping search providers) 9:33 – Trying to squeeze more out of Exa 10:51 – My new AI system for Amy (using Exa) 11:23 – Braintrust (what i use to run AI evals) 14:23 – Common AI eval mistakes (that i made) 15:37 – Writing good test cases 16:22 – How to IMPROVE your AI system with user feedback 17:37 – A summary of what I learned from my experiments 18:33 – Final thoughts and thank you :) #appdevelopment #dayinthelife #softwareengineer #startup #softwaredev #indieappdeveloper #dayinthelifecoding #codewithme #buildinpublic #vlog
Have questions about this video?
Sign up to chat with AI and get deeper insights.
Sign up — 5 free creditsКрис Рароque обсуждает улучшение точности своего приложения для отслеживания калорий с помощью тестирования и экспериментов.
Видео предоставляет значимые сведения о оптимизации ИИ с практическими советами.
Любой разработчик приложений или менеджер ИИ, заинтересованный в улучшении точности и тестировании ИИ, должен посмотреть.
Тем, кто не интересуется технологиями ИИ или не желает углубляться в технические детали, можно пропустить.
Видео предоставляет ценные сведения о тестировании ИИ с прозрачностью методов и результатов.
Заголовок точно отражает содержание без преувеличений.
- Разделение задач поиска и рассуждения в ИИ может улучшить контроль и точность.
- Переключение провайдеров поиска значительно повлияло на точность вывода ИИ.
- Сложные решения часто работали хуже простых.
- Постоянная оценка жизненно важна для поддержания целостности системы ИИ.
- Тестирование с реальными данными пользователей выявило международные различия в данных.
- Brain Trust предоставляет жизненно важные инструменты для комплексного тестирования ИИ.
- Новые настройки ИИ показали различия в скорости и стоимости.
- Эксперименты подтвердили необходимость специальных тестовых случаев.
- Обновления сторонних инструментов ИИ могут непредсказуемо повысить производительность.
- Системы DIY eval жизненно важны для развертывания эффективных решений ИИ.
- 1Настройте систему eval для тестирования ИИ.
- 2Рассмотрите возможность смены провайдеров поиска на основе последних данных о производительности.
- 3Регулярно обновляйте тестовые случаи на основе отзывов пользователей.
- Базовое понимание моделей AI
- Знание концепций разработки приложений
- Знакомство с методологиями тестирования производительности
- evals
- Тестовые случаи, используемые для оценки улучшений системы ИИ.
- Brain Trust
- Платформа, используемая для выдачи evals и оценки производительности ИИ.
Используется для оценки и оценки эффективности ИИ.
Первоначальная модель поиска AI, используемая в приложении.
Используется как модель рассуждения в тестировании.
Улучшенный провайдер поиска для тестов точности.
Упоминается как источник баз данных по питанию.
vlog
positive
intermediate
moderate
Разработчики приложений, энтузиасты ИИ, пользователи инструментов производительности