Chapters

So... My AI App Has Been Lying to Users (And How I Fixed It)

Name: Мое AI-приложение обмануло пользователей (и как я это исправил)
Uploaded: 2026-04-07T15:03:00.000000Z
Duration: 18 min 59 s
Channel: Chris Raroque
Description: Крис Рароque обсуждает улучшение точности своего приложения для отслеживания калорий с помощью тестирования и экспериментов.

Chris Raroque

18:59

Apr 7, 2026

10.7K views

595

Show description

Hi my name is Chris and I build productivity apps 👋 and this is a DEEP DIVE on how I build (and iterate on) AI systems --- Braintrust (the tool I use for AI evals): https://braintrustdata.link/Uww5Jin --- My apps and socials: https://chrisraroque.com Timestamps: 0:00 – Intro / What we are covering 1:52 – Overview of AI evals (and why you need them) 4:22 – My ACTUAL AI eval workflow 5:14 – Attempt 1 (split search and calculation system) 6:43 – Attempt 2 (mini agent) 7:55 – Attempt 3 (swapping search providers) 9:33 – Trying to squeeze more out of Exa 10:51 – My new AI system for Amy (using Exa) 11:23 – Braintrust (what i use to run AI evals) 14:23 – Common AI eval mistakes (that i made) 15:37 – Writing good test cases 16:22 – How to IMPROVE your AI system with user feedback 17:37 – A summary of what I learned from my experiments 18:33 – Final thoughts and thank you :) #appdevelopment #dayinthelife #softwareengineer #startup #softwaredev #indieappdeveloper #dayinthelifecoding #codewithme #buildinpublic #vlog

Have questions about this video?

English Deutsch Español

проблемы точности ИИ

система оценки ИИ

тестирование модели ИИ

влияние провайдеров поиска

оптимизация затрат и производительности ИИ

TL;DR

Крис Рароque обсуждает улучшение точности своего приложения для отслеживания калорий с помощью тестирования и экспериментов.

Watch Score

Видео предоставляет значимые сведения о оптимизации ИИ с практическими советами.

2/10

Clickbait

positive

Sentiment

Should watch

Любой разработчик приложений или менеджер ИИ, заинтересованный в улучшении точности и тестировании ИИ, должен посмотреть.

Can skip

Тем, кто не интересуется технологиями ИИ или не желает углубляться в технические детали, можно пропустить.

Quality (9/10)

Видео предоставляет ценные сведения о тестировании ИИ с прозрачностью методов и результатов.

Clickbait (2/10)

Заголовок точно отражает содержание без преувеличений.

Sponsorship Detected

Brain Trust — ~30s

Summary

Крис Рароque сталкивается с проблемами точности своего приложения для отслеживания калорий на базе ИИ, Эми, что приводит к отменам подписок. Точность ИИ имеет решающее значение, поскольку данные извлекаются из баз данных питания, но часто бывают ошибки, особенно с международными продуктами. Рароque демонстрирует свой подход к улучшению точности ИИ с использованием реальных производственных данных и итеративного тестирования, известного как "evals." Он описывает, как использовал инструменты Brain Trust для проведения тестов и получения объективных оценок точности. В ходе многократных попыток улучшить ИИ, таких как разделение задач поиска и рассуждения, Рароque сравнивает различные модели и провайдеров поиска. Его испытания показывают, что хотя некоторые новшества, такие как использование Gemini 3 для рассуждений, изначально ухудшают производительность приложения, другие, такие как переход от Perplexity к Exa, могут повысить точность приложения. Несмотря на некоторые неудачи, Exa оказывается более эффективным партнером по поиску. Рароque размышляет о проблемах и успехах в оптимизации своего ИИ, подчеркивая необходимость постоянного тестирования и адаптации к изменениям в данных или производительности с течением времени. Этот непрекращающийся процесс повысил точность приложения, сохранив при этом эффективность затрат и скорость. Он дополнительно подчеркивает важность создания надежной системы eval, включая разумный выбор тестовых случаев и обеспечение надежности суждений. Наконец, он призывает зрителей внедрять свои собственные системы eval, делясь своими инструментами и идеями для лучшего управления производительностью ИИ.

Key Takeaways

Разделение задач поиска и рассуждения в ИИ может улучшить контроль и точность.
Переключение провайдеров поиска значительно повлияло на точность вывода ИИ.
Сложные решения часто работали хуже простых.
Постоянная оценка жизненно важна для поддержания целостности системы ИИ.
Тестирование с реальными данными пользователей выявило международные различия в данных.
Brain Trust предоставляет жизненно важные инструменты для комплексного тестирования ИИ.
Новые настройки ИИ показали различия в скорости и стоимости.
Эксперименты подтвердили необходимость специальных тестовых случаев.
Обновления сторонних инструментов ИИ могут непредсказуемо повысить производительность.
Системы DIY eval жизненно важны для развертывания эффективных решений ИИ.

Action Items

1Настройте систему eval для тестирования ИИ.
2Рассмотрите возможность смены провайдеров поиска на основе последних данных о производительности.
3Регулярно обновляйте тестовые случаи на основе отзывов пользователей.

Prerequisites

Базовое понимание моделей AI
Знание концепций разработки приложений
Знакомство с методологиями тестирования производительности

Key Definitions

evals: Тестовые случаи, используемые для оценки улучшений системы ИИ.
Brain Trust: Платформа, используемая для выдачи evals и оценки производительности ИИ.

Mentioned Resources

Brain Trust(tool)

Используется для оценки и оценки эффективности ИИ.

Perplexity Sonar(tool)

Первоначальная модель поиска AI, используемая в приложении.

Gemini 3 Flash(tool)

Используется как модель рассуждения в тестировании.

Exa(tool)

Улучшенный провайдер поиска для тестов точности.

My Fitness Pal(website)

Упоминается как источник баз данных по питанию.

Content Analysis

Type

vlog

Sentiment

positive

Difficulty

intermediate

Complexity

moderate

Target Audience

Разработчики приложений, энтузиасты ИИ, пользователи инструментов производительности

#тестирование ИИ#разработка приложений#точность ИИ#приложение для отслеживания калорий#инструменты производительности#brain trust#провайдеры поиска#система оценки#эксперименты ИИ#оптимизация модели