Мое AI-приложение обмануло пользователей (и как я это исправил)
Chapters

So... My AI App Has Been Lying to Users (And How I Fixed It)

Chris Raroque
18:59
Apr 7, 2026
10.7K views
595
Show description

Hi my name is Chris and I build productivity apps 👋 and this is a DEEP DIVE on how I build (and iterate on) AI systems --- Braintrust (the tool I use for AI evals): https://braintrustdata.link/Uww5Jin --- My apps and socials: https://chrisraroque.com Timestamps: 0:00 – Intro / What we are covering 1:52 – Overview of AI evals (and why you need them) 4:22 – My ACTUAL AI eval workflow 5:14 – Attempt 1 (split search and calculation system) 6:43 – Attempt 2 (mini agent) 7:55 – Attempt 3 (swapping search providers) 9:33 – Trying to squeeze more out of Exa 10:51 – My new AI system for Amy (using Exa) 11:23 – Braintrust (what i use to run AI evals) 14:23 – Common AI eval mistakes (that i made) 15:37 – Writing good test cases 16:22 – How to IMPROVE your AI system with user feedback 17:37 – A summary of what I learned from my experiments 18:33 – Final thoughts and thank you :) #appdevelopment #dayinthelife #softwareengineer #startup #softwaredev #indieappdeveloper #dayinthelifecoding #codewithme #buildinpublic #vlog

Have questions about this video?

Sign up to chat with AI and get deeper insights.

Sign up — 5 free credits
проблемы точности ИИ
система оценки ИИ
тестирование модели ИИ
влияние провайдеров поиска
оптимизация затрат и производительности ИИ
TL;DR

Крис Рароque обсуждает улучшение точности своего приложения для отслеживания калорий с помощью тестирования и экспериментов.

8
Watch Score

Видео предоставляет значимые сведения о оптимизации ИИ с практическими советами.

2/10
Clickbait
positive
Sentiment
Should watch

Любой разработчик приложений или менеджер ИИ, заинтересованный в улучшении точности и тестировании ИИ, должен посмотреть.

Can skip

Тем, кто не интересуется технологиями ИИ или не желает углубляться в технические детали, можно пропустить.

Quality (9/10)

Видео предоставляет ценные сведения о тестировании ИИ с прозрачностью методов и результатов.

Clickbait (2/10)

Заголовок точно отражает содержание без преувеличений.

Sponsorship Detected
Brain Trust — ~30s
Summary
Крис Рароque сталкивается с проблемами точности своего приложения для отслеживания калорий на базе ИИ, Эми, что приводит к отменам подписок. Точность ИИ имеет решающее значение, поскольку данные извлекаются из баз данных питания, но часто бывают ошибки, особенно с международными продуктами. Рароque демонстрирует свой подход к улучшению точности ИИ с использованием реальных производственных данных и итеративного тестирования, известного как "evals." Он описывает, как использовал инструменты Brain Trust для проведения тестов и получения объективных оценок точности. В ходе многократных попыток улучшить ИИ, таких как разделение задач поиска и рассуждения, Рароque сравнивает различные модели и провайдеров поиска. Его испытания показывают, что хотя некоторые новшества, такие как использование Gemini 3 для рассуждений, изначально ухудшают производительность приложения, другие, такие как переход от Perplexity к Exa, могут повысить точность приложения. Несмотря на некоторые неудачи, Exa оказывается более эффективным партнером по поиску. Рароque размышляет о проблемах и успехах в оптимизации своего ИИ, подчеркивая необходимость постоянного тестирования и адаптации к изменениям в данных или производительности с течением времени. Этот непрекращающийся процесс повысил точность приложения, сохранив при этом эффективность затрат и скорость. Он дополнительно подчеркивает важность создания надежной системы eval, включая разумный выбор тестовых случаев и обеспечение надежности суждений. Наконец, он призывает зрителей внедрять свои собственные системы eval, делясь своими инструментами и идеями для лучшего управления производительностью ИИ.
Key Takeaways
  • Разделение задач поиска и рассуждения в ИИ может улучшить контроль и точность.
  • Переключение провайдеров поиска значительно повлияло на точность вывода ИИ.
  • Сложные решения часто работали хуже простых.
  • Постоянная оценка жизненно важна для поддержания целостности системы ИИ.
  • Тестирование с реальными данными пользователей выявило международные различия в данных.
  • Brain Trust предоставляет жизненно важные инструменты для комплексного тестирования ИИ.
  • Новые настройки ИИ показали различия в скорости и стоимости.
  • Эксперименты подтвердили необходимость специальных тестовых случаев.
  • Обновления сторонних инструментов ИИ могут непредсказуемо повысить производительность.
  • Системы DIY eval жизненно важны для развертывания эффективных решений ИИ.
Action Items
  • 1Настройте систему eval для тестирования ИИ.
  • 2Рассмотрите возможность смены провайдеров поиска на основе последних данных о производительности.
  • 3Регулярно обновляйте тестовые случаи на основе отзывов пользователей.
Prerequisites
  • Базовое понимание моделей AI
  • Знание концепций разработки приложений
  • Знакомство с методологиями тестирования производительности
Key Definitions
evals
Тестовые случаи, используемые для оценки улучшений системы ИИ.
Brain Trust
Платформа, используемая для выдачи evals и оценки производительности ИИ.
Mentioned Resources
Brain Trust(tool)

Используется для оценки и оценки эффективности ИИ.

Perplexity Sonar(tool)

Первоначальная модель поиска AI, используемая в приложении.

Gemini 3 Flash(tool)

Используется как модель рассуждения в тестировании.

Exa(tool)

Улучшенный провайдер поиска для тестов точности.

My Fitness Pal(website)

Упоминается как источник баз данных по питанию.

Content Analysis
Type

vlog

Sentiment

positive

Difficulty

intermediate

Complexity

moderate

Target Audience

Разработчики приложений, энтузиасты ИИ, пользователи инструментов производительности

#тестирование ИИ#разработка приложений#точность ИИ#приложение для отслеживания калорий#инструменты производительности#brain trust#провайдеры поиска#система оценки#эксперименты ИИ#оптимизация модели