У агентов снова нашли слабое место: память может портиться прямо во время «самоулучшения».
В новой работе Useful Memories Become Faulty When Continuously Updated by LLMs исследователи из University of Illinois, Tsinghua University и других лабораторий проверили, что происходит, когда агент постоянно переписывает свой опыт в аккуратные заметки.
Идея выглядит логично: агент решил задачу, сжал опыт в короткий урок, сохранил его в память и в следующий раз должен работать лучше. Но на практике такие пересказы постепенно ломают исходный смысл.
LLM часто превращает конкретный успешный эпизод в слишком общий совет. Потом эти советы группируются, обновляются, переписываются и начинают смешивать разные типы задач. В итоге память выглядит красиво, но работает хуже, чем сырые попытки с реальным контекстом.
Авторы тестировали это на веб-шопинге, симулированных средах, работе с приложениями и ARC-подобных задачах. Самый жёсткий результат: GPT-5.4 решала 100% небольшого набора ARC-AGI без памяти, но после построения памяти из правильных решений качество падало примерно до 54%.
Что ломалось:
- разные задачи склеивались в одну группу
- частные правила становились «универсальными»
- важные детали терялись при пересказе
- память переобучалась на узкие примеры
- новые обновления затирали полезные старые факты
Для агентных систем это неприятная проблема. Долгая память сама по себе не делает агента умнее. Если каждое действие автоматически превращать в саммари, агент может звучать увереннее, но действовать хуже.
Более рабочая схема - хранить сырые эпизоды как доказательства: реальные попытки, ошибки, решения и контекст. А обобщения делать осторожно, не превращая память в бесконечно переписываемый конспект.
Paper: https://arxiv.org/abs/2605.12978
В новой работе Useful Memories Become Faulty When Continuously Updated by LLMs исследователи из University of Illinois, Tsinghua University и других лабораторий проверили, что происходит, когда агент постоянно переписывает свой опыт в аккуратные заметки.
Идея выглядит логично: агент решил задачу, сжал опыт в короткий урок, сохранил его в память и в следующий раз должен работать лучше. Но на практике такие пересказы постепенно ломают исходный смысл.
LLM часто превращает конкретный успешный эпизод в слишком общий совет. Потом эти советы группируются, обновляются, переписываются и начинают смешивать разные типы задач. В итоге память выглядит красиво, но работает хуже, чем сырые попытки с реальным контекстом.
Авторы тестировали это на веб-шопинге, симулированных средах, работе с приложениями и ARC-подобных задачах. Самый жёсткий результат: GPT-5.4 решала 100% небольшого набора ARC-AGI без памяти, но после построения памяти из правильных решений качество падало примерно до 54%.
Что ломалось:
- разные задачи склеивались в одну группу
- частные правила становились «универсальными»
- важные детали терялись при пересказе
- память переобучалась на узкие примеры
- новые обновления затирали полезные старые факты
Для агентных систем это неприятная проблема. Долгая память сама по себе не делает агента умнее. Если каждое действие автоматически превращать в саммари, агент может звучать увереннее, но действовать хуже.
Более рабочая схема - хранить сырые эпизоды как доказательства: реальные попытки, ошибки, решения и контекст. А обобщения делать осторожно, не превращая память в бесконечно переписываемый конспект.
Paper: https://arxiv.org/abs/2605.12978
❤15🔥7🥰4😁4
ИИ-ассистенты уже умеют писать код, предлагать исправления и ускорять разработку.
Но в реальных проектах вайб-кодинг заканчивается нестабильным результатом, неожиданными ошибками и хаосом в промптах.
На открытом уроке:
• Почему хаотичные промпты дают нестабильный результат и перестают работать в реальной разработке;
• Ошибки, возникающие при использовании ИИ-ассистента в рабочих задачах;
• Как перейти от «вайб-кодинга» к системному подходу при работе с ИИ в разработке;
• Как применять готовые шаблоны и практики, чтобы получать предсказуемый и полезный результат;
• Как эти подходы работают на практике — в формате живой демонстрации на реальном open-source проекте.
После занятия вы поймёте, как выстраивать управляемую работу с ИИ, как переносить рабочие подходы в свои проекты.
🗓 Открытый урок пройдёт 16 июня в 20:00 МСК в преддверии старта курса «ИИ для разработчиков».
Регистрация: https://tglink.io/75fcbcb0984f60?erid=2W5zFGqSCUH
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
Но в реальных проектах вайб-кодинг заканчивается нестабильным результатом, неожиданными ошибками и хаосом в промптах.
На открытом уроке:
• Почему хаотичные промпты дают нестабильный результат и перестают работать в реальной разработке;
• Ошибки, возникающие при использовании ИИ-ассистента в рабочих задачах;
• Как перейти от «вайб-кодинга» к системному подходу при работе с ИИ в разработке;
• Как применять готовые шаблоны и практики, чтобы получать предсказуемый и полезный результат;
• Как эти подходы работают на практике — в формате живой демонстрации на реальном open-source проекте.
После занятия вы поймёте, как выстраивать управляемую работу с ИИ, как переносить рабочие подходы в свои проекты.
🗓 Открытый урок пройдёт 16 июня в 20:00 МСК в преддверии старта курса «ИИ для разработчиков».
Регистрация: https://tglink.io/75fcbcb0984f60?erid=2W5zFGqSCUH
Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.
❤4
Forwarded from Machinelearning
Китайская компания проводит первый в своей истории раунд привлечения внешнего капитала около 50 млрд юаней ($7,4 млрд).
По данным агентства Reuters, после вложений компанию оценят в 350–400 млрд юаней ($52–59 млрд).
Крупнейшими внешними инвесторами могут стать интернет-холдинг Tencent и производитель аккумуляторов CATL: первый рассматривает вложение 10 млрд юаней, второй - 5 млрд.
Основатель DeepSeek Liang Wenfeng, по словам источников, внесёт 20 млрд юаней собственных средств (это самый крупный частный взнос в раунде).
Переговоры также ведутся с государственным фондом поддержки ИИ КНР, а также с NetEase и JD.com. Общее число инвесторов, как ожидается, не превысит десяти. Среди возможных участников называют гонконгские IDG Capital и Monolith Management.
На фоне западных сделок раунд выглядит скромно: Anthropic в прошлом месяце привлёк $65 млрд, OpenAI в марте - $122 млрд.
О планах выхода на биржу DeepSeek пока не заявлял.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍4😍2🤣1
Как сделать ранжирование с нуля 💫
В Авито совсем недавно появился новый продукт — Подработка. Здесь исполнители ищут удобную работу на пару часов с быстрыми выплатами, а заказчики — толковых работников. В отличие от классической задачи что-то продать тут мы решали проблему мэтчинга: важно, чтобы и исполнителю, и заказчику понравилось работать друг с другом.
Задача большая и интересная, поэтому мы сняли новый выпуск «Диванной аналитики» с Владиславом Урихом, архитектором системы алгоритмов мэтчинга для GIG-платформы.
Вот что он рассказал:
➡️ Как начинали строить мэтчинг и почему вначале не использовали ML.
➡️ Почему первый ML-подход не сработал и какую альтернативу придумали.
➡️ Какие инсайты и уроки вынесли, чтобы построить эффективную алгоритмическую систему.
Видео о том, как разрабатывали новые подходы к мэтчингу, смотрите где удобно:
📱 YouTube
📱 VK Видео
В Авито совсем недавно появился новый продукт — Подработка. Здесь исполнители ищут удобную работу на пару часов с быстрыми выплатами, а заказчики — толковых работников. В отличие от классической задачи что-то продать тут мы решали проблему мэтчинга: важно, чтобы и исполнителю, и заказчику понравилось работать друг с другом.
Задача большая и интересная, поэтому мы сняли новый выпуск «Диванной аналитики» с Владиславом Урихом, архитектором системы алгоритмов мэтчинга для GIG-платформы.
Вот что он рассказал:
Видео о том, как разрабатывали новые подходы к мэтчингу, смотрите где удобно:
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍6🔥5😐2🤣1
This media is not supported in your browser
VIEW IN TELEGRAM
NVIDIA выкатила Nemotron 3 Ultra - открытую frontier-модель для агентов, которые работают долго, а не просто отвечают на один промпт и забывают контекст.
Ставка здесь не на красивые бенчмарки общего рассуждения, а на длинные агентные цепочки: планирование, вызов инструментов, работа с кодом, исследование документов и enterprise-сценарии, где задача тянется через десятки шагов.
Именно там обычно ломается экономика агентов. Каждый шаг - новый инференс. Чем длиннее траектория, тем выше задержка и итоговая стоимость. В демо это почти не видно, а в проде быстро превращается в главный счёт.
Поэтому самые интересные цифры у Nemotron 3 Ultra связаны с эффективностью:
- до 5x быстрее инференс
- до 30% дешевле на агентных задачах
- фокус на длинных рабочих сессиях
- открытая модель для команд, которым важен контроль над весами
Для продакшен-агентов это бьёт в больное место. Важен не только красивый ответ на одном запросе, а цена завершённой задачи: сколько стоила вся цепочка, сколько времени заняла и сколько раз агенту пришлось дергать модель.
Открытость тоже важна. Команды с собственной инфраструктурой получают больше контроля: можно дообучать под домен, гонять модель внутри периметра и не держать критичный агентный пайплайн полностью на чужом API.
«До 5x» и «до 30%» почти всегда означают лучший сценарий на удобном профиле нагрузки. Реальный прирост зависит от ваших трасс, инструментов, длины контекста и количества шагов.
Проверять такую модель нужно не по latency одного запроса, а по cost-per-completed-task: сколько стоит агенту реально закрыть задачу от начала до конца.
https://blogs.nvidia.com/blog/nvidia-gtc-taipei-computex-2026-news/
Ставка здесь не на красивые бенчмарки общего рассуждения, а на длинные агентные цепочки: планирование, вызов инструментов, работа с кодом, исследование документов и enterprise-сценарии, где задача тянется через десятки шагов.
Именно там обычно ломается экономика агентов. Каждый шаг - новый инференс. Чем длиннее траектория, тем выше задержка и итоговая стоимость. В демо это почти не видно, а в проде быстро превращается в главный счёт.
Поэтому самые интересные цифры у Nemotron 3 Ultra связаны с эффективностью:
- до 5x быстрее инференс
- до 30% дешевле на агентных задачах
- фокус на длинных рабочих сессиях
- открытая модель для команд, которым важен контроль над весами
Для продакшен-агентов это бьёт в больное место. Важен не только красивый ответ на одном запросе, а цена завершённой задачи: сколько стоила вся цепочка, сколько времени заняла и сколько раз агенту пришлось дергать модель.
Открытость тоже важна. Команды с собственной инфраструктурой получают больше контроля: можно дообучать под домен, гонять модель внутри периметра и не держать критичный агентный пайплайн полностью на чужом API.
«До 5x» и «до 30%» почти всегда означают лучший сценарий на удобном профиле нагрузки. Реальный прирост зависит от ваших трасс, инструментов, длины контекста и количества шагов.
Проверять такую модель нужно не по latency одного запроса, а по cost-per-completed-task: сколько стоит агенту реально закрыть задачу от начала до конца.
https://blogs.nvidia.com/blog/nvidia-gtc-taipei-computex-2026-news/
👍10🔥5👏2🤯2❤1
DeepSeek всё чаще появляется в статьях расходах американских компаний.
По данным Ramp, DeepSeek занял первое место в июньском списке trending software vendors. Компании реально начинают платить за более дешёвые альтернативы OpenAI и Anthropic.
Когда ИИ переходит из пилотов в ежедневные процессы, цена токена внезапно становится не мелочью, а строкой бюджета.
Особенно в агентных задачах, где один пользовательский запрос превращается в десятки вызовов модели, поиск, инструменты, повторные проверки и длинный контекст.
С одной стороны, есть привычные OpenAI и Anthropic с сильным брендом, экосистемой и комплаенсом. С другой - DeepSeek и похожие игроки, которые давят ценой и заставляют пересчитывать экономику внедрения.
Самое смешное, что рынок снова ведёт себя без идеологии. Если модель достаточно хороша, API доступен, а счёт в конце месяца заметно ниже, часть компаний начнёт тестировать её независимо от того, кто что говорит про геополитику.
Nothing to see here.
По данным Ramp, DeepSeek занял первое место в июньском списке trending software vendors. Компании реально начинают платить за более дешёвые альтернативы OpenAI и Anthropic.
Когда ИИ переходит из пилотов в ежедневные процессы, цена токена внезапно становится не мелочью, а строкой бюджета.
Особенно в агентных задачах, где один пользовательский запрос превращается в десятки вызовов модели, поиск, инструменты, повторные проверки и длинный контекст.
С одной стороны, есть привычные OpenAI и Anthropic с сильным брендом, экосистемой и комплаенсом. С другой - DeepSeek и похожие игроки, которые давят ценой и заставляют пересчитывать экономику внедрения.
Самое смешное, что рынок снова ведёт себя без идеологии. Если модель достаточно хороша, API доступен, а счёт в конце месяца заметно ниже, часть компаний начнёт тестировать её независимо от того, кто что говорит про геополитику.
Nothing to see here.
👍27❤8🔥5🐳1🌭1🤣1
Tencent Hunyuan вместе с Gaoling School of Artificial Intelligence при Renmin University of China открыли PlanningBench - фреймворк для оценки и обучения навыков планирования у LLM.
Внутри:
- 30+ задач планирования из реальных сценариев
- автоматическая проверка решений
- поддержка не только оценки, но и обучения моделей
Ресурсы:
arXiv: https://arxiv.org/abs/2605.20873
GitHub: https://github.com/Tencent-Hunyuan/PlanningBench
Hugging Face: https://huggingface.co/datasets/tencent/PlanningBench
Внутри:
- 30+ задач планирования из реальных сценариев
- автоматическая проверка решений
- поддержка не только оценки, но и обучения моделей
Ресурсы:
arXiv: https://arxiv.org/abs/2605.20873
GitHub: https://github.com/Tencent-Hunyuan/PlanningBench
Hugging Face: https://huggingface.co/datasets/tencent/PlanningBench
❤10🔥6👍3
Проблема новичков в том, что они учат Python кусками: синтаксис, пару задач, немного теории - и потом не понимают, как собрать из этого реальный проект.
Этот курс закрывает именно этот разрыв. Здесь вы не просто смотрите уроки, а учитесь писать код, разбирать ошибки и собирать рабочие решения на практике.
Внутри:
- Python с нуля
- много практики без сухой теории
- реальные задачи и проекты
- автоматизация рутины
- работа с файлами, данными и API
- понятная логика программирования
- современная разработка с ИИ
- отдельный блок по вайбкодингу
Вайбкодинг это нормальный навык 2026 года и вас научат- правильно ставить задачу, проверять код, понимать результат и быстрее доводить проект до рабочего состояния.
48 часов скидка 60%: https://stepik.org/course/288218/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥5👍3🤣1
Глобальной паузы в развитии ИИ не будет — и причина простая.
США открыто называют ИИ стратегической технологией, от которой зависит их мировое лидерство.
Остановиться - значит дать Китаю шанс обогнать, тем более что китайские open-source модели отстают всего на 4–6 месяцев.
Поэтому призывы к паузе - это скорее PR, жест доброй воли, а не реальная стратегия.
Ставки слишком высоки, и никто добровольно не отдаст преимущество сопернику.
США открыто называют ИИ стратегической технологией, от которой зависит их мировое лидерство.
Остановиться - значит дать Китаю шанс обогнать, тем более что китайские open-source модели отстают всего на 4–6 месяцев.
Поэтому призывы к паузе - это скорее PR, жест доброй воли, а не реальная стратегия.
Ставки слишком высоки, и никто добровольно не отдаст преимущество сопернику.
🔥10💯4👍2🥱2
Forwarded from Machinelearning
Anthropic опубликовала аналитический материал, в котором утверждает, что системы искусственного интеллекта всё активнее участвуют в создании следующих поколений ИИ.
Материал подготовлен исследовательским подразделением Anthropic Institute. Его авторы - Марина Фаваро и сооснователь компании, глава отдела политики Джек Кларк.
Отрасль приближается к рекурсивному самоулучшению
Это состояние, когда ИИ способен самостоятельно проектировать и совершенствовать собственного преемника быстрее, чем к этому будут готовы правительства и институты.
При этом Anthropic оговаривается, что до полностью автономной разработки ещё далеко и что такой сценарий не является неизбежным, люди по-прежнему нужны. Они ставят цели, оценивают результаты и решают, какие направления важны.
На май 2026 года Claude написал более 80% кода, добавляемого в кодовую базу Anthropic.
До запуска Claude Code этот показатель измерялся единицами процентов.
Во втором квартале 2026 года типичный инженер вносил в проекты примерно в 8 раз больше кода в день, чем в 2024-м.
Время выполнения задач, которые модели способны надёжно решать без участия человека, удваивается примерно каждые 4 месяца.
В начале 2024 года Opus 3 справлялся с задачами длиной в несколько минут, годом позже Sonnet 3.7 примерно за полтора часа, а Opus 4.6 - до 12 часов.
На SWE-bench, проверяющем исправление реальных ошибок в коде, передовые модели за два года прошли путь от низких результатов до почти предельных.
Джек Кларк говорит, что компания хочет, чтобы законодатели и институты понимали, что может произойти дальше.
По его словам, цель Anthropic - "заранее обозначить концепцию и дать людям представление о том, что приближается".
Прогресс ИИ, по его оценке, скорее ускоряется, чем замедляется, и может принести значительные результаты в медицине и науке, но требует инструментов для проверки и подтверждения работы, выполненной ИИ.
Anthropic выступает за то, чтобы у мира оставалась возможность при необходимости замедлить или временно приостановить разработку передовых моделей, но понимает, что это потребует согласованных всех игроков индустрии в разных странах и механизмов взаимной проверки.
В ближайшие месяцы компания обсудит эти вопросы с законодателями, исследователями и другими участниками отрасли.
@ai_machinelearning_big_data
#news #ai #ml
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7🥱5🔥2👍1😱1
Claude догнал профессиональный химический софт в анализе ЯМР - без дообучения под химию.
Anthropic проверили Claude на ЯМР-спектрах - это метод, по которому химики понимают, какую молекулу они синтезировали. Взяли 20 соединений из свежих препринтов, вышедших уже после даты обучения моделей, и сравнили Claude с ChemDraw и MestReNova.
Что получилось:
- в задаче «предсказать спектр по структуре» Opus 4.7 оказался точнее всех по водороду
- по углероду вышел примерно на уровень специализированного софта
- по форме пиков заметно обошёл классические инструменты
- расщепление пиков угадывал примерно в 80% случаев против 26–35% у обычных тулов
Обратная задача ещё интереснее: восстановить структуру молекулы по спектру.
Специализированный софт такое умеет, но обычно требует 2D-ЯМР, лицензий и человека, который понимает, как с этим работать. Claude же справляется по обычному списку пиков и масс-спектру - по сути, по данным, которые химик мог бы просто скинуть в чат.
Результат:
- 8 из 8 простых молекул восстановлены правильно
- 4 из 7 сложных молекул восстановлены идеально
Выборка пока маленькая, и авторы честно подают это как ориентир, а не финальный приговор химикам.
🔗 anthropic.com/research/making-claude-a-chemist
Anthropic проверили Claude на ЯМР-спектрах - это метод, по которому химики понимают, какую молекулу они синтезировали. Взяли 20 соединений из свежих препринтов, вышедших уже после даты обучения моделей, и сравнили Claude с ChemDraw и MestReNova.
Что получилось:
- в задаче «предсказать спектр по структуре» Opus 4.7 оказался точнее всех по водороду
- по углероду вышел примерно на уровень специализированного софта
- по форме пиков заметно обошёл классические инструменты
- расщепление пиков угадывал примерно в 80% случаев против 26–35% у обычных тулов
Обратная задача ещё интереснее: восстановить структуру молекулы по спектру.
Специализированный софт такое умеет, но обычно требует 2D-ЯМР, лицензий и человека, который понимает, как с этим работать. Claude же справляется по обычному списку пиков и масс-спектру - по сути, по данным, которые химик мог бы просто скинуть в чат.
Результат:
- 8 из 8 простых молекул восстановлены правильно
- 4 из 7 сложных молекул восстановлены идеально
Выборка пока маленькая, и авторы честно подают это как ориентир, а не финальный приговор химикам.
🔗 anthropic.com/research/making-claude-a-chemist
👍19🔥10❤8🥱3🌭1
«Claude-Mythos-5» ненадолго засветился в API. Похоже, скоро релиз.
Интересно, пойдут ли они с ценами из поста про Glasswing: $25 за миллион входных токенов и $125 за миллион выходных.
Если да, это сделает Mythos примерно в 5 раз дороже Opus 4.8.
https://x.com/Machinelearrn/status/2063246572914160053
Интересно, пойдут ли они с ценами из поста про Glasswing: $25 за миллион входных токенов и $125 за миллион выходных.
Если да, это сделает Mythos примерно в 5 раз дороже Opus 4.8.
https://x.com/Machinelearrn/status/2063246572914160053
❤15🔥10👍6👏1
В Юте жители подали в суд из-за гигантского ИИ-дата-центра Stratos, который продвигает Кевин О’Лири.
Проект изначально планировали как кампус на 40 000 акров в Box Elder County. Местные опасаются нагрузки на воду, энергию, экологию и фактически обхода нормального общественного обсуждения. Иск подали пять жителей и Alliance for a Better Utah: они оспаривают роль Military Installation Development Authority, структуры, которая получила слишком широкие полномочия по земле, налогам, безопасности и развитию территории.
На фоне давления О’Лири уже согласился урезать проект почти вдвое и вывести часть земли из застройки, включая участки рядом с Locomotive Springs Waterfowl Management Area. Но даже после сокращения речь всё равно идёт примерно о 20 000 акров - это больше Манхэттена.
История показательная:
- дата-центры продают как вопрос национальной безопасности
- местным обещают рабочие места и налоги
- жители получают риски по воде, земле, шуму, энергии и экологии
- решения часто двигаются быстрее, чем общество успевает понять масштаб
https://www.nbcnews.com/tech/tech-news/utah-residents-sue-officials-kevin-oleary-data-center-plan-rcna348720
Проект изначально планировали как кампус на 40 000 акров в Box Elder County. Местные опасаются нагрузки на воду, энергию, экологию и фактически обхода нормального общественного обсуждения. Иск подали пять жителей и Alliance for a Better Utah: они оспаривают роль Military Installation Development Authority, структуры, которая получила слишком широкие полномочия по земле, налогам, безопасности и развитию территории.
На фоне давления О’Лири уже согласился урезать проект почти вдвое и вывести часть земли из застройки, включая участки рядом с Locomotive Springs Waterfowl Management Area. Но даже после сокращения речь всё равно идёт примерно о 20 000 акров - это больше Манхэттена.
История показательная:
- дата-центры продают как вопрос национальной безопасности
- местным обещают рабочие места и налоги
- жители получают риски по воде, земле, шуму, энергии и экологии
- решения часто двигаются быстрее, чем общество успевает понять масштаб
https://www.nbcnews.com/tech/tech-news/utah-residents-sue-officials-kevin-oleary-data-center-plan-rcna348720
👍12❤9🔥6😁4
Google Research показали Agentic RAG для Gemini Enterprise Agent Platform - RAG, который не сдаётся после первого поиска.
Обычный RAG часто ломается на корпоративных вопросах, где ответ лежит не в одном документе, а размазан по нескольким базам. Нашёл кусок про проект, увидел только ID сервера, но не пошёл дальше искать характеристики этого сервера в другой системе - и выдал неполный ответ.
У Google идея такая: превратить RAG в многоагентный процесс.
Что внутри:
- Orchestrator понимает, что запрос не решается за один шаг
- Planner разбивает задачу на маршруты поиска
- Query Rewriter переписывает вопрос в несколько точных запросов
- Search Fanout ищет по разным источникам
- Sufficient Context Agent проверяет, хватает ли данных для ответа
Модель проверяет: закрыты ли все части вопроса. Если данных не хватает, она явно пишет, чего именно не хватает, и отправляет систему искать дальше.
На FramesQA такой подход дал до 34% прироста точности по сравнению со стандартным RAG. В cross-corpus сценарии, где нужно выбрать правильный источник из нескольких, система ответила правильно на 90.1% вопросов.
По сути, Google двигает RAG от «поиска + генерации» к маленькому исследовательскому пайплайну, где есть планирование, маршрутизация, проверка контекста и повторный поиск.
Для enterprise это важнее красивых демо: меньше галлюцинаций, больше трассируемости и понятнее, почему система дала именно такой ответ.
research.google/blog/unlocking-dependable-responses-with-gemini-enterprise-agent-platforms-agentic-rag/
Обычный RAG часто ломается на корпоративных вопросах, где ответ лежит не в одном документе, а размазан по нескольким базам. Нашёл кусок про проект, увидел только ID сервера, но не пошёл дальше искать характеристики этого сервера в другой системе - и выдал неполный ответ.
У Google идея такая: превратить RAG в многоагентный процесс.
Что внутри:
- Orchestrator понимает, что запрос не решается за один шаг
- Planner разбивает задачу на маршруты поиска
- Query Rewriter переписывает вопрос в несколько точных запросов
- Search Fanout ищет по разным источникам
- Sufficient Context Agent проверяет, хватает ли данных для ответа
Модель проверяет: закрыты ли все части вопроса. Если данных не хватает, она явно пишет, чего именно не хватает, и отправляет систему искать дальше.
На FramesQA такой подход дал до 34% прироста точности по сравнению со стандартным RAG. В cross-corpus сценарии, где нужно выбрать правильный источник из нескольких, система ответила правильно на 90.1% вопросов.
По сути, Google двигает RAG от «поиска + генерации» к маленькому исследовательскому пайплайну, где есть планирование, маршрутизация, проверка контекста и повторный поиск.
Для enterprise это важнее красивых демо: меньше галлюцинаций, больше трассируемости и понятнее, почему система дала именно такой ответ.
research.google/blog/unlocking-dependable-responses-with-gemini-enterprise-agent-platforms-agentic-rag/
👍21❤10🔥5🥱3