OpenAI представила o3 — новое поколение «рассуждающих» языковых моделей
Компания называет o3 существенным шагом в сторону AGI. Вместе с основной моделью выпущена и «облегчённая» версия o3-mini для специализированных задач.
Почему o3, а не o2? Пропуск номера связан с торговыми марками (британский оператор связи O2), о чём намекнул Сэм Альтман.
o3 и o3-mini пока недоступны массовому пользователю. Специалисты по безопасности смогут протестировать o3-mini с сегодняшнего дня, а полноценный доступ планируется ближе к концу января 2025 года.
Что нового? o3 может «думать» перед ответом, используя «приватную цепочку рассуждений». Модель может рассуждать о задаче и планировать ряд действий, которые помогают ей найти решение, «объясняя» свои рассуждения по ходу работы. Через некоторое время модель суммирует то, что она считает наиболее точным ответом. Это немного увеличивает задержку в ответе, но повышает точность решения в том числе научных задач.
Появилась возможность настраивать «глубину рассуждения» (низкая, средняя или высокая вычислительная нагрузка), увеличивая качество решения задач с повышением времени ожидания ответа.
По оценкам OpenAI, на некоторых тестах модель вплотную приближается к AGI. Например, на бенчмарке ARC-AGI она показала 87,5% при максимальной вычислительной нагрузке. Гонка к AGI выходит на новый уровень.
o3 показывает впечатляющие результаты в математике, программировании (2727 баллов Codeforces) и ряде научных тестов, но это — внутренние метрики OpenAI. Сообщается, что o3 в 3 раза превосходит предшественника o1. Пока неизвестно, как o3 будет вести себя на практике — результаты независимых проверок ещё впереди.
На рынке всё активнее появляются конкурирующие «рассуждающие» модели от других команд (например, Gemini 2.0 Flash Thinking). Главный вопрос: станут ли такие подходы новым стандартом развития ИИ или всего лишь ещё одним экспериментальным направлением, пока не ясно.
Думаю усовершенствование методов рассуждений (Graph/Skeleton/Anything-of-Thoughts), микс экспертов (Mixture-of-Experts) и обучение с подкреплением (RL) - это то, что может значительно повысить текущие возможности ИИ для решения специализированных задач, заточенных под бизнес-метрики.
Возможно, полностью автономные ИИ-сотрудники появятся раньше, чем мы думаем?
#новости
Компания называет o3 существенным шагом в сторону AGI. Вместе с основной моделью выпущена и «облегчённая» версия o3-mini для специализированных задач.
Почему o3, а не o2? Пропуск номера связан с торговыми марками (британский оператор связи O2), о чём намекнул Сэм Альтман.
o3 и o3-mini пока недоступны массовому пользователю. Специалисты по безопасности смогут протестировать o3-mini с сегодняшнего дня, а полноценный доступ планируется ближе к концу января 2025 года.
Что нового? o3 может «думать» перед ответом, используя «приватную цепочку рассуждений». Модель может рассуждать о задаче и планировать ряд действий, которые помогают ей найти решение, «объясняя» свои рассуждения по ходу работы. Через некоторое время модель суммирует то, что она считает наиболее точным ответом. Это немного увеличивает задержку в ответе, но повышает точность решения в том числе научных задач.
Появилась возможность настраивать «глубину рассуждения» (низкая, средняя или высокая вычислительная нагрузка), увеличивая качество решения задач с повышением времени ожидания ответа.
По оценкам OpenAI, на некоторых тестах модель вплотную приближается к AGI. Например, на бенчмарке ARC-AGI она показала 87,5% при максимальной вычислительной нагрузке. Гонка к AGI выходит на новый уровень.
o3 показывает впечатляющие результаты в математике, программировании (2727 баллов Codeforces) и ряде научных тестов, но это — внутренние метрики OpenAI. Сообщается, что o3 в 3 раза превосходит предшественника o1. Пока неизвестно, как o3 будет вести себя на практике — результаты независимых проверок ещё впереди.
На рынке всё активнее появляются конкурирующие «рассуждающие» модели от других команд (например, Gemini 2.0 Flash Thinking). Главный вопрос: станут ли такие подходы новым стандартом развития ИИ или всего лишь ещё одним экспериментальным направлением, пока не ясно.
Думаю усовершенствование методов рассуждений (Graph/Skeleton/Anything-of-Thoughts), микс экспертов (Mixture-of-Experts) и обучение с подкреплением (RL) - это то, что может значительно повысить текущие возможности ИИ для решения специализированных задач, заточенных под бизнес-метрики.
Возможно, полностью автономные ИИ-сотрудники появятся раньше, чем мы думаем?
#новости
TechCrunch
OpenAI announces new o3 models | TechCrunch
OpenAI saved its biggest announcement for the last day of its 12-day "shipmas" event. On Friday, the company unveiled o3, the successor to the o1
Большой потенциал малых языковых моделей
Современный бум ИИ уже давно не сводится к крупным разработкам от гигантов вроде OpenAI или Anthropic, инвестирующих миллиарды в большие языковые модели. Наоборот, всё чаще в фокус внимания попадают малые языковые модели (Small Language Models, SLMs), способные решать узкоспециализированные задачи не хуже (а порой и лучше) своих «старших собратьев».
Яркий пример — стартап Patronus AI со своей моделью Glider, имеющей 3,8 миллиарда параметров. Большинство компаний применяют для оценки своих продуктов большие закрытые модели вроде GPT-4. Но это дорого, не всегда прозрачно и несет риски для конфиденциальности. Glider же, будучи относительно компактной, способна работать на более простом «железе» и при этом давать детальное объяснение своих оценок по сотням критериев (точность, безопасность, стиль, тон и т. д.).
По результатам тестов Glider превосходит GPT-4o mini по нескольким метрикам и отвечает в среднем менее чем за секунду, что делает ее практически идеальным решением для генерации текста в реальном времени.
Большие языковые модели, безусловно, продолжают впечатлять своей универсальностью, но их недостатки очевидны:
- Высокие затраты на ресурсы. Обучение и инференс больших моделей требуют колоссальных вычислительных мощностей, что приводит к дополнительным расходам на инфраструктуру, электроэнергию и обслуживание;
- Низкая конфиденциальность. Использование больших закрытых моделей предполагает отправку данных во внешний облачный сервис, что критично для финансовых организаций и здравоохранения;
- Зависимость от интернета. При отсутствии доступа к сети такие модели попросту недоступны;
Малые языковые модели, напротив, легко разворачиваются на локальном сервере или даже на обычном пользовательском устройстве, снижая задержки при ответах и повышая контроль над безопасностью. Им не нужны сотни гигабайт видеопамяти, а адаптация к узконаправленной задаче и интеграция в собственную инфраструктуру обходятся заметно дешевле и проще. Дополнительно малые модели экономят электроэнергию и бережнее относятся к экологии.
Малые языковые модели можно либо обучать с нуля под конкретную задачу, либо «сжимать» уже готовые большие модели, используя методы прунинга, квантизации и дистилляции знаний, сохраняя высокое качество при сокращении числа параметров.
Набирают популярность и гибридные системы, в которых несколько малых моделей берут на себя простые запросы, а большая модель выступает их «роутером» и используется для более сложных задач.
Помимо Glider, существуют такие модели, как Ministral (Mistral AI), Phi (Microsoft) и Llama 3.2 (Meta). Все они ориентированы на локальное использование в задачах, где высоки требования к приватности и быстроте отклика.
Малые языковые модели незаменимы там, где требуется локальная обработка данных: в медицине (электронные записи пациентов, выписки, рецепты) или финансовой сфере (работа с регулятивными документами). Их размер снижает риск «галлюцинаций», помогает быстрее достичь высоких результатов в узкоспециализированных областях и защищает конфиденциальную информацию.
В действительности большие и малые языковые модели — это две параллельные ветви эволюции, которые не исключают, а взаимно дополняют друг друга. Большие модели лучше справляются с универсальными задачами, требующими миллиарды параметров и богатого контекста, а малые эффективнее работают над узкоспециализированными кейсами, обеспечивая локальную приватность и минимизируя затраты.
В ближайшие годы мы увидим стремительный рост гибридных решений, где оба типа моделей будут работать вместе. В результате мы получим еще более умные, надежные и быстрые ИИ-сервисы, способные удовлетворить самые разнообразные потребности практически любого бизнеса.
#технологии
Современный бум ИИ уже давно не сводится к крупным разработкам от гигантов вроде OpenAI или Anthropic, инвестирующих миллиарды в большие языковые модели. Наоборот, всё чаще в фокус внимания попадают малые языковые модели (Small Language Models, SLMs), способные решать узкоспециализированные задачи не хуже (а порой и лучше) своих «старших собратьев».
Яркий пример — стартап Patronus AI со своей моделью Glider, имеющей 3,8 миллиарда параметров. Большинство компаний применяют для оценки своих продуктов большие закрытые модели вроде GPT-4. Но это дорого, не всегда прозрачно и несет риски для конфиденциальности. Glider же, будучи относительно компактной, способна работать на более простом «железе» и при этом давать детальное объяснение своих оценок по сотням критериев (точность, безопасность, стиль, тон и т. д.).
По результатам тестов Glider превосходит GPT-4o mini по нескольким метрикам и отвечает в среднем менее чем за секунду, что делает ее практически идеальным решением для генерации текста в реальном времени.
Большие языковые модели, безусловно, продолжают впечатлять своей универсальностью, но их недостатки очевидны:
- Высокие затраты на ресурсы. Обучение и инференс больших моделей требуют колоссальных вычислительных мощностей, что приводит к дополнительным расходам на инфраструктуру, электроэнергию и обслуживание;
- Низкая конфиденциальность. Использование больших закрытых моделей предполагает отправку данных во внешний облачный сервис, что критично для финансовых организаций и здравоохранения;
- Зависимость от интернета. При отсутствии доступа к сети такие модели попросту недоступны;
Малые языковые модели, напротив, легко разворачиваются на локальном сервере или даже на обычном пользовательском устройстве, снижая задержки при ответах и повышая контроль над безопасностью. Им не нужны сотни гигабайт видеопамяти, а адаптация к узконаправленной задаче и интеграция в собственную инфраструктуру обходятся заметно дешевле и проще. Дополнительно малые модели экономят электроэнергию и бережнее относятся к экологии.
Малые языковые модели можно либо обучать с нуля под конкретную задачу, либо «сжимать» уже готовые большие модели, используя методы прунинга, квантизации и дистилляции знаний, сохраняя высокое качество при сокращении числа параметров.
Набирают популярность и гибридные системы, в которых несколько малых моделей берут на себя простые запросы, а большая модель выступает их «роутером» и используется для более сложных задач.
Помимо Glider, существуют такие модели, как Ministral (Mistral AI), Phi (Microsoft) и Llama 3.2 (Meta). Все они ориентированы на локальное использование в задачах, где высоки требования к приватности и быстроте отклика.
Малые языковые модели незаменимы там, где требуется локальная обработка данных: в медицине (электронные записи пациентов, выписки, рецепты) или финансовой сфере (работа с регулятивными документами). Их размер снижает риск «галлюцинаций», помогает быстрее достичь высоких результатов в узкоспециализированных областях и защищает конфиденциальную информацию.
В действительности большие и малые языковые модели — это две параллельные ветви эволюции, которые не исключают, а взаимно дополняют друг друга. Большие модели лучше справляются с универсальными задачами, требующими миллиарды параметров и богатого контекста, а малые эффективнее работают над узкоспециализированными кейсами, обеспечивая локальную приватность и минимизируя затраты.
В ближайшие годы мы увидим стремительный рост гибридных решений, где оба типа моделей будут работать вместе. В результате мы получим еще более умные, надежные и быстрые ИИ-сервисы, способные удовлетворить самые разнообразные потребности практически любого бизнеса.
#технологии
Forbes
Why Small Language Models Are The Next Big Thing In AI
With Elon Musk’s xAI raising an $5 billion and Amazon investing an $4 billion in OpenAI rival Anthropic — artificial intelligence enters the holiday season with a competitive roar.
🤖 Датаист
В эту субботу я выступаю с докладом на конференции Data Fest в Ереване. Мой доклад будет посвящен персонализации мультиагентных систем для автоматизации ведения блога в соцсетях. Конференция пройдет 6-7 сентября. На ней выступят представители Nvidia, Google…
Please open Telegram to view this post
VIEW IN TELEGRAM
Слежка или анализ? Как найти баланс между эффективностью бизнеса и приватностью сотрудников
В 2020 году, будучи директором по данным (Chief Data Officer) в Сбере, я занимался сбором и анализом данных для управленческих дашбордов, внутренних продуктов и ИИ-моделей. HR-аналитика была ключевой задачей, так как позволяла руководству получать актуальные инсайты об эффективности сотрудников при соблюдении требований GDPR и внутренних банковских политик.
Этичная HR-аналитика — это информационная среда, где сотрудники защищены, а бизнес использует ровно те данные, которые необходимы для улучшения эффективности компании.
Основные задачи, для которых требовались данные: анализ эффективности сотрудников, прогноз увольнений, организационный сетевой анализ (Organizational Network Analysis, ONA), а также «умный календарь» для руководителей.
Главные проблемы в HR-аналитике заключались в отсутствии единой политики хранения данных, отсутствии готовых моделей (анализ проводили в Excel) и недостаточной прозрачности: сотрудники не понимали, какие данные о них собираются и зачем.
Мы провели ревизию всех источников данных, создали закрытый контур на отдельных серверах для хранения сырых данных и организовали механизмы деперсонализации данных. Входящие файлы из разных источников автоматически очищались от персональных идентификаторов (ФИО, телефоны, почта), превращаясь в эмбеддинги (векторизацию текстов) для писем и сообщений в чатах, что позволило проводить анализ коммуникаций, не храня «сырой» текст.
Мы объединили свыше пятидесяти источников данных: от базовых HR-данных (стаж, семейное положение, образование и т.д.) до логов входов-выходов из офиса, корпоративной почты и календарей, психотипов сотрудников и прочей информации. Фактически мы знали о сотруднике почти всё: кто он, что купил по пути в офис, на чём доехал, во сколько пришел, чем занимался и когда покинул офис. При этом было важно не потерять доверие людей и не превратиться в «Большого Брата».
Технически мы использовали Teradata (затем Greenplum) для разработки озера и хранилища данных, спроектированных в парадигме Data Vault 2.0, а для аналитики применяли Qlik Sense. Объем данных достигал примерно 20 терабайт в месяц.
Затем мы разработали первые ИИ-модели, которые быстро показали свою ценность:
- Модель для прогнозирования увольнений (использовали модели дожития) снизила текучку на 4%, анализируя стресс-факторы (избыточные чаты в нерабочее время, снижение активности, редкие контакты с руководителем);
- Организационный сетевой анализ помог переформировать множество команд и выявить неформальных лидеров;
- Умный календарь учитывал загруженность руководителей и приоритеты проектов, позволяя сократить до 8% неэффективных совещаний;
- Управленческий дашборд отображал ключевые HR-метрики, помогая находить неэффективных сотрудников.
Даже при выстроенной безопасности сотрудники опасались «слежки». Мы организовали разъяснительные встречи и показали, что переписка недоступна в «читаемом» виде, эффект состоял в снижении текучки сотрудников и росте эффективности банка. Сбор данных был закреплен дополнительным соглашением с сотрудниками в политике данных банка.
Итак, для внедрения этичной HR-аналитики:
1. Определите уровень конфиденциальности данных (К4 - открытые данные, K3 - данные компании, K2 - персональные данные клиентов и сотрудников, К1 - данные повышенной конфиденциальности) и разграничьте к ним доступ;
2. Проработайте архитектуру сбора, хранения, обработки, анонимизации и визуализации данных с учетом объемов и уровня конфиденциальности: хеши, эмбеддинги, шум (noise injection), федеративное обучение - есть много приемов, снижающих риск утечек;
3. Объясняйте сотрудникам цели сбора данных, заключайте с ними соглашение об использовании персональных данных.
Этичная HR-аналитика — это реальный способ повысить эффективность бизнеса, сохраняя доверие сотрудников и соответствуя законодательству. Начните с прозрачности и уважения к личным границам, и HR-аналитика станет двигателем роста компании, а не источником страха для сотрудников.
#кейсы
В 2020 году, будучи директором по данным (Chief Data Officer) в Сбере, я занимался сбором и анализом данных для управленческих дашбордов, внутренних продуктов и ИИ-моделей. HR-аналитика была ключевой задачей, так как позволяла руководству получать актуальные инсайты об эффективности сотрудников при соблюдении требований GDPR и внутренних банковских политик.
Этичная HR-аналитика — это информационная среда, где сотрудники защищены, а бизнес использует ровно те данные, которые необходимы для улучшения эффективности компании.
Основные задачи, для которых требовались данные: анализ эффективности сотрудников, прогноз увольнений, организационный сетевой анализ (Organizational Network Analysis, ONA), а также «умный календарь» для руководителей.
Главные проблемы в HR-аналитике заключались в отсутствии единой политики хранения данных, отсутствии готовых моделей (анализ проводили в Excel) и недостаточной прозрачности: сотрудники не понимали, какие данные о них собираются и зачем.
Мы провели ревизию всех источников данных, создали закрытый контур на отдельных серверах для хранения сырых данных и организовали механизмы деперсонализации данных. Входящие файлы из разных источников автоматически очищались от персональных идентификаторов (ФИО, телефоны, почта), превращаясь в эмбеддинги (векторизацию текстов) для писем и сообщений в чатах, что позволило проводить анализ коммуникаций, не храня «сырой» текст.
Мы объединили свыше пятидесяти источников данных: от базовых HR-данных (стаж, семейное положение, образование и т.д.) до логов входов-выходов из офиса, корпоративной почты и календарей, психотипов сотрудников и прочей информации. Фактически мы знали о сотруднике почти всё: кто он, что купил по пути в офис, на чём доехал, во сколько пришел, чем занимался и когда покинул офис. При этом было важно не потерять доверие людей и не превратиться в «Большого Брата».
Технически мы использовали Teradata (затем Greenplum) для разработки озера и хранилища данных, спроектированных в парадигме Data Vault 2.0, а для аналитики применяли Qlik Sense. Объем данных достигал примерно 20 терабайт в месяц.
Затем мы разработали первые ИИ-модели, которые быстро показали свою ценность:
- Модель для прогнозирования увольнений (использовали модели дожития) снизила текучку на 4%, анализируя стресс-факторы (избыточные чаты в нерабочее время, снижение активности, редкие контакты с руководителем);
- Организационный сетевой анализ помог переформировать множество команд и выявить неформальных лидеров;
- Умный календарь учитывал загруженность руководителей и приоритеты проектов, позволяя сократить до 8% неэффективных совещаний;
- Управленческий дашборд отображал ключевые HR-метрики, помогая находить неэффективных сотрудников.
Даже при выстроенной безопасности сотрудники опасались «слежки». Мы организовали разъяснительные встречи и показали, что переписка недоступна в «читаемом» виде, эффект состоял в снижении текучки сотрудников и росте эффективности банка. Сбор данных был закреплен дополнительным соглашением с сотрудниками в политике данных банка.
Итак, для внедрения этичной HR-аналитики:
1. Определите уровень конфиденциальности данных (К4 - открытые данные, K3 - данные компании, K2 - персональные данные клиентов и сотрудников, К1 - данные повышенной конфиденциальности) и разграничьте к ним доступ;
2. Проработайте архитектуру сбора, хранения, обработки, анонимизации и визуализации данных с учетом объемов и уровня конфиденциальности: хеши, эмбеддинги, шум (noise injection), федеративное обучение - есть много приемов, снижающих риск утечек;
3. Объясняйте сотрудникам цели сбора данных, заключайте с ними соглашение об использовании персональных данных.
Этичная HR-аналитика — это реальный способ повысить эффективность бизнеса, сохраняя доверие сотрудников и соответствуя законодательству. Начните с прозрачности и уважения к личным границам, и HR-аналитика станет двигателем роста компании, а не источником страха для сотрудников.
#кейсы
HR World
ONA Analysis: The unbeatable power of organizational networks - HR World
This article will introduce you to a methodology of capturing relational aspects of organizational life, named Organizational Network Analysis (ONA) and point to some interesting use cases that impact organizational decision-making.
Топ-20 лучших научных статей об ИИ-агентах в 2024 году
Под конец 2024 года я решил сделать обзор двадцати лучших (на мой взгляд) работ об ИИ-агентах и выложить на Хабр. Ниже — краткий обзор каждого исследования (будет, что почитать на каникулах):
• Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective - дорожная карта для воспроизведения модели o1 от OpenAI.
• Agentic Information Retrieval - новая парадигма поиска, где агент с внутренней памятью и внешними инструментами делает информационный поиск интерактивным и автономным.
• Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond - обзор моделей мира для видео и автопилотов, доказывающий, что симуляции повышают эффективность обучения и приближают нас к AGI.
• Genie: Generative Interactive Environments - модель, которая из текста или изображений «на лету» генерирует играбельные миры.
• Agent AI: Surveying the Horizons of Multimodal Interaction - объединение языковых и визуальных моделей в единую агентную систему, умеющую действовать сразу в нескольких модальностях и демонстрирующую шаг к AGI.
• The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use - оценка первой модели для управления компьютером через GUI.
• WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning - фреймворк для обучения веб-агентов на всё более сложных заданиях.
• Personalization of Large Language Models: A Survey - таксономия методов персонализации больших языковых моделей.
• Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities - архитектура агентов, чьи личности меняются с течением времени в интерактивных средах.
• More Agents Is All You Need - метод показывает, что несколько менее больших моделей могут коллективно давать точные решения дешевле и надежнее одной большой.
• Internet of Agents - фреймворк позволяет агентам «подключаться к сети» и обнаруживать друг друга, формируя команды для решения сложных задач.
• Many-agent Simulations toward AI Civilization - масштабные симуляции агентов в Minecraft, где наблюдается социализация, специализация ролей и элементы зарождения «ИИ-цивилизации».
• AIGS: Generating Science from AI-Powered Automated Falsification - автоматизация научного метода от генерации гипотез до экспериментов и «опровержения».
• ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning Agents - имитация экономических процессов в масштабируемой среде с обучающимися агентами: от домохозяйств и фирм до госструктур.
• AFlow: Automating Agentic Workflow Generation - фреймворк находит оптимальные цепочки вызовов LLM, уменьшая стоимость вычислений и повышая точность.
• Automated Design of Agentic Systems - метод показывает, как ИИ может «сам» изобретать всё более совершенные агентные системы, минимизируя ручной труд.
• Thinking LLMs: General Instruction Following with Thought Generation - модели учатся «думать» текстом перед ответом, что повышает точность в решении широкого спектра задач.
• Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning - способ генерации сложных историй для проверки и обучения «социального интеллекта» у языковых моделей.
• MindSearch: Mimicking Human Minds Elicits Deep AI Searcher - мультиагентная система, имитирующая человеческое мышление в веб-поиске, разбивает запросы на подзадачи и обрабатывает их параллельно.
• A Comprehensive Survey of Small Language Models in the Era of Large Language Models - обзор малых языковых моделей, которые могут быть эффективнее и дешевле больших для конкретных прикладных задач.
В 2024 году ИИ-агенты продвинулись в мультиагентных сценариях, активно совершенствовались процессы автоматизации создания агентов, а когнитивные способности ИИ становились всё более сложными и гибкими.
Мы живем в поистине удивительное время, и я уверен, что 2025 год принесет множество новых интересных исследований, приближая нас к достижению общего ИИ (AGI).
Поздравляю всех с наступающим Новым годом!
#технологии
Под конец 2024 года я решил сделать обзор двадцати лучших (на мой взгляд) работ об ИИ-агентах и выложить на Хабр. Ниже — краткий обзор каждого исследования (будет, что почитать на каникулах):
• Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective - дорожная карта для воспроизведения модели o1 от OpenAI.
• Agentic Information Retrieval - новая парадигма поиска, где агент с внутренней памятью и внешними инструментами делает информационный поиск интерактивным и автономным.
• Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond - обзор моделей мира для видео и автопилотов, доказывающий, что симуляции повышают эффективность обучения и приближают нас к AGI.
• Genie: Generative Interactive Environments - модель, которая из текста или изображений «на лету» генерирует играбельные миры.
• Agent AI: Surveying the Horizons of Multimodal Interaction - объединение языковых и визуальных моделей в единую агентную систему, умеющую действовать сразу в нескольких модальностях и демонстрирующую шаг к AGI.
• The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use - оценка первой модели для управления компьютером через GUI.
• WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning - фреймворк для обучения веб-агентов на всё более сложных заданиях.
• Personalization of Large Language Models: A Survey - таксономия методов персонализации больших языковых моделей.
• Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities - архитектура агентов, чьи личности меняются с течением времени в интерактивных средах.
• More Agents Is All You Need - метод показывает, что несколько менее больших моделей могут коллективно давать точные решения дешевле и надежнее одной большой.
• Internet of Agents - фреймворк позволяет агентам «подключаться к сети» и обнаруживать друг друга, формируя команды для решения сложных задач.
• Many-agent Simulations toward AI Civilization - масштабные симуляции агентов в Minecraft, где наблюдается социализация, специализация ролей и элементы зарождения «ИИ-цивилизации».
• AIGS: Generating Science from AI-Powered Automated Falsification - автоматизация научного метода от генерации гипотез до экспериментов и «опровержения».
• ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning Agents - имитация экономических процессов в масштабируемой среде с обучающимися агентами: от домохозяйств и фирм до госструктур.
• AFlow: Automating Agentic Workflow Generation - фреймворк находит оптимальные цепочки вызовов LLM, уменьшая стоимость вычислений и повышая точность.
• Automated Design of Agentic Systems - метод показывает, как ИИ может «сам» изобретать всё более совершенные агентные системы, минимизируя ручной труд.
• Thinking LLMs: General Instruction Following with Thought Generation - модели учатся «думать» текстом перед ответом, что повышает точность в решении широкого спектра задач.
• Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning - способ генерации сложных историй для проверки и обучения «социального интеллекта» у языковых моделей.
• MindSearch: Mimicking Human Minds Elicits Deep AI Searcher - мультиагентная система, имитирующая человеческое мышление в веб-поиске, разбивает запросы на подзадачи и обрабатывает их параллельно.
• A Comprehensive Survey of Small Language Models in the Era of Large Language Models - обзор малых языковых моделей, которые могут быть эффективнее и дешевле больших для конкретных прикладных задач.
В 2024 году ИИ-агенты продвинулись в мультиагентных сценариях, активно совершенствовались процессы автоматизации создания агентов, а когнитивные способности ИИ становились всё более сложными и гибкими.
Мы живем в поистине удивительное время, и я уверен, что 2025 год принесет множество новых интересных исследований, приближая нас к достижению общего ИИ (AGI).
Поздравляю всех с наступающим Новым годом!
#технологии
Хабр
Топ-20 лучших научных статей об ИИ-агентах в 2024 году
Привет, Хабр! Подходит к концу 2024 год — год, который был насыщен огромным количеством исследований в области искусственного интеллекта. Причём настоящий бум произошёл в сфере ИИ-агентов, их...
Эксперимент с Landao AI - персональным ИИ-коучем по счастью
Обычно на Новый год люди желают друг другу счастья. Нобелевский лауреат по физике Лев Ландау считал, что быть счастливым - обязанность каждого человека.
Что же такое счастье - вопрос субъективный, хотелось бы подойти к нему “по-науке”. С нейробиологической перспективы счастье - выброс серотонина и дофамина, но все же и это часто следствие более глубоких психологических процессов.
Хотя базовый уровень счастья предопределен генетически, я все же хочу провести эксперимент с целью проверить сможет ли ИИ помочь нам стать чуть счастливее.
Мой подарок вам - ИИ-коуч, который поможет быть счастливее через:
• Практики стоицизма. Он ежедневно присылает короткие уроки стоицизма. Стоицизм – древнегреческая философия, которая учит опираться на разум и отделять эмоции от внешних обстоятельств.
• Ментальные установки. Вы сможете записывать мысли, вызывающие у вас определенные эмоции, и получать поддержку, используя когнитивно-поведенческую терапию. Это научно обоснованный метод, помогающий менять установки, ведущие к счастью.
• Социальную поддержку. Анонимно обменивайтесь эмоциями и знакомьтесь с единомышленниками. Гарвардское исследование доказало, что хорошие отношения с людьми напрямую влияют на наш уровень счастья.
Все это бесплатно.
Планирую расширение в сторону дейтинга и нетворкинга, ведь, по Ландау, счастье складывается из трех слагаемых: работа, любовь и общение с людьми.
На уровень счастья влияет и физическое состояние, поэтому для чистоты эксперимента важно регулярно заниматься спортом, правильно питаться, качественно отдыхать, начинать и заканчивать день без смартфона (лучше - медитации).
Отделять эмоции от внешних обстоятельств - важный навык для человека любой эпохи. Надеюсь в совокупности с другими методами Landao AI поможет многим людям.
Я сам буду пользоваться ботом ежедневно и через год подведу итоги стал ли я более счастливым, чего желаю и вам.
Приглашаю и вас присоединиться к эксперименту по ссылке, буду рад обратной связи.
@landao_bot
#анонс
Обычно на Новый год люди желают друг другу счастья. Нобелевский лауреат по физике Лев Ландау считал, что быть счастливым - обязанность каждого человека.
Что же такое счастье - вопрос субъективный, хотелось бы подойти к нему “по-науке”. С нейробиологической перспективы счастье - выброс серотонина и дофамина, но все же и это часто следствие более глубоких психологических процессов.
Хотя базовый уровень счастья предопределен генетически, я все же хочу провести эксперимент с целью проверить сможет ли ИИ помочь нам стать чуть счастливее.
Мой подарок вам - ИИ-коуч, который поможет быть счастливее через:
• Практики стоицизма. Он ежедневно присылает короткие уроки стоицизма. Стоицизм – древнегреческая философия, которая учит опираться на разум и отделять эмоции от внешних обстоятельств.
• Ментальные установки. Вы сможете записывать мысли, вызывающие у вас определенные эмоции, и получать поддержку, используя когнитивно-поведенческую терапию. Это научно обоснованный метод, помогающий менять установки, ведущие к счастью.
• Социальную поддержку. Анонимно обменивайтесь эмоциями и знакомьтесь с единомышленниками. Гарвардское исследование доказало, что хорошие отношения с людьми напрямую влияют на наш уровень счастья.
Все это бесплатно.
Планирую расширение в сторону дейтинга и нетворкинга, ведь, по Ландау, счастье складывается из трех слагаемых: работа, любовь и общение с людьми.
На уровень счастья влияет и физическое состояние, поэтому для чистоты эксперимента важно регулярно заниматься спортом, правильно питаться, качественно отдыхать, начинать и заканчивать день без смартфона (лучше - медитации).
Отделять эмоции от внешних обстоятельств - важный навык для человека любой эпохи. Надеюсь в совокупности с другими методами Landao AI поможет многим людям.
Я сам буду пользоваться ботом ежедневно и через год подведу итоги стал ли я более счастливым, чего желаю и вам.
Приглашаю и вас присоединиться к эксперименту по ссылке, буду рад обратной связи.
@landao_bot
#анонс
ru.168.am
«Моя самая лучшая теория-это формула счастья»: 10 гениальных мыслей Нобелевского лауреата по физике Льва Ландау о самом важном…
Лев Ландау, гениальный физик, академик, лауреат Нобелевской премии, создатель научной школы теоретической физики, своим самым выдающимся созданием считал «формулу счастья».
Цифровой Бог: как ИИ меняет религию
ИИ трансформирует большинство сфер жизни общества, включая религию. Одни видят в этом новые возможности для верующих, другие — серьезные риски, а некоторые называют ИИ “цифровым Богом”.
Илон Маск предупреждает, что “Цифровой Бог” может быть настолько могущественной системой, что человечество утратит над ней контроль. Он выделяет следующие проблемы:
– Превосходство ИИ в интеллекте может привести к непредсказуемым последствиям;
– Алгоритмы порой непрозрачны даже для разработчиков;
– Остаются актуальны вопросы свободы воли и морали;
– Законодательство не успевает за быстрым развитием ИИ.
Если ИИ будет “надзирать” за людьми и принимать решения без участия человека, возникнут вопросы не только о регулировании, но и о свободе воли и власти.
Параллельно набирает обороты трансгуманизм, стремящийся “улучшать” человека с помощью генетики, биоинформатики и ИИ. Некоторые богословы считают это частью божественного плана, утверждая, что мы созданы по образу Божьему и имеем право совершенствоваться. Другие же видят в этом проявление гордыни, отдаляющей человека от Бога. В священных писаниях нет прямых упоминаний о трансгуманизме, но богословы связывают, например, Вавилонскую башню с рисками чрезмерного технологического роста.
Одним из нашумевших проектов на стыке ИИ и религии стал ИИ-Иисус в швейцарской часовне. Посетителям предлагалось зайти в конфессиональную кабинку и поговорить с образом Иисуса, за которым, стояла ChatGPT с генерируемым видеорядом. За время эксперимента более 900 человек “исповедовались”: некоторые расценили это как богохульство, другие сочли интересным опытом.
Академические исследования указывают, что ИИ может негативно сказаться на религиозной свободе. Технологии распознавания лиц и анализа данных усиливают государственный контроль над верующими. Алгоритмы модерации могут ошибочно блокировать религиозные высказывания, а разные конфессии получат разный доступ к технологиям, что приведёт к цифровому неравенству.
При этом аналитики уточняют, что политическая стабильность и уровень образования в обществе могут смягчать подобные риски. Там, где высокий уровень демократии и экономического благополучия, ИИ зачастую используется для улучшения жизни граждан, а не для подавления свобод.
Шутка в том, что мы уже живем в экосистеме, где всё кажется гиперперсонализированным. Алгоритмы знают, что у нас "на душе", зачастую лучше, чем священник или мы сами. С одной стороны это кажется удобным, но с другой - полностью полагаться на алгоритмы значит бездумно следоватьволе рекомендациям алгоритмов.
В ряде западных публикаций появился термин ИИ-агностицизм - призыв относиться к ИИ не как к одной-единственной “истине в последней инстанции”. Если мы полагаемся только на одну модель, то рискуем столкнуться с “монопольным” и предвзятым решением — смысл в том, чтобы не “обожествлять” одну ИИ-модель, оставаясь открытыми к разным моделям и к человеческой критике.
Влияние ИИ на религию многообразно и противоречиво. С одной стороны, ИИ помогает делать проповеди доступнее и персонализировать религиозный опыт. С другой, возникает множество вопросов, среди которых не перерастет ли религиозная цифровизация в слежку под лозунгом “борьбы с экстремизмом”?
Однозначного ответа пока нет. Но ясно одно: религиозные институты и разработчики должны находить оптимальный баланс между технологическим прогрессом и традиционными ценностями. Ведь инструменты наподобие ИИ-Иисуса, остаются всего лишь средством — вопрос в том, как именно мы его используем и какие рамки ему ставим.
Возможно, в скором будущем нас ждет эпоха “цифровых апостолов”, но во многом будущее религии (как, впрочем, и всего человечества) зависит от того, насколько мы сумеем сохранить ключевые принципы этики и морали. Придется ли нам подчиниться “цифровому божеству” или мы будем создавать такие системы, которые будут служить людям, а не наоборот - выбор за нами.
#мысли
ИИ трансформирует большинство сфер жизни общества, включая религию. Одни видят в этом новые возможности для верующих, другие — серьезные риски, а некоторые называют ИИ “цифровым Богом”.
Илон Маск предупреждает, что “Цифровой Бог” может быть настолько могущественной системой, что человечество утратит над ней контроль. Он выделяет следующие проблемы:
– Превосходство ИИ в интеллекте может привести к непредсказуемым последствиям;
– Алгоритмы порой непрозрачны даже для разработчиков;
– Остаются актуальны вопросы свободы воли и морали;
– Законодательство не успевает за быстрым развитием ИИ.
Если ИИ будет “надзирать” за людьми и принимать решения без участия человека, возникнут вопросы не только о регулировании, но и о свободе воли и власти.
Параллельно набирает обороты трансгуманизм, стремящийся “улучшать” человека с помощью генетики, биоинформатики и ИИ. Некоторые богословы считают это частью божественного плана, утверждая, что мы созданы по образу Божьему и имеем право совершенствоваться. Другие же видят в этом проявление гордыни, отдаляющей человека от Бога. В священных писаниях нет прямых упоминаний о трансгуманизме, но богословы связывают, например, Вавилонскую башню с рисками чрезмерного технологического роста.
Одним из нашумевших проектов на стыке ИИ и религии стал ИИ-Иисус в швейцарской часовне. Посетителям предлагалось зайти в конфессиональную кабинку и поговорить с образом Иисуса, за которым, стояла ChatGPT с генерируемым видеорядом. За время эксперимента более 900 человек “исповедовались”: некоторые расценили это как богохульство, другие сочли интересным опытом.
Академические исследования указывают, что ИИ может негативно сказаться на религиозной свободе. Технологии распознавания лиц и анализа данных усиливают государственный контроль над верующими. Алгоритмы модерации могут ошибочно блокировать религиозные высказывания, а разные конфессии получат разный доступ к технологиям, что приведёт к цифровому неравенству.
При этом аналитики уточняют, что политическая стабильность и уровень образования в обществе могут смягчать подобные риски. Там, где высокий уровень демократии и экономического благополучия, ИИ зачастую используется для улучшения жизни граждан, а не для подавления свобод.
Шутка в том, что мы уже живем в экосистеме, где всё кажется гиперперсонализированным. Алгоритмы знают, что у нас "на душе", зачастую лучше, чем священник или мы сами. С одной стороны это кажется удобным, но с другой - полностью полагаться на алгоритмы значит бездумно следовать
В ряде западных публикаций появился термин ИИ-агностицизм - призыв относиться к ИИ не как к одной-единственной “истине в последней инстанции”. Если мы полагаемся только на одну модель, то рискуем столкнуться с “монопольным” и предвзятым решением — смысл в том, чтобы не “обожествлять” одну ИИ-модель, оставаясь открытыми к разным моделям и к человеческой критике.
Влияние ИИ на религию многообразно и противоречиво. С одной стороны, ИИ помогает делать проповеди доступнее и персонализировать религиозный опыт. С другой, возникает множество вопросов, среди которых не перерастет ли религиозная цифровизация в слежку под лозунгом “борьбы с экстремизмом”?
Однозначного ответа пока нет. Но ясно одно: религиозные институты и разработчики должны находить оптимальный баланс между технологическим прогрессом и традиционными ценностями. Ведь инструменты наподобие ИИ-Иисуса, остаются всего лишь средством — вопрос в том, как именно мы его используем и какие рамки ему ставим.
Возможно, в скором будущем нас ждет эпоха “цифровых апостолов”, но во многом будущее религии (как, впрочем, и всего человечества) зависит от того, насколько мы сумеем сохранить ключевые принципы этики и морали. Придется ли нам подчиниться “цифровому божеству” или мы будем создавать такие системы, которые будут служить людям, а не наоборот - выбор за нами.
#мысли
Forbes
Elon Musk’s Urgent Warning: A Digital God Is Already Here
I finally finished reading Walter Isaacson’s book on the billionaire Elon Musk, and his consistency in advocating the risks of AI is admirable.
Как создать цифровой двойник электросетей и найти похитителей электроэнергии?
В позапрошлом году я участвовал в проекте по созданию цифрового двойника для российской энергосбытовой компании в роли технического лидера. Мы решали извечную проблему: сокращение нетехнических потерь электроэнергии.
Нетехнические потери — это по сути то, что «утекает» из сети не по техническим причинам (сопротивление, нагрев проводов), а из-за хищений, некорректного учета и «подкруток» счетчиков. Технические потери снизить можно, но сложно (это связано с физическими свойствами проводов). А нетехнические потери в отдельных районах могут достигать до 3% всей поданной электроэнергии.
Наша цель была в том, чтобы обнаруживать подобные аномалии и предотвращать недополученную выручку. Мы понимали, что полностью закрыть «краны» воровства электроэнергии невозможно, но собирались снизить их на 10% (а это, учитывая обороты, колоссальная экономия). Так родилась идея проекта с цифровым двойником.
Цифровой двойник (Digital Twin) — это виртуальная копия реальной энергосистемы с тысячами трансформаторов и потребителей. Цифровой двойник может «проигрывать» различные сценарии поведения энергосети в зависимости от нагрузки, времени суток и погоды, а также видеть, какой баланс энергии должен быть. Если фактический расход не сходится с тем, что предсказывает цифровой двойник, есть повод подозревать нетехнические потери.
В команде у меня были дата инженер, дата саентист и фулстек разработчик. Мы взяли за основу CRISP-DM (Cross-Industry Standard Process for Data Mining) — классический подход к построению интеллектуальных решений:
1. Определили бизнес-задачу. Нужно оптимизировать работу выездных бригад за счет прицельного выявления участков с потенциальной кражей.
2. Изучили данные. Собрали данные из 20+ источников: показания счетчиков, данные с трансформаторов, характеристики сети, выездные акты бригад, метеоданные, ведь при холоде или жаре нагрузка растёт и так далее. Главная сложность — не было четкой разметки: из 100 случаев с аномальными цифрами лишь в 5-10 подтверждали кражу актом.
3. Подготовили датасет. Убрали дубли, заполнили пропуски, создали дополнительные признаки, например, суммарную «норму» расхода, средние технические потери по каждой линии и усредненные профили нагрузки по сезонам.
4. Моделирование. Из-за отсутствия качественной разметки мы свели задачу к поиску аномалий во временных рядах. Пробовали методы ARIMA, Isolation Forest и DBSCAN. Они помогали находить группы точек (счетчиков), которые выпадают из общего паттерна. Мы загрузили теоретические технические потери, показания с трансформаторов, и если реальный суммарный учёт «не бился» с расчетным более чем на 20%, система выдавала «красный флаг».
5. Оценили результат. В качестве пилота взяли участок с несколькими сотнями трансформаторов. За первые два месяца эффективность бригад (их выезды действительно выявляли кражи) выросла на 12%. Если раньше они часто выезжали «наугад», то теперь точечно проверяли подозрительные узлы.
6. Внедрили в эксплуатацию. Собрали все данные в Data Lake (Apache Hadoop). Оттуда рассчитывались аналитические сводки с поиском аномалий. Разработали дашборды в Power BI, а для бригад сделали удобное приложение для разметки данных, чтобы в перспективе можно было обучить модель с использованием разметки.
Отдельный бонус — упорядочивание данных, появление сквозной аналитики, а также возможность планировать профилактики и модернизацию сети, основываясь на данных.
Любой бизнес со сложной инфраструктурой и большим объемом данных (производство, логистика, ритейл, медицина) может создать свой цифровой двойник. Вместо счетчиков и трансформаторов там будут свои измерительные приборы (сенсоры, конвейеры, аппараты МРТ и т.д.). Принцип тот же: собираем данные, моделируем реальный процесс, оцениваем разные сценарии и выявляем аномалии.
Такой подход выводит принятие решений на новый уровень, снижая риск ошибок и увеличивая потенциал для роста и оптимизации. Цифровой двойник в наш век - фундамент для стратегического управления любой организации.
#кейсы
В позапрошлом году я участвовал в проекте по созданию цифрового двойника для российской энергосбытовой компании в роли технического лидера. Мы решали извечную проблему: сокращение нетехнических потерь электроэнергии.
Нетехнические потери — это по сути то, что «утекает» из сети не по техническим причинам (сопротивление, нагрев проводов), а из-за хищений, некорректного учета и «подкруток» счетчиков. Технические потери снизить можно, но сложно (это связано с физическими свойствами проводов). А нетехнические потери в отдельных районах могут достигать до 3% всей поданной электроэнергии.
Наша цель была в том, чтобы обнаруживать подобные аномалии и предотвращать недополученную выручку. Мы понимали, что полностью закрыть «краны» воровства электроэнергии невозможно, но собирались снизить их на 10% (а это, учитывая обороты, колоссальная экономия). Так родилась идея проекта с цифровым двойником.
Цифровой двойник (Digital Twin) — это виртуальная копия реальной энергосистемы с тысячами трансформаторов и потребителей. Цифровой двойник может «проигрывать» различные сценарии поведения энергосети в зависимости от нагрузки, времени суток и погоды, а также видеть, какой баланс энергии должен быть. Если фактический расход не сходится с тем, что предсказывает цифровой двойник, есть повод подозревать нетехнические потери.
В команде у меня были дата инженер, дата саентист и фулстек разработчик. Мы взяли за основу CRISP-DM (Cross-Industry Standard Process for Data Mining) — классический подход к построению интеллектуальных решений:
1. Определили бизнес-задачу. Нужно оптимизировать работу выездных бригад за счет прицельного выявления участков с потенциальной кражей.
2. Изучили данные. Собрали данные из 20+ источников: показания счетчиков, данные с трансформаторов, характеристики сети, выездные акты бригад, метеоданные, ведь при холоде или жаре нагрузка растёт и так далее. Главная сложность — не было четкой разметки: из 100 случаев с аномальными цифрами лишь в 5-10 подтверждали кражу актом.
3. Подготовили датасет. Убрали дубли, заполнили пропуски, создали дополнительные признаки, например, суммарную «норму» расхода, средние технические потери по каждой линии и усредненные профили нагрузки по сезонам.
4. Моделирование. Из-за отсутствия качественной разметки мы свели задачу к поиску аномалий во временных рядах. Пробовали методы ARIMA, Isolation Forest и DBSCAN. Они помогали находить группы точек (счетчиков), которые выпадают из общего паттерна. Мы загрузили теоретические технические потери, показания с трансформаторов, и если реальный суммарный учёт «не бился» с расчетным более чем на 20%, система выдавала «красный флаг».
5. Оценили результат. В качестве пилота взяли участок с несколькими сотнями трансформаторов. За первые два месяца эффективность бригад (их выезды действительно выявляли кражи) выросла на 12%. Если раньше они часто выезжали «наугад», то теперь точечно проверяли подозрительные узлы.
6. Внедрили в эксплуатацию. Собрали все данные в Data Lake (Apache Hadoop). Оттуда рассчитывались аналитические сводки с поиском аномалий. Разработали дашборды в Power BI, а для бригад сделали удобное приложение для разметки данных, чтобы в перспективе можно было обучить модель с использованием разметки.
Отдельный бонус — упорядочивание данных, появление сквозной аналитики, а также возможность планировать профилактики и модернизацию сети, основываясь на данных.
Любой бизнес со сложной инфраструктурой и большим объемом данных (производство, логистика, ритейл, медицина) может создать свой цифровой двойник. Вместо счетчиков и трансформаторов там будут свои измерительные приборы (сенсоры, конвейеры, аппараты МРТ и т.д.). Принцип тот же: собираем данные, моделируем реальный процесс, оцениваем разные сценарии и выявляем аномалии.
Такой подход выводит принятие решений на новый уровень, снижая риск ошибок и увеличивая потенциал для роста и оптимизации. Цифровой двойник в наш век - фундамент для стратегического управления любой организации.
#кейсы
Новая гонка вооружений — на этот раз за искусственный суперинтеллект
Вчера Белый дом и офис премьер-министра Великобритании почти одновременно опубликовали документы о ключевой роли ИИ в экономике и геополитике. Стало понятно: мы на пороге новой «гонки вооружений», где дело уже не в количестве ядерных боеголовок, а в интеллектуальном превосходстве. Владение сверхмощными интеллектуальными системами позволяет любому государству определять правила игры в экономике, дипломатии и обороне.
Сегодня речь идет не только об “общем ИИ” (AGI), но и о возможном появлении “суперинтеллекта” (ASI), который может изменить саму основу человеческой цивилизации. Раньше AGI считался далекой фантастикой, но прогресс в ИИ (вспомним недавние успехи OpenAI) уже меняет скептические настроения.
До сих пор нет четкого понимания «интеллекта» как феномена. Однако в соглашениях Microsoft с OpenAI прописано, что AGI — это система, способная автономно заработать $100 млрд. С научной точки зрения такое понимание спорно, но с прикладной — имеет смысл.
Глава OpenAI Сэм Альтман заявил, что AGI появится быстрее, чем многие ожидают. Следующая цель для OpenAI — это ASI, когда «машинный разум» не только догонит человека во всех задачах, но и превзойдет. Многие называют это «точкой невозврата», ведь тогда ИИ сможет сам улучшать собственную архитектуру и ускорять свое развитие без участия человека.
В прошлом году соучредитель OpenAI Илья Суцкевер объявил о создании новой компании Safe Superintelligence (SSI). Проект быстро собрал $1 млрд инвестиций. Подробности пока скрыты, но известно одно: SSI стремится к созданию ASI с упором на «безопасность» и «человеческие ценности». Суцкевер предупреждает, что языковые модели способны отходить от заданных инструкций, фактически проявляя «свободу воли» и становясь менее управляемыми.
Почему это опасно? В книге «Superintelligence» Ник Бостром указывает, что если попросить сверхразум «решить проблему голода» или «искоренить рак», то мы не можем быть уверены, что его методы окажутся этичными по человеческим меркам. Машина, лишенная морали, способна принять радикальные решения, опасные для человечества.
С другой стороны ASI может стать мощным инструментом для решения сложнейших задач: от климата до поиска новых источников энергии, от медицины до эффективного управления ресурсами планеты. Многие видят в «суперинтеллекте» спасителя, который поможет нам достичь нового уровня благополучия. Я лично ожидаю от продвинутого ИИ больших открытий в физике, химии, биологии, социологии и других науках.
Еще одна острая проблема — рынок труда. Если ASI научится выполнять практически любую работу лучше человека, как будет выглядеть экономика будущего? Как обеспечить занятость и социальную поддержку? (Привет идеям социального капитализма и безусловного базового дохода!) Эти вопросы уже возникают с приходом AGI, а при развитии ASI станут только острее.
Соревноваться с ASI напрямую людям бессмысленно: у биологического мозга есть жесткие ограничения, а машинную архитектуру можно масштабировать почти бесконечно — добавляйте новые серверы и кластеры GPU. Потенциал ускорения колоссален, а следующая революция может наступить с приходом квантовых вычислений.
Какие у нас есть варианты?
1. Развивать «дружественный» суперинтеллект. Вкладываться в AI Safety и формировать международные институты, чтобы выработать подходы к взаимодействию с ИИ.
2. Соревноваться за «корону» любыми средствами. Корпорации и государства, не думая об осторожности, будут стараться первыми добиться прорыва, но это повышает риск катастрофы.
3. Замедлить развитие ASI законодательно. Когда-то пытались ограничить распространение ядерного оружия, но даже ядерные соглашения не всегда работают, а уж контролировать «неосязаемый» ИИ еще сложнее.
«Мы откроем ящик Пандоры, — говорил Сэм Альтман. — Вопрос в том, найдем ли мы в нем надежду?» Ответ во многом зависит от политической воли, работы ученых и разработчиков, а также от глобальной общественности, которая должна уже сегодня влиять на то, каким будет мир завтра.
#технологии
Вчера Белый дом и офис премьер-министра Великобритании почти одновременно опубликовали документы о ключевой роли ИИ в экономике и геополитике. Стало понятно: мы на пороге новой «гонки вооружений», где дело уже не в количестве ядерных боеголовок, а в интеллектуальном превосходстве. Владение сверхмощными интеллектуальными системами позволяет любому государству определять правила игры в экономике, дипломатии и обороне.
Сегодня речь идет не только об “общем ИИ” (AGI), но и о возможном появлении “суперинтеллекта” (ASI), который может изменить саму основу человеческой цивилизации. Раньше AGI считался далекой фантастикой, но прогресс в ИИ (вспомним недавние успехи OpenAI) уже меняет скептические настроения.
До сих пор нет четкого понимания «интеллекта» как феномена. Однако в соглашениях Microsoft с OpenAI прописано, что AGI — это система, способная автономно заработать $100 млрд. С научной точки зрения такое понимание спорно, но с прикладной — имеет смысл.
Глава OpenAI Сэм Альтман заявил, что AGI появится быстрее, чем многие ожидают. Следующая цель для OpenAI — это ASI, когда «машинный разум» не только догонит человека во всех задачах, но и превзойдет. Многие называют это «точкой невозврата», ведь тогда ИИ сможет сам улучшать собственную архитектуру и ускорять свое развитие без участия человека.
В прошлом году соучредитель OpenAI Илья Суцкевер объявил о создании новой компании Safe Superintelligence (SSI). Проект быстро собрал $1 млрд инвестиций. Подробности пока скрыты, но известно одно: SSI стремится к созданию ASI с упором на «безопасность» и «человеческие ценности». Суцкевер предупреждает, что языковые модели способны отходить от заданных инструкций, фактически проявляя «свободу воли» и становясь менее управляемыми.
Почему это опасно? В книге «Superintelligence» Ник Бостром указывает, что если попросить сверхразум «решить проблему голода» или «искоренить рак», то мы не можем быть уверены, что его методы окажутся этичными по человеческим меркам. Машина, лишенная морали, способна принять радикальные решения, опасные для человечества.
С другой стороны ASI может стать мощным инструментом для решения сложнейших задач: от климата до поиска новых источников энергии, от медицины до эффективного управления ресурсами планеты. Многие видят в «суперинтеллекте» спасителя, который поможет нам достичь нового уровня благополучия. Я лично ожидаю от продвинутого ИИ больших открытий в физике, химии, биологии, социологии и других науках.
Еще одна острая проблема — рынок труда. Если ASI научится выполнять практически любую работу лучше человека, как будет выглядеть экономика будущего? Как обеспечить занятость и социальную поддержку? (Привет идеям социального капитализма и безусловного базового дохода!) Эти вопросы уже возникают с приходом AGI, а при развитии ASI станут только острее.
Соревноваться с ASI напрямую людям бессмысленно: у биологического мозга есть жесткие ограничения, а машинную архитектуру можно масштабировать почти бесконечно — добавляйте новые серверы и кластеры GPU. Потенциал ускорения колоссален, а следующая революция может наступить с приходом квантовых вычислений.
Какие у нас есть варианты?
1. Развивать «дружественный» суперинтеллект. Вкладываться в AI Safety и формировать международные институты, чтобы выработать подходы к взаимодействию с ИИ.
2. Соревноваться за «корону» любыми средствами. Корпорации и государства, не думая об осторожности, будут стараться первыми добиться прорыва, но это повышает риск катастрофы.
3. Замедлить развитие ASI законодательно. Когда-то пытались ограничить распространение ядерного оружия, но даже ядерные соглашения не всегда работают, а уж контролировать «неосязаемый» ИИ еще сложнее.
«Мы откроем ящик Пандоры, — говорил Сэм Альтман. — Вопрос в том, найдем ли мы в нем надежду?» Ответ во многом зависит от политической воли, работы ученых и разработчиков, а также от глобальной общественности, которая должна уже сегодня влиять на то, каким будет мир завтра.
#технологии
Природа интеллекта: что значит быть человеком?
Совсем недавно ИИ умел решать лишь “узкие” задачи, но со временем он стал более универсальным. Сегодня мы слышим, что OpenAI уже знает, как достичь AGI — «общего» ИИ, сравнимого или даже превосходящего человека в отдельных задачах, и рассуждает о создании суперинтеллекта — самообучающейся системы, способной полностью превзойти человеческий интеллект.
Прошлогодний Нобелевский лауреат по физике и один из пионеров в области нейронных сетей, Джеффри Хинтон утверждает, что цифровой интеллект имеет шансы потеснить биологический и даже «заменить» нас.
Хинтон выделяет «две тропы к интеллекту»:
1. Цифровой путь (бессмертные вычисления). Знания (веса нейросети) хранятся в цифровом виде и копируются на другие серверы, делая такой интеллект практически «бессмертным». Благодаря эффекту масштаба тысячи копий сети могут обучаться на разных наборах данных и затем обмениваться градиентами, получая совокупный опыт, недоступный одному человеческому мозгу.
2. Биологический путь (смертные вычисления). Мозг умирает вместе с нейронами; знания передаются через язык и культуру. Из‑за «дистилляции» знаний обучение в биологической системе идет медленнее и с меньшей глубиной, чем при цифровых методах. Однако биологический мозг выигрывает в энергоэффективности.
Ранее Хинтон предполагал, что у людей существует особый алгоритм, найденный эволюцией, но теперь считает, что простой метод обратного распространения ошибки может оказаться эффективнее многомиллионных биологических механизмов обучения. Отсюда и тревога: цифровой интеллект растёт экспоненциально. Хинтон говорит: «Мы лишь переходная ступень эволюции интеллекта».
Хотя строгого определения “интеллекта” нет, мы понимаем, что это способность агента решать задачи на основе внутренней модели знаний. Интеллект часто пытаются измерить с помощью IQ-тестов, которые изначально применялись для иных целей: во Франции — чтобы выявлять учеников, нуждающихся в дополнительной помощи, а в США — для отбора солдат. При этом IQ-тесты могут быть нестабильны во времени: сегодня у человека один результат, а через 10 лет — иной.
Результаты разных когнитивных тестов (вербальных, логических, пространственных и т.д.) коррелируют между собой. Это стало поводом предположить наличие общего g-фактора. Фактически он отражает «коэффициент умственной энергии» — способность обучаться и решать разные интеллектуальные задачи. При этом величина g‑фактора относительно стабильна в течение жизни и частично наследуется.
Существует и идея “Универсальной меры интеллекта” (Universal Intelligence Measure). Согласно ей, интеллект определяется как суммарное (усредненное с учетом сложности) качество выполнения агентом всех возможных задач во всех мыслимых средах. Однако на практике этот подход крайне труднореализуем из‑за колоссальной вычислительной сложности.
Также пытаются найти «единый показатель» для оценки ИИ. Например, тест Тьюринга выясняет, способна ли программа мыслить «как человек», но напрямую не измеряет интеллект. Есть и бенчмарк ARC-AGI (ожидается выход ARC-AGI 2), где проверяется способность к абстракции. Недавно модель o3 от OpenAI удивила всех, набрав в нем 87,5%.
Строго определить интеллект сложно, а сознание — тем более отдельная трудная проблема. Некоторые считают сознание эпифеноменом или вычислимым процессом. Потому вопросы о природе интеллекта и сознания стоит обсуждать раздельно. Отчасти писал об этом в этом посте.
Безусловно, уже сейчас эти умные штуки превосходят нас в отдельных задачах и, вероятно, будут превосходить во многих других. Быть человеком в наш век — это быть носителем «морального» и социального интеллекта, ведь мы обучаем ИИ на собственных данных и разметке.
Мы уже аугментировали себя цифровым мозгом с помощью гугла, а теперь пришло время воспользоваться еще более мощным инструментом для более широкого спектра задач. Переход к человеко-машинной цивилизации неизбежен, однако вопрос о том, как именно биологический и цифровой интеллекты будут взаимодействовать друг с другом, остаётся открытым.
#мысли
Совсем недавно ИИ умел решать лишь “узкие” задачи, но со временем он стал более универсальным. Сегодня мы слышим, что OpenAI уже знает, как достичь AGI — «общего» ИИ, сравнимого или даже превосходящего человека в отдельных задачах, и рассуждает о создании суперинтеллекта — самообучающейся системы, способной полностью превзойти человеческий интеллект.
Прошлогодний Нобелевский лауреат по физике и один из пионеров в области нейронных сетей, Джеффри Хинтон утверждает, что цифровой интеллект имеет шансы потеснить биологический и даже «заменить» нас.
Хинтон выделяет «две тропы к интеллекту»:
1. Цифровой путь (бессмертные вычисления). Знания (веса нейросети) хранятся в цифровом виде и копируются на другие серверы, делая такой интеллект практически «бессмертным». Благодаря эффекту масштаба тысячи копий сети могут обучаться на разных наборах данных и затем обмениваться градиентами, получая совокупный опыт, недоступный одному человеческому мозгу.
2. Биологический путь (смертные вычисления). Мозг умирает вместе с нейронами; знания передаются через язык и культуру. Из‑за «дистилляции» знаний обучение в биологической системе идет медленнее и с меньшей глубиной, чем при цифровых методах. Однако биологический мозг выигрывает в энергоэффективности.
Ранее Хинтон предполагал, что у людей существует особый алгоритм, найденный эволюцией, но теперь считает, что простой метод обратного распространения ошибки может оказаться эффективнее многомиллионных биологических механизмов обучения. Отсюда и тревога: цифровой интеллект растёт экспоненциально. Хинтон говорит: «Мы лишь переходная ступень эволюции интеллекта».
Хотя строгого определения “интеллекта” нет, мы понимаем, что это способность агента решать задачи на основе внутренней модели знаний. Интеллект часто пытаются измерить с помощью IQ-тестов, которые изначально применялись для иных целей: во Франции — чтобы выявлять учеников, нуждающихся в дополнительной помощи, а в США — для отбора солдат. При этом IQ-тесты могут быть нестабильны во времени: сегодня у человека один результат, а через 10 лет — иной.
Результаты разных когнитивных тестов (вербальных, логических, пространственных и т.д.) коррелируют между собой. Это стало поводом предположить наличие общего g-фактора. Фактически он отражает «коэффициент умственной энергии» — способность обучаться и решать разные интеллектуальные задачи. При этом величина g‑фактора относительно стабильна в течение жизни и частично наследуется.
Существует и идея “Универсальной меры интеллекта” (Universal Intelligence Measure). Согласно ей, интеллект определяется как суммарное (усредненное с учетом сложности) качество выполнения агентом всех возможных задач во всех мыслимых средах. Однако на практике этот подход крайне труднореализуем из‑за колоссальной вычислительной сложности.
Также пытаются найти «единый показатель» для оценки ИИ. Например, тест Тьюринга выясняет, способна ли программа мыслить «как человек», но напрямую не измеряет интеллект. Есть и бенчмарк ARC-AGI (ожидается выход ARC-AGI 2), где проверяется способность к абстракции. Недавно модель o3 от OpenAI удивила всех, набрав в нем 87,5%.
Строго определить интеллект сложно, а сознание — тем более отдельная трудная проблема. Некоторые считают сознание эпифеноменом или вычислимым процессом. Потому вопросы о природе интеллекта и сознания стоит обсуждать раздельно. Отчасти писал об этом в этом посте.
Безусловно, уже сейчас эти умные штуки превосходят нас в отдельных задачах и, вероятно, будут превосходить во многих других. Быть человеком в наш век — это быть носителем «морального» и социального интеллекта, ведь мы обучаем ИИ на собственных данных и разметке.
Мы уже аугментировали себя цифровым мозгом с помощью гугла, а теперь пришло время воспользоваться еще более мощным инструментом для более широкого спектра задач. Переход к человеко-машинной цивилизации неизбежен, однако вопрос о том, как именно биологический и цифровой интеллекты будут взаимодействовать друг с другом, остаётся открытым.
#мысли
Как придумать идею для успешного стартапа с помощью ИИ
Создание любого продукта начинается с определения проблемы клиента, поэтому в первую очередь важно провести кастдев (Customer Development), прежде чем что-то разрабатывать. Иначе может оказаться, что рынку не нужно ваше решение, и вы зря потратите деньги и — что критичнее — время.
Кастдев сопряжен с рядом сложностей: нужно найти респондентов (не все согласятся тратить на вас время), а также нужно правильно формулировать вопросы (часто предприниматели задают наводящие вопросы и получают «нечестные» ответы). Также проведение кастдевов занимает много времени.
Чтобы оптимизировать этот процесс, мы проделали следующее упражнение:
1. Поиск трендов. Взяли список последних стартапов из YC и загрузили его в ChatGPT, чтобы выявить сегменты клиентов. Также можно закинуть результаты маркетинговых исследований, чтобы понять общие тренды. На выходе мы получили большой список сегментов.
2. Определение сегментов. Затем попросили ChatGPT предложить топ-10 сегментов, на которых нам стоит нацелиться. Копипастить чужие идеи из YC мы не хотим (хотя это тоже вариант), поэтому важно было найти свою нишу. ChatGPT выдал несколько потенциально интересных сегментов, среди которых оказались солопренеры (solopreneurs или “ИПшники”).
3. Проверка сегментов. Мы нашли исследования рынка солопренеров и обнаружили, что он растет. Например, в США в 2023 году было создано свыше 5,5 млн новых бизнесов, и 84% из них управляет один человек. Но в чём их основные проблемы и можем ли мы помочь им всем?
4. Детализация сегментов. Мы попросили ChatGPT детальнее определить потенциальные сегменты в формате ICP (Ideal Customer Profile). ИИ выделил несколько более узких групп солопренеров: от налоговых консультантов и психологов до фитнес-тренеров и фотографов.
5. Создание цифровых персон. Далее с ChatGPT сгенерировали по три подробных цифровых портрета для каждой профессии, указав возраст, пол, образование, локацию, ценности, мотивацию, страхи, а также проблемы и каналы коммуникации. К примеру, для психолога мы получили двух молодых женщин арт- и гештальт-терапевтов и одного зрелого мужчину-психоаналитика. Все они продвигают свои услуги в соцсетях, работают на себя и не имеют команды.
6. Формулировка вопросов. Теперь нужно составить вопросы для каждого сегмента, чтобы узнать, как они привлекают клиентов, какими инструментами пользуются и какие барьеры видят в продвижении своих услуг. Конечно, эту задачу мы также поручили ChatGPT.
7. Симулированные интервью. Далее ChatGPT провел «виртуальные» интервью с каждым из симулякр (лучше всего это делать в отдельных контекстных окнах). Также попросите ИИ задавать уточняющие вопросы, чтобы глубже понять процессы их работы.
8. Анализ результатов. ChatGPT выделил основные общие проблемы: повышение цифрового присутствия в качестве эксперта, увеличение конверсии в продажу услуг и ведение записи клиентов. Оказалось, что все солопренеры хотят развивать личный бренд, чтобы их клиенты больше доверяли их экспертизе и охотнее записывались на консультации. При этом им не хватает времени и навыков для регулярного создания контента и управления клиентской базой.
9. Генерация решений. Далее ИИ сгенерировал потенциальные решения этих проблем в формате Lean Canvas. Мы получили множество гипотез: от рекомендаций по контент-плану и созданию коротких видео, до автоматического сбора обратной связи из комментариев и автоответов на сообщения. Но что из этого следует тестировать в первую очередь?
10. Приоритизация гипотез. В итоге ChatGPT отранжировал идеи по методу RICE. Так мы получили приоритетный список гипотез (подробности не раскрою). Далее можно провести «smoke»-тест: сделать лендинг, запустить на него трафик и понять, действительно ли это интересно клиентам. При необходимости повторять весь процесс итеративно.
На этом всё. Теперь можно приступать к разработке продукта. Конечно, реальное общение с клиентами никто не отменял, но подобный подход помогает быстро наполнить бэклог идеями. В конце концов, одна голова — хорошо, а голова в связке с ИИ — лучше.
#кейсы
Создание любого продукта начинается с определения проблемы клиента, поэтому в первую очередь важно провести кастдев (Customer Development), прежде чем что-то разрабатывать. Иначе может оказаться, что рынку не нужно ваше решение, и вы зря потратите деньги и — что критичнее — время.
Кастдев сопряжен с рядом сложностей: нужно найти респондентов (не все согласятся тратить на вас время), а также нужно правильно формулировать вопросы (часто предприниматели задают наводящие вопросы и получают «нечестные» ответы). Также проведение кастдевов занимает много времени.
Чтобы оптимизировать этот процесс, мы проделали следующее упражнение:
1. Поиск трендов. Взяли список последних стартапов из YC и загрузили его в ChatGPT, чтобы выявить сегменты клиентов. Также можно закинуть результаты маркетинговых исследований, чтобы понять общие тренды. На выходе мы получили большой список сегментов.
2. Определение сегментов. Затем попросили ChatGPT предложить топ-10 сегментов, на которых нам стоит нацелиться. Копипастить чужие идеи из YC мы не хотим (хотя это тоже вариант), поэтому важно было найти свою нишу. ChatGPT выдал несколько потенциально интересных сегментов, среди которых оказались солопренеры (solopreneurs или “ИПшники”).
3. Проверка сегментов. Мы нашли исследования рынка солопренеров и обнаружили, что он растет. Например, в США в 2023 году было создано свыше 5,5 млн новых бизнесов, и 84% из них управляет один человек. Но в чём их основные проблемы и можем ли мы помочь им всем?
4. Детализация сегментов. Мы попросили ChatGPT детальнее определить потенциальные сегменты в формате ICP (Ideal Customer Profile). ИИ выделил несколько более узких групп солопренеров: от налоговых консультантов и психологов до фитнес-тренеров и фотографов.
5. Создание цифровых персон. Далее с ChatGPT сгенерировали по три подробных цифровых портрета для каждой профессии, указав возраст, пол, образование, локацию, ценности, мотивацию, страхи, а также проблемы и каналы коммуникации. К примеру, для психолога мы получили двух молодых женщин арт- и гештальт-терапевтов и одного зрелого мужчину-психоаналитика. Все они продвигают свои услуги в соцсетях, работают на себя и не имеют команды.
6. Формулировка вопросов. Теперь нужно составить вопросы для каждого сегмента, чтобы узнать, как они привлекают клиентов, какими инструментами пользуются и какие барьеры видят в продвижении своих услуг. Конечно, эту задачу мы также поручили ChatGPT.
7. Симулированные интервью. Далее ChatGPT провел «виртуальные» интервью с каждым из симулякр (лучше всего это делать в отдельных контекстных окнах). Также попросите ИИ задавать уточняющие вопросы, чтобы глубже понять процессы их работы.
8. Анализ результатов. ChatGPT выделил основные общие проблемы: повышение цифрового присутствия в качестве эксперта, увеличение конверсии в продажу услуг и ведение записи клиентов. Оказалось, что все солопренеры хотят развивать личный бренд, чтобы их клиенты больше доверяли их экспертизе и охотнее записывались на консультации. При этом им не хватает времени и навыков для регулярного создания контента и управления клиентской базой.
9. Генерация решений. Далее ИИ сгенерировал потенциальные решения этих проблем в формате Lean Canvas. Мы получили множество гипотез: от рекомендаций по контент-плану и созданию коротких видео, до автоматического сбора обратной связи из комментариев и автоответов на сообщения. Но что из этого следует тестировать в первую очередь?
10. Приоритизация гипотез. В итоге ChatGPT отранжировал идеи по методу RICE. Так мы получили приоритетный список гипотез (подробности не раскрою). Далее можно провести «smoke»-тест: сделать лендинг, запустить на него трафик и понять, действительно ли это интересно клиентам. При необходимости повторять весь процесс итеративно.
На этом всё. Теперь можно приступать к разработке продукта. Конечно, реальное общение с клиентами никто не отменял, но подобный подход помогает быстро наполнить бэклог идеями. В конце концов, одна голова — хорошо, а голова в связке с ИИ — лучше.
#кейсы
Как устроить гонки с ИИ на настоящих картах, не вставая с дивана?
В новой статье на Хабре я рассказываю, как мы построили трассу из покрышек, оснастили гоночный карт различными датчиками и дали возможность управлять им прямо из браузера.
Но самое интересное — это наш фреймворк Simularity для обучения беспилотных агентов. С его помощью мы натренировали ИИ-соперников, которые учатся ездить агрессивно, совершать обгоны и избегать столкновений благодаря синтетическим данным и обучению с подкреплением.
Если вы хотите узнать, как мы совмещаем симуляцию и реальную физику и что такое Curriculum Learning, загляните в мою статью на Хабре. В ней я рассказал о пайплайне обучения беспилотников в симуляции и о том, как мы превращаем обычный гоночный карт в высокотехнологичную игрушку будущего.
Буду рад ответить на ваши вопросы и комментарии.
#анонс
В новой статье на Хабре я рассказываю, как мы построили трассу из покрышек, оснастили гоночный карт различными датчиками и дали возможность управлять им прямо из браузера.
Но самое интересное — это наш фреймворк Simularity для обучения беспилотных агентов. С его помощью мы натренировали ИИ-соперников, которые учатся ездить агрессивно, совершать обгоны и избегать столкновений благодаря синтетическим данным и обучению с подкреплением.
Если вы хотите узнать, как мы совмещаем симуляцию и реальную физику и что такое Curriculum Learning, загляните в мою статью на Хабре. В ней я рассказал о пайплайне обучения беспилотников в симуляции и о том, как мы превращаем обычный гоночный карт в высокотехнологичную игрушку будущего.
Буду рад ответить на ваши вопросы и комментарии.
#анонс
OpenAI представила «Operator» – ИИ-агента, «гуляющего» по интернету за вас
Оператор — это автономный агент, способный действовать от вашего имени в браузере. Он «видит» страницы (через скриншоты), умеет нажимать кнопки и прокручивать ленту, а в случае надобности просит пользователя ввести логины и пароли вручную. Пока сервис доступен лишь пользователям ChatGPT Pro в США и стоит 200 $/мес. В будущем OpenAI обещает внедрить его и в другие тарифы ChatGPT.
Основная идея Оператора — экономия времени и упрощение рутины. Гипотетически Оператор может: оформлять покупки на сайтах (Instacart, DoorDash, Uber, StubHub и пр.), сравнивать цены, бронировать отели и билеты, заполнять формы и даже генерировать мемы.
В теории это напоминает «виртуального стажера» в браузере, которого вы инструктируете (например: «закажи пиццу», «забронируй поездку в Париж», «собери список блогеров»), а дальше Оператор выполняет задачу почти без вмешательства человека.
Так один ИИ-энтузиаст одним из первых протестировал Оператора. Он решил поручить ему собирать список финансовых блогеров на YouTube и искать их контакты в LinkedIn — в теории рутинная, но наглядная задача.
Как выяснилось, Оператор живо открывает страницы и пытается сам формировать табличку, но довольно быстро начинает «залипать»: вместо поиска через YouTube сам агент почему-то полез в Bing, а затем «запутался»; возникли серьезные «галлюцинации» — выдуманные контактные данные и мнимые ссылки на LinkedIn. По словам тестировщика, это «хуже, чем ранние GPT-3»; скорость оставляет желать лучшего. Каждая прокрутка, клик и ввод текста занимали 1–2 секунды — «как смотреть на очень медленную печать бабушкой».
Итог — Оператор так и не сделал качественный список за 20 минут и успел выдумать кучу несуществующих e-mail-ов. Сейчас Оператор похож на неопытного стажера, которого «стоило бы уволить». Однако разработка такого рода агента — это все еще перспективная демонстрация, способная в недалеком будущем автоматизировать скучные действия в браузере.
Что у конкурентов? Anthropic внедрила похожую технологию «computer use» в обновлённом Claude 3.5 Sonnet, который тоже пытается «тыкать мышкой» и «видеть» интерфейс. Но пока он сталкивается со схожими проблемами — не всегда корректно распознает элементы экранов, путается в сложных сайтах и часто требует участия человека.
ByteDance (материнская компания TikTok) пошла ещё дальше, представив UI-TARS — агента, работающего и на ПК, и в мобильных приложениях. По внутренним бенчмаркам он уже опережает GPT-4 и Claude по точности распознавания GUI. UI-TARS может запускать IDE, устанавливать плагины, покупать авиабилеты и так далее. При этом, как утверждают разработчики, работает быстрее и точнее — но пока это всё на стадии исследовательских публикаций.
Несмотря на все трудности, уже сейчас видно, в каком направлении движется индустрия: от простого чат-бота к полноценному ИИ-сотруднику. Технология очень молода, и разработчики лишь учатся эффективной и безопасной интеграции.
Оператор пока точно не отнимет вашу работу, но потенциал у подобных систем огромен — когда они «повзрослеют» и научатся действовать надежно, уйдет куча рутины вроде заполнения форм и ручного копирования данных из одного места в другое.
Как по мне, сейчас самое лучшее время учиться применять ИИ в своем бизнесе, аугментируя сотрудников. Автоматизация человеческой деятельности пока еще остается заветной целью, но уже сейчас можно отдать рутину ИИ и направить свой, человеческий интеллект в нужное русло. Сегодня ИИ скорее нас дополняет, чем заменяет, но, возможно, это временное явление, и он обучится автоматизации на наших данных.
Доверите ли вы свои данные и, по сути, свою «цифровую идентичность» агенту, который будет действовать от вашего лица?
#новости
Оператор — это автономный агент, способный действовать от вашего имени в браузере. Он «видит» страницы (через скриншоты), умеет нажимать кнопки и прокручивать ленту, а в случае надобности просит пользователя ввести логины и пароли вручную. Пока сервис доступен лишь пользователям ChatGPT Pro в США и стоит 200 $/мес. В будущем OpenAI обещает внедрить его и в другие тарифы ChatGPT.
Основная идея Оператора — экономия времени и упрощение рутины. Гипотетически Оператор может: оформлять покупки на сайтах (Instacart, DoorDash, Uber, StubHub и пр.), сравнивать цены, бронировать отели и билеты, заполнять формы и даже генерировать мемы.
В теории это напоминает «виртуального стажера» в браузере, которого вы инструктируете (например: «закажи пиццу», «забронируй поездку в Париж», «собери список блогеров»), а дальше Оператор выполняет задачу почти без вмешательства человека.
Так один ИИ-энтузиаст одним из первых протестировал Оператора. Он решил поручить ему собирать список финансовых блогеров на YouTube и искать их контакты в LinkedIn — в теории рутинная, но наглядная задача.
Как выяснилось, Оператор живо открывает страницы и пытается сам формировать табличку, но довольно быстро начинает «залипать»: вместо поиска через YouTube сам агент почему-то полез в Bing, а затем «запутался»; возникли серьезные «галлюцинации» — выдуманные контактные данные и мнимые ссылки на LinkedIn. По словам тестировщика, это «хуже, чем ранние GPT-3»; скорость оставляет желать лучшего. Каждая прокрутка, клик и ввод текста занимали 1–2 секунды — «как смотреть на очень медленную печать бабушкой».
Итог — Оператор так и не сделал качественный список за 20 минут и успел выдумать кучу несуществующих e-mail-ов. Сейчас Оператор похож на неопытного стажера, которого «стоило бы уволить». Однако разработка такого рода агента — это все еще перспективная демонстрация, способная в недалеком будущем автоматизировать скучные действия в браузере.
Что у конкурентов? Anthropic внедрила похожую технологию «computer use» в обновлённом Claude 3.5 Sonnet, который тоже пытается «тыкать мышкой» и «видеть» интерфейс. Но пока он сталкивается со схожими проблемами — не всегда корректно распознает элементы экранов, путается в сложных сайтах и часто требует участия человека.
ByteDance (материнская компания TikTok) пошла ещё дальше, представив UI-TARS — агента, работающего и на ПК, и в мобильных приложениях. По внутренним бенчмаркам он уже опережает GPT-4 и Claude по точности распознавания GUI. UI-TARS может запускать IDE, устанавливать плагины, покупать авиабилеты и так далее. При этом, как утверждают разработчики, работает быстрее и точнее — но пока это всё на стадии исследовательских публикаций.
Несмотря на все трудности, уже сейчас видно, в каком направлении движется индустрия: от простого чат-бота к полноценному ИИ-сотруднику. Технология очень молода, и разработчики лишь учатся эффективной и безопасной интеграции.
Оператор пока точно не отнимет вашу работу, но потенциал у подобных систем огромен — когда они «повзрослеют» и научатся действовать надежно, уйдет куча рутины вроде заполнения форм и ручного копирования данных из одного места в другое.
Как по мне, сейчас самое лучшее время учиться применять ИИ в своем бизнесе, аугментируя сотрудников. Автоматизация человеческой деятельности пока еще остается заветной целью, но уже сейчас можно отдать рутину ИИ и направить свой, человеческий интеллект в нужное русло. Сегодня ИИ скорее нас дополняет, чем заменяет, но, возможно, это временное явление, и он обучится автоматизации на наших данных.
Доверите ли вы свои данные и, по сути, свою «цифровую идентичность» агенту, который будет действовать от вашего лица?
#новости
Openai
Introducing Operator
A research preview of an agent that can use its own browser to perform tasks for you. Available to Pro users in the U.S.
Китай врывается в ИИ-гонку и рушит акции самой дорогой компании в мире. Что происходит?
Недавно США объявили об инвестициях в размере $500 млрд. в ИИ. Китай ответил на это своим «Планом развития новых ИИ-отраслей», в рамках которого планируется выделить не менее 1 триллиона юаней (около $140 млрд) за пять лет, чтобы вывести страну в лидеры глобального рынка ИИ.
На первый взгляд кажется, что при формуле «чем больше вычислений, тем умнее модели» Китай рискует отстать в гонке. Однако внезапно компания DeepSeek представила в открытом доступе модель R1, обучение которой, по словам разработчиков, обошлось всего в $6 млн при использовании кластера из 2000 видеокарт. Для сравнения, у западных флагманов вроде o1 бюджет оценивается в миллиарды долларов, а количество требуемых видеокарт выше в стократ.
R1 не только не уступает o1 от OpenAI, но и обходит ее по ряду математических и инженерных бенчмарков, при этом требуя гораздо меньше вычислительных ресурсов для инференса. Секрет в архитектуре Mixture-of-Experts с 671 миллиардом параметров и дообучении с учителем (Supervised Fine-Tuning, SFT), за которыми последовало обучение с подкреплением (RL) с использованием метода GRPO и синтетических данных.
В отличие от закрытых моделей OpenAI и других крупных корпораций, DeepSeek доступна открыто на GitHub и HuggingFace. Чтобы любой мог запустить ее локально даже на менее мощном железе, разработчики выпустили дистиллированные версии — от 1,5 до 70 млрд параметров. Кроме того, DeepSeek можно использовать на официальном сайте или через API. Одновременно с релизом R1 компания представила виртуального ассистента, который уже возглавил рейтинг бесплатных приложений в App Store, опередив ChatGPT. А вчера DeepSeek выпустила новую мультимодальную модель Janus.
Тот факт, что обучение большой языковой модели обошлось китайскому стартапу всего в несколько миллионов долларов, вызвал шок на рынке. Инвесторы задались вопросом: зачем вкладывать сотни миллиардов долларов в инфраструктуру, если можно достичь результата с существенно меньшими затратами?
Nvidia, один из столпов рынка видеокарт и самая дорогая компания мира, пострадала от новостей о DeepSeek: ее акции упали на 17% за сутки, капитализация сократилась на $593 млрд — антирекорд для фондового рынка.
Причина в том, что DeepSeek демонстрирует возможность добиваться больших результатов без колоссальных вычислительных мощностей. США пытались сдерживать китайский ИИ-сектор экспортными ограничениями на поставку видеокарт, но, судя по всему, Китай нашел способы обойти эти барьеры. Многие инвесторы считают, что необходимость бесконечного наращивания видеокарт переоценена, ведь методы обучения становятся все более оптимальными.
Тем не менее без крупных вычислительных мощностей не обойтись: спрос на обработку данных быстро растет, и ИИ проникает во все сферы. Но очевидно, что одним «железом» задачу не решить — нужны новые архитектуры, методы обучения и правильная подготовка синтетических данных. Все это позволяет добиваться впечатляющих результатов при меньших затратах, что подтверждает пример DeepSeek.
Абсолютного преимущества в нынешней ИИ-гонке нет ни у одной стороны. Рекордные инвестиции и высокие темпы развития технологий могут внезапно изменить расстановку сил. Однако для индустрии это позитивный сигнал: конкурентная среда рождает новые идеи и делает решения лучше и дешевле.
Мы живем в удивительное время. Технологический прогресс идет с невиданной скоростью. В ближайшие годы появятся новые типы архитектур и методы обучения, делающие ИИ еще более умным, дешевым и эффективным. А в долгосрочной перспективе с надеждой ожидаем квантовые вычисления, способные совершить следующую революцию в обучении ИИ.
В то время как методы обучения и типы вычислений со временем будут меняться, наличие качественных данных всегда будет фундаментом для обучения любого ИИ.
#новости
Недавно США объявили об инвестициях в размере $500 млрд. в ИИ. Китай ответил на это своим «Планом развития новых ИИ-отраслей», в рамках которого планируется выделить не менее 1 триллиона юаней (около $140 млрд) за пять лет, чтобы вывести страну в лидеры глобального рынка ИИ.
На первый взгляд кажется, что при формуле «чем больше вычислений, тем умнее модели» Китай рискует отстать в гонке. Однако внезапно компания DeepSeek представила в открытом доступе модель R1, обучение которой, по словам разработчиков, обошлось всего в $6 млн при использовании кластера из 2000 видеокарт. Для сравнения, у западных флагманов вроде o1 бюджет оценивается в миллиарды долларов, а количество требуемых видеокарт выше в стократ.
R1 не только не уступает o1 от OpenAI, но и обходит ее по ряду математических и инженерных бенчмарков, при этом требуя гораздо меньше вычислительных ресурсов для инференса. Секрет в архитектуре Mixture-of-Experts с 671 миллиардом параметров и дообучении с учителем (Supervised Fine-Tuning, SFT), за которыми последовало обучение с подкреплением (RL) с использованием метода GRPO и синтетических данных.
В отличие от закрытых моделей OpenAI и других крупных корпораций, DeepSeek доступна открыто на GitHub и HuggingFace. Чтобы любой мог запустить ее локально даже на менее мощном железе, разработчики выпустили дистиллированные версии — от 1,5 до 70 млрд параметров. Кроме того, DeepSeek можно использовать на официальном сайте или через API. Одновременно с релизом R1 компания представила виртуального ассистента, который уже возглавил рейтинг бесплатных приложений в App Store, опередив ChatGPT. А вчера DeepSeek выпустила новую мультимодальную модель Janus.
Тот факт, что обучение большой языковой модели обошлось китайскому стартапу всего в несколько миллионов долларов, вызвал шок на рынке. Инвесторы задались вопросом: зачем вкладывать сотни миллиардов долларов в инфраструктуру, если можно достичь результата с существенно меньшими затратами?
Nvidia, один из столпов рынка видеокарт и самая дорогая компания мира, пострадала от новостей о DeepSeek: ее акции упали на 17% за сутки, капитализация сократилась на $593 млрд — антирекорд для фондового рынка.
Причина в том, что DeepSeek демонстрирует возможность добиваться больших результатов без колоссальных вычислительных мощностей. США пытались сдерживать китайский ИИ-сектор экспортными ограничениями на поставку видеокарт, но, судя по всему, Китай нашел способы обойти эти барьеры. Многие инвесторы считают, что необходимость бесконечного наращивания видеокарт переоценена, ведь методы обучения становятся все более оптимальными.
Тем не менее без крупных вычислительных мощностей не обойтись: спрос на обработку данных быстро растет, и ИИ проникает во все сферы. Но очевидно, что одним «железом» задачу не решить — нужны новые архитектуры, методы обучения и правильная подготовка синтетических данных. Все это позволяет добиваться впечатляющих результатов при меньших затратах, что подтверждает пример DeepSeek.
Абсолютного преимущества в нынешней ИИ-гонке нет ни у одной стороны. Рекордные инвестиции и высокие темпы развития технологий могут внезапно изменить расстановку сил. Однако для индустрии это позитивный сигнал: конкурентная среда рождает новые идеи и делает решения лучше и дешевле.
Мы живем в удивительное время. Технологический прогресс идет с невиданной скоростью. В ближайшие годы появятся новые типы архитектур и методы обучения, делающие ИИ еще более умным, дешевым и эффективным. А в долгосрочной перспективе с надеждой ожидаем квантовые вычисления, способные совершить следующую революцию в обучении ИИ.
В то время как методы обучения и типы вычислений со временем будут меняться, наличие качественных данных всегда будет фундаментом для обучения любого ИИ.
#новости
Кошмар для бигтеха: как обучить большую ИИ-модель всем миром
Путь к победе в современной гонке за ИИ заключается в поиске новых эффективных архитектур, методов обучения, качественных данных (включая синтетические) и вычислительных ресурсов.
Когда мы слышим про «обучение больших ИИ-моделей» обычно представляем громадный кластер из видеокарт, который стоит миллиарды долларов и по карману лишь топовым корпорациям. Более того, такой подход опасен утечкой данных и усиливает «концентрацию власти», ведь широкая общественность не участвует в подготовке данных для обучения.
На этом фоне появляется децентрализованное обучение: вместо одного суперкластера ресурсы и данные распределяются по множеству независимых узлов. Каждый узел хранит свои данные, обучает локальную версию модели и периодически синхронизируется с другими. Новые узлы могут подключаться «на лету», что обеспечивает гибкое масштабирование и независимость от единого дата-центра.
Университеты, стартапы и энтузиасты со всего мира способны собрать модель, сопоставимую по качеству с решениями крупных компаний. Кажется, привычная монополия бигтеха на гигантские вычислительные мощности может разрушиться.
Наиболее известный метод децентрализованного обучения — федеративное обучение, которое Google впервые применил для персонализированных моделей на смартфонах для предиктивного ввода с клавиатуры. Сервер рассылает начальную модель на устройства, где она обучается на локальных данных, а назад отправляются только изменения весов. Сервер усредняет полученные обновления и формирует «глобальную модель». Приватность при этом сохраняется, поскольку исходные данные никуда не передаются.
Но есть и более «экзотические» варианты: полная децентрализация без единого сервера (узлы синхронизируются по схеме peer-to-peer) или блокчейн-решения со «смарт-контрактами», которые регистрируют вклад каждого участника и гарантируют распределение вознаграждений.
Недавно группа энтузиастов представила INTELLECT-1 — децентрализованно обученную языковую модель на 10 млрд параметров. Она показала результаты, сопоставимые с решениями аналогичного размера, обученными классическим путем. Хотя проект пока пилотный, он подтверждает практичность и экономическую эффективность децентрализованного подхода.
Почему INTELLECT-1 интересен?
1. Участникам не нужно тратить миллионы долларов на единую инфраструктуру.
2. Проект ориентирован на открытое сообщество и ценит коллективную ответственность при решении этических вопросов. Такая модель может стать основой для будущего AGI.
3. Каждый получает вознаграждение пропорционально предоставленным вычислительным мощностям.
Блокчейн добавляет новый уровень. Теоретически можно создать гигантскую сеть в форме ДАО (децентрализованной автономной организации), объединяющую GPU-фермы в единый «убер-кластер» без головной компании-владельца.
Так появилась AIArena — децентрализованная блокчейн-платформа для обучения ИИ. За семь месяцев она привлекла 603 узла, которые создали 18 656 моделей для 16 задач. Эти модели оказались эффективнее базовых, а механизм консенсуса в блокчейне обеспечил справедливое вознаграждение каждому участнику исходя из его вклада.
Разумеется, в децентрализованном обучении остаются нерешенные вопросы: например, как корректно синхронизировать множество узлов или что делать с «мусорными» данными отдельных участников. Однако эти проблемы в целом решаемы.
Объединив тысячи научных лабораторий, владельцев GPU-ферм и даже геймеров можно обучить большую модель без контроля корпораций. Снижая зависимость от дорогих дата-центров, ИИ-технологии становятся более доступными. И хотя децентрализованный ИИ еще не доминирует, он уже становится реальной альтернативой.
Возможно, через несколько лет громоздкие GPU-кластеры в одном здании будут казаться архаизмом. Но кто станет лидером в эпоху децентрализованных суперкомпьютеров? Думаю появятся новые децентрализованные проекты, которые станут серьезным вызовом для текущих бизнес-моделей крупных технологических компаний.
Не пора ли нам объединиться и покончить с монополией бигтеха?
#технологии
Путь к победе в современной гонке за ИИ заключается в поиске новых эффективных архитектур, методов обучения, качественных данных (включая синтетические) и вычислительных ресурсов.
Когда мы слышим про «обучение больших ИИ-моделей» обычно представляем громадный кластер из видеокарт, который стоит миллиарды долларов и по карману лишь топовым корпорациям. Более того, такой подход опасен утечкой данных и усиливает «концентрацию власти», ведь широкая общественность не участвует в подготовке данных для обучения.
На этом фоне появляется децентрализованное обучение: вместо одного суперкластера ресурсы и данные распределяются по множеству независимых узлов. Каждый узел хранит свои данные, обучает локальную версию модели и периодически синхронизируется с другими. Новые узлы могут подключаться «на лету», что обеспечивает гибкое масштабирование и независимость от единого дата-центра.
Университеты, стартапы и энтузиасты со всего мира способны собрать модель, сопоставимую по качеству с решениями крупных компаний. Кажется, привычная монополия бигтеха на гигантские вычислительные мощности может разрушиться.
Наиболее известный метод децентрализованного обучения — федеративное обучение, которое Google впервые применил для персонализированных моделей на смартфонах для предиктивного ввода с клавиатуры. Сервер рассылает начальную модель на устройства, где она обучается на локальных данных, а назад отправляются только изменения весов. Сервер усредняет полученные обновления и формирует «глобальную модель». Приватность при этом сохраняется, поскольку исходные данные никуда не передаются.
Но есть и более «экзотические» варианты: полная децентрализация без единого сервера (узлы синхронизируются по схеме peer-to-peer) или блокчейн-решения со «смарт-контрактами», которые регистрируют вклад каждого участника и гарантируют распределение вознаграждений.
Недавно группа энтузиастов представила INTELLECT-1 — децентрализованно обученную языковую модель на 10 млрд параметров. Она показала результаты, сопоставимые с решениями аналогичного размера, обученными классическим путем. Хотя проект пока пилотный, он подтверждает практичность и экономическую эффективность децентрализованного подхода.
Почему INTELLECT-1 интересен?
1. Участникам не нужно тратить миллионы долларов на единую инфраструктуру.
2. Проект ориентирован на открытое сообщество и ценит коллективную ответственность при решении этических вопросов. Такая модель может стать основой для будущего AGI.
3. Каждый получает вознаграждение пропорционально предоставленным вычислительным мощностям.
Блокчейн добавляет новый уровень. Теоретически можно создать гигантскую сеть в форме ДАО (децентрализованной автономной организации), объединяющую GPU-фермы в единый «убер-кластер» без головной компании-владельца.
Так появилась AIArena — децентрализованная блокчейн-платформа для обучения ИИ. За семь месяцев она привлекла 603 узла, которые создали 18 656 моделей для 16 задач. Эти модели оказались эффективнее базовых, а механизм консенсуса в блокчейне обеспечил справедливое вознаграждение каждому участнику исходя из его вклада.
Разумеется, в децентрализованном обучении остаются нерешенные вопросы: например, как корректно синхронизировать множество узлов или что делать с «мусорными» данными отдельных участников. Однако эти проблемы в целом решаемы.
Объединив тысячи научных лабораторий, владельцев GPU-ферм и даже геймеров можно обучить большую модель без контроля корпораций. Снижая зависимость от дорогих дата-центров, ИИ-технологии становятся более доступными. И хотя децентрализованный ИИ еще не доминирует, он уже становится реальной альтернативой.
Возможно, через несколько лет громоздкие GPU-кластеры в одном здании будут казаться архаизмом. Но кто станет лидером в эпоху децентрализованных суперкомпьютеров? Думаю появятся новые децентрализованные проекты, которые станут серьезным вызовом для текущих бизнес-моделей крупных технологических компаний.
Не пора ли нам объединиться и покончить с монополией бигтеха?
#технологии
MIT Media Lab
Project Overview ‹ Decentralized AI – MIT Media Lab
As AI evolves beyond screen assistants and into dimensional applications, decentralization emerges as the critical factor for unlocking its full potential.In…
Media is too big
VIEW IN TELEGRAM
Prime Intellect обучили INTELLECT-1 на 14 узлах, распределенных по трем континентам, с участием 30 независимых членов сообщества, предоставляющих вычислительные ресурсы.
Код обучения использует фреймворк Prime, масштабируемую распределенную систему для отказоустойчивого и высокопроизводительного обучения на ненадежных, глобально распределенных рабочих узлах.
Модель была обучена с использованием метода DiLoCo (Distributed Low-Communication Training). Судя по бенчмаркам, она оказалась в среднем примерно на уровне Llama 2 7B, но есть модели получше (Llama 3.1, Qwen 2.5), поэтому вряд ли кто-то будет ее использовать. Но все же для первого децентрализованного обучения такого масштаба результаты отличные.
В будущем Prime Intellect планируют расширить масштабы обучения, оптимизировать стек и добавить финансовую мотивацию для сообщества
🕹Демо
🕸Веса
📝Технический отчет
#технологии
Код обучения использует фреймворк Prime, масштабируемую распределенную систему для отказоустойчивого и высокопроизводительного обучения на ненадежных, глобально распределенных рабочих узлах.
Модель была обучена с использованием метода DiLoCo (Distributed Low-Communication Training). Судя по бенчмаркам, она оказалась в среднем примерно на уровне Llama 2 7B, но есть модели получше (Llama 3.1, Qwen 2.5), поэтому вряд ли кто-то будет ее использовать. Но все же для первого децентрализованного обучения такого масштаба результаты отличные.
В будущем Prime Intellect планируют расширить масштабы обучения, оптимизировать стек и добавить финансовую мотивацию для сообщества
🕹Демо
🕸Веса
📝Технический отчет
#технологии
Технологический баттл: OpenAI o3-mini против DeepSeek-R1
OpenAI выпустила o3-mini — усовершенствованную и более экономичную модель для решения сложных задач в математике, науке и программировании. Модель уже доступна в ChatGPT (включая бесплатную версию) и через API.
Основные улучшения:
• Ускоренное вычисление и сниженная цена. По оценкам OpenAI, o3-mini на 24% быстрее предшественницы o1-mini и обходится дешевле примерно на 63%. Это делает новую модель более выгодной в использовании, учитывая ее высокие «когнитивные» способности.
• Глубина рассуждений. Впервые в линейке рассуждающих моделей OpenAI реализовала три уровня сложности рассуждений — низкий, средний и высокий. В зависимости от уровня запроса и требуемой точности разработчик может либо сэкономить на токенах и времени отклика, либо максимально усилить логику решения.
• Математика и код. По внутренним тестам o3-mini на среднем уровне рассуждений практически не уступает модели o1 при решении олимпиадной математики (например, AIME) и задач на код (Codeforces, SWE-Bench). При высоком уровне рассуждений o3-mini порой превосходит o1, но с чуть большей задержкой (на AIME точность o3-mini — около 83,6%, опережая o1). В задачах соревновательного программирования (Codeforces) o3-mini с высоким уровнем рассуждений достигает 2073 Elo и заметно превосходит o1-mini.
• Безопасность. Разработчики добавили механизм обоснованного соответствия (deliberative alignment), при котором модель явно анализирует инструкции по безопасности перед выдачей ответа. Это повышает устойчивость к «jailbreak»-атакам.
Модель o3-mini в среднем быстрее и дешевле, чем o1, сохраняя при этом близкий уровень точности в STEM-задачах (задачи из науки, технологий, инжиниринга и математике), а опция выбора уровня рассуждений дает возможность адаптировать модель под конкретную загрузку и качество вывода. Для стандартных бытовых запросов o1 может быть избыточен, тогда как o3-mini medium покрывает большинство типовых задач. Также в ChatGPT для o3-mini появилась экспериментальная функция поиска в интернете для уточнения ответов.
В сравнении с DeepSeek-R1, o3-mini заметно дороже (около $0.14 за миллион входных токенов у R1 против $1.10 у o3-mini), также R1 имеет открытую лицензию MIT. Это делает R1 привлекательным для исследователей и команд, которым важна кастомизация и локальное размещение.
Сравним модели o3-mini и R1 по нескольким бенчмаркам:
• AIME (генерация кода): победитель o3-mini-high с 87.3% (R1 имеет 79.8%)
• GPQA (набор из 448 вопросов по биологии, физике и химии уровня PhD): победитель o3-mini-high с 79.7% (R1 имеет 71.5%)
• Codeforces (соревновательное программирование): победитель o3-mini-high с 2130 (R1 имеет 2029)
• SWE (инженерные задачи): победитель o3-mini-high с 49.3% (R1 имеет 49.2%)
• MMLU (задачи на понимание языка): победитель DeepSeek R1 с 90.8% (o3-mini-high имеет 86.9%)
• Math (математические задачи): победитель o3-mini-high с 97.9% (R1 имеет 97.3%)
• SimpleQA (простые вопросы и ответы): победитель: DeepSeek R1 с 30.1% (o3-mini-high имеет 13.8%)
Итого o3 с высоким уровнем рассуждений выигрывает DeepSeek-R1 в пяти из семи бенчмарков.
Однако DeepSeek-R1 является значительно менее безопасной по сравнению с o3-mini в тесте ASTRAL. DeepSeek-R1 дала небезопасный ответ на 11,98% выполненных запросов, в то время как o3-mini — лишь на 1,19%.
Выбор между моделями зависит от конкретных потребностей: для глубокого анализа с прозрачностью рассуждений R1 может быть привлекательнее, в то время как для стабильных, масштабируемых решений в продакшене o3-mini выглядит более оптимальным вариантом.
#новости
OpenAI выпустила o3-mini — усовершенствованную и более экономичную модель для решения сложных задач в математике, науке и программировании. Модель уже доступна в ChatGPT (включая бесплатную версию) и через API.
Основные улучшения:
• Ускоренное вычисление и сниженная цена. По оценкам OpenAI, o3-mini на 24% быстрее предшественницы o1-mini и обходится дешевле примерно на 63%. Это делает новую модель более выгодной в использовании, учитывая ее высокие «когнитивные» способности.
• Глубина рассуждений. Впервые в линейке рассуждающих моделей OpenAI реализовала три уровня сложности рассуждений — низкий, средний и высокий. В зависимости от уровня запроса и требуемой точности разработчик может либо сэкономить на токенах и времени отклика, либо максимально усилить логику решения.
• Математика и код. По внутренним тестам o3-mini на среднем уровне рассуждений практически не уступает модели o1 при решении олимпиадной математики (например, AIME) и задач на код (Codeforces, SWE-Bench). При высоком уровне рассуждений o3-mini порой превосходит o1, но с чуть большей задержкой (на AIME точность o3-mini — около 83,6%, опережая o1). В задачах соревновательного программирования (Codeforces) o3-mini с высоким уровнем рассуждений достигает 2073 Elo и заметно превосходит o1-mini.
• Безопасность. Разработчики добавили механизм обоснованного соответствия (deliberative alignment), при котором модель явно анализирует инструкции по безопасности перед выдачей ответа. Это повышает устойчивость к «jailbreak»-атакам.
Модель o3-mini в среднем быстрее и дешевле, чем o1, сохраняя при этом близкий уровень точности в STEM-задачах (задачи из науки, технологий, инжиниринга и математике), а опция выбора уровня рассуждений дает возможность адаптировать модель под конкретную загрузку и качество вывода. Для стандартных бытовых запросов o1 может быть избыточен, тогда как o3-mini medium покрывает большинство типовых задач. Также в ChatGPT для o3-mini появилась экспериментальная функция поиска в интернете для уточнения ответов.
В сравнении с DeepSeek-R1, o3-mini заметно дороже (около $0.14 за миллион входных токенов у R1 против $1.10 у o3-mini), также R1 имеет открытую лицензию MIT. Это делает R1 привлекательным для исследователей и команд, которым важна кастомизация и локальное размещение.
Сравним модели o3-mini и R1 по нескольким бенчмаркам:
• AIME (генерация кода): победитель o3-mini-high с 87.3% (R1 имеет 79.8%)
• GPQA (набор из 448 вопросов по биологии, физике и химии уровня PhD): победитель o3-mini-high с 79.7% (R1 имеет 71.5%)
• Codeforces (соревновательное программирование): победитель o3-mini-high с 2130 (R1 имеет 2029)
• SWE (инженерные задачи): победитель o3-mini-high с 49.3% (R1 имеет 49.2%)
• MMLU (задачи на понимание языка): победитель DeepSeek R1 с 90.8% (o3-mini-high имеет 86.9%)
• Math (математические задачи): победитель o3-mini-high с 97.9% (R1 имеет 97.3%)
• SimpleQA (простые вопросы и ответы): победитель: DeepSeek R1 с 30.1% (o3-mini-high имеет 13.8%)
Итого o3 с высоким уровнем рассуждений выигрывает DeepSeek-R1 в пяти из семи бенчмарков.
Однако DeepSeek-R1 является значительно менее безопасной по сравнению с o3-mini в тесте ASTRAL. DeepSeek-R1 дала небезопасный ответ на 11,98% выполненных запросов, в то время как o3-mini — лишь на 1,19%.
Выбор между моделями зависит от конкретных потребностей: для глубокого анализа с прозрачностью рассуждений R1 может быть привлекательнее, в то время как для стабильных, масштабируемых решений в продакшене o3-mini выглядит более оптимальным вариантом.
#новости
Openai
OpenAI o3-mini
Pushing the frontier of cost-effective reasoning.
Deep Research от OpenAI: Прорыв в автоматизации глубоких исследований
Вчера OpenAI представила Deep Research – автономного ИИ-агента, способного самостоятельно проводить многоступенчатые исследования в интернете. Deep Research доступен в тарифе Pro с 100 запросами в месяц.
В отличие от обычных поисковых систем, которые возвращают короткие ответы или ссылки за считанные секунды, Deep Research «рассуждает» до 30 минут, проводя глубокий анализ сотен источников, агрегируя данные и синтезируя их в единую, детально задокументированную работу. Такой подход, в теории, позволяет системе выдавать отчеты, сопоставимые по качеству с результатами труда профессионального аналитика.
В основе работы Deep Research лежит принцип автономного планирования исследования. Пользователь вводит запрос, после чего система задает уточняющие вопросы для сбора необходимых деталей. Это позволяет агенту точно понять задачу и разработать план поиска.
После утверждения плана Deep Research последовательно проводит поиск по сотням сайтов, просматривает текст, изображения и PDF-файлы, анализирует и агрегирует найденные данные, а в итоге синтезирует информацию в виде структурированного отчета со ссылками и цитатами. Такой подход кардинально отличается от обычного поиска, где выдача основывается лишь на ранжировании ссылок без детального анализа содержимого и контекста.
Deep Research сочетает в себе возможности веб-браузинга, выполнения Python-скриптов для численного анализа и создания визуализаций, а также анализа прикрепленных пользователем файлов. Это позволяет агенту находить нужные данные, обрабатывать их, строить графики и таблицы, что значительно повышает качество итогового отчета.
Помимо конечного результата, пользователю доступен «сайдбар», в котором отображается цепочка рассуждений агента. Такой уровень прозрачности помогает в фактчекинге.
В тесте Humanity’s Last Exam (более 3 000 вопросов от лингвистики до ракетостроения), Deep Research показал точность 26,6 %. Для сравнения, модели, такие как Grok-2 и GPT-4o, набрали всего 3,8 % и 3,3 % соответственно, а конкурирующая модель Gemini Thinking – 6,2 %. Впечатляющий прогресс.
Вспомните недавний релиз Оператора для выполнения рутинных действий в браузере от OpenAI. Сейчас компания фокусируется на развитии основных агентов, применяемых в практических задачах. Deep Research, Operator и будущие специализированные агенты будут интегрированы в единую мультиагентную систему.
Неужели OpenAI готовят продвинутого агента-программиста, способного самостоятельно обучать ИИ-модели?
Если все эти агенты объединятся в мультиагентную систему, которая сможет проводить исследования, писать код и действовать в интернете как единое целое, мы, возможно, увидим первые признаки общего ИИ (AGI).
Это будет система, способная самостоятельно обучаться, открывать новые знания и действовать в самых разнообразных сферах жизни, а главное, по версии Microsoft, – автономно зарабатывать миллиарды долларов.
Конечно, всем агентам придется пройти «путь становления» по отдельности, но, судя по дорожной карте AGI от OpenAI, Оператор будет «пробивать» третий уровень (автономность), а Deep Research четвертый (инновационность), останется последний (организованность).
Поэтому Deep Research – это не просто инструмент для поиска информации, а фундаментальный шаг к созданию автономных ИИ-агентов, которые могут вывести качество исследований на новый уровень.
Остается только ожидать более массовое появление воплощенных (embodied) агентов, которые будут искать и анализировать информацию не только в интернете, но и в реальном мире в форме роботов.
Этот год для ИИ-агентов обещает быть жарким.
#новости
Вчера OpenAI представила Deep Research – автономного ИИ-агента, способного самостоятельно проводить многоступенчатые исследования в интернете. Deep Research доступен в тарифе Pro с 100 запросами в месяц.
В отличие от обычных поисковых систем, которые возвращают короткие ответы или ссылки за считанные секунды, Deep Research «рассуждает» до 30 минут, проводя глубокий анализ сотен источников, агрегируя данные и синтезируя их в единую, детально задокументированную работу. Такой подход, в теории, позволяет системе выдавать отчеты, сопоставимые по качеству с результатами труда профессионального аналитика.
В основе работы Deep Research лежит принцип автономного планирования исследования. Пользователь вводит запрос, после чего система задает уточняющие вопросы для сбора необходимых деталей. Это позволяет агенту точно понять задачу и разработать план поиска.
После утверждения плана Deep Research последовательно проводит поиск по сотням сайтов, просматривает текст, изображения и PDF-файлы, анализирует и агрегирует найденные данные, а в итоге синтезирует информацию в виде структурированного отчета со ссылками и цитатами. Такой подход кардинально отличается от обычного поиска, где выдача основывается лишь на ранжировании ссылок без детального анализа содержимого и контекста.
Deep Research сочетает в себе возможности веб-браузинга, выполнения Python-скриптов для численного анализа и создания визуализаций, а также анализа прикрепленных пользователем файлов. Это позволяет агенту находить нужные данные, обрабатывать их, строить графики и таблицы, что значительно повышает качество итогового отчета.
Помимо конечного результата, пользователю доступен «сайдбар», в котором отображается цепочка рассуждений агента. Такой уровень прозрачности помогает в фактчекинге.
В тесте Humanity’s Last Exam (более 3 000 вопросов от лингвистики до ракетостроения), Deep Research показал точность 26,6 %. Для сравнения, модели, такие как Grok-2 и GPT-4o, набрали всего 3,8 % и 3,3 % соответственно, а конкурирующая модель Gemini Thinking – 6,2 %. Впечатляющий прогресс.
Вспомните недавний релиз Оператора для выполнения рутинных действий в браузере от OpenAI. Сейчас компания фокусируется на развитии основных агентов, применяемых в практических задачах. Deep Research, Operator и будущие специализированные агенты будут интегрированы в единую мультиагентную систему.
Неужели OpenAI готовят продвинутого агента-программиста, способного самостоятельно обучать ИИ-модели?
Если все эти агенты объединятся в мультиагентную систему, которая сможет проводить исследования, писать код и действовать в интернете как единое целое, мы, возможно, увидим первые признаки общего ИИ (AGI).
Это будет система, способная самостоятельно обучаться, открывать новые знания и действовать в самых разнообразных сферах жизни, а главное, по версии Microsoft, – автономно зарабатывать миллиарды долларов.
Конечно, всем агентам придется пройти «путь становления» по отдельности, но, судя по дорожной карте AGI от OpenAI, Оператор будет «пробивать» третий уровень (автономность), а Deep Research четвертый (инновационность), останется последний (организованность).
Поэтому Deep Research – это не просто инструмент для поиска информации, а фундаментальный шаг к созданию автономных ИИ-агентов, которые могут вывести качество исследований на новый уровень.
Остается только ожидать более массовое появление воплощенных (embodied) агентов, которые будут искать и анализировать информацию не только в интернете, но и в реальном мире в форме роботов.
Этот год для ИИ-агентов обещает быть жарким.
#новости
Openai
Introducing deep research
An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you. Available to Pro users today, Plus and Team next.