Привет! Меня зовут Андрей, я технологический предприниматель в сфере искусственного интеллекта (ИИ).
Я обладаю обширными знаниями в области ИИ, а также богатым практическим опытом разработки ИИ-продуктов любой сложности и их вывода на международный рынок. Если вам нужно запустить ИИ-стартап с нуля или внедрить ИИ в процессы вашей компании, я готов помочь. В моей команде работают профессионалы, увлеченные решением сложных задач: от интеллектуального анализа данных до разработки цифровых двойников и обучения беспилотных автомобилей.
В этом блоге я делюсь своими кейсами, простыми словами объясняю сложные технологические аспекты работы ИИ-продуктов, комментирую актуальные новости индустрии, делюсь своим мнением и видением будущего технологий, а также даю практические советы по созданию успешных ИИ-стартапов.
Коротко обо мне:
• Выпускник Вышки;
• Ex-Data Engineer в Accenture;
• Ex-Chief Data Officer в Сбере;
• Ex-Chief Data Scientist в Сбере;
• Ex-Куратор национальных проектов в области ИИ;
• Ex-Chief Technology Officer в венчурной студии для ИИ-стартапов;
• Сооснователь и CTO в Pygma AI;
• Создаю ИИ-сотрудников для автоматизации рутины;
• Консультирую ИИ-стартапы и технологические компании.
История моего пути
О моей компании
Узнать больше о моей компании можно по ссылке
Мои проекты:
Pygma AI - ИИ-ассистент для соцсетей;
Dataist AI - ИИ-ассистент для исследователей;
Landao AI - ИИ-коуч по счастью.
#обо_мне - о моем пути;
#технологии - анализирую текущие тренды;
#кейсы - делюсь своим опытом;
#мысли - размышляю о технологиях;
#новости - только самое интересное;
#исследования- обзор статей об ИИ;
#анонс - анонсы о событиях и релизах.
Присоединяйтесь, будет интересно!
Я обладаю обширными знаниями в области ИИ, а также богатым практическим опытом разработки ИИ-продуктов любой сложности и их вывода на международный рынок. Если вам нужно запустить ИИ-стартап с нуля или внедрить ИИ в процессы вашей компании, я готов помочь. В моей команде работают профессионалы, увлеченные решением сложных задач: от интеллектуального анализа данных до разработки цифровых двойников и обучения беспилотных автомобилей.
В этом блоге я делюсь своими кейсами, простыми словами объясняю сложные технологические аспекты работы ИИ-продуктов, комментирую актуальные новости индустрии, делюсь своим мнением и видением будущего технологий, а также даю практические советы по созданию успешных ИИ-стартапов.
Коротко обо мне:
• Выпускник Вышки;
• Ex-Data Engineer в Accenture;
• Ex-Chief Data Officer в Сбере;
• Ex-Chief Data Scientist в Сбере;
• Ex-Куратор национальных проектов в области ИИ;
• Ex-Chief Technology Officer в венчурной студии для ИИ-стартапов;
• Сооснователь и CTO в Pygma AI;
• Создаю ИИ-сотрудников для автоматизации рутины;
• Консультирую ИИ-стартапы и технологические компании.
История моего пути
О моей компании
Узнать больше о моей компании можно по ссылке
Мои проекты:
Pygma AI - ИИ-ассистент для соцсетей;
Dataist AI - ИИ-ассистент для исследователей;
Landao AI - ИИ-коуч по счастью.
#обо_мне - о моем пути;
#технологии - анализирую текущие тренды;
#кейсы - делюсь своим опытом;
#мысли - размышляю о технологиях;
#новости - только самое интересное;
#исследования- обзор статей об ИИ;
#анонс - анонсы о событиях и релизах.
Присоединяйтесь, будет интересно!
⚡️OpenAI выпустили новую модель o1-preview!
OpenAI o1 — это новая LLM, специально обученная для выполнения сложных задач с помощью RL (reinforcement learning). Главная особенность — способность «думать перед тем, как ответить», благодаря чему она генерирует внутреннюю цепочку рассуждений (Chain-of-Thoughts) перед выдачей результата. Это позволяет модели лучше решать задачи, связанные с логикой, программированием и наукой.
Основные характеристики:
• 89-й перцентиль на задачах программирования (Codeforces);
• Успешно решает 73% задач на уровне кандидатов наук по физике, биологии и химии;
• Входит в число 500 лучших участников на отборе в Олимпиаду по математике в США (AIME);
• Модель o1-preview уже доступна в ChatGPT и через API для избранных пользователей.
Ключевые особенности:
• Прогрессивное мышление: модель использует «цепочку рассуждений» для поэтапного решения сложных вопросов, что улучшает качество выводов и позволяет эффективно исправлять ошибки.
• Повышенная точность: по сравнению с GPT-4o, модель o1 показывает значительно лучшие результаты в задачах с высокими требованиями к логическому мышлению — в 7-8 раз лучше в математике и на 15% точнее в науках, таких как физика и химия.
• Новая парадигма: теперь важно не только как много данных и ресурсов используется для обучения, но и сколько времени модель тратит на размышления.
• Рефлексия и самокритика: модель умеет «думать вслух» и анализировать свои ответы, что существенно повышает ее способность к самокоррекции.
В будущем OpenAI планирует значительно ускорить и удешевить модель, делая ее доступной для широкой аудитории.
Думаю, OpenAI o1 станет важной вехой в развитии ИИ благодаря способности размышлять, что кардинально меняет подход к использованию языковых моделей. Ранее нам приходилось использовать подход Chain-of-Thought самостоятельно, но теперь это делают за нас.
Возможно, скоро нас ждет интеграция и других методов рассуждений (Tree-of-Thoughts, Graph-of-Thoughts и т.д.), что позволит решать еще более сложные логические задачи.
#новости
OpenAI o1 — это новая LLM, специально обученная для выполнения сложных задач с помощью RL (reinforcement learning). Главная особенность — способность «думать перед тем, как ответить», благодаря чему она генерирует внутреннюю цепочку рассуждений (Chain-of-Thoughts) перед выдачей результата. Это позволяет модели лучше решать задачи, связанные с логикой, программированием и наукой.
Основные характеристики:
• 89-й перцентиль на задачах программирования (Codeforces);
• Успешно решает 73% задач на уровне кандидатов наук по физике, биологии и химии;
• Входит в число 500 лучших участников на отборе в Олимпиаду по математике в США (AIME);
• Модель o1-preview уже доступна в ChatGPT и через API для избранных пользователей.
Ключевые особенности:
• Прогрессивное мышление: модель использует «цепочку рассуждений» для поэтапного решения сложных вопросов, что улучшает качество выводов и позволяет эффективно исправлять ошибки.
• Повышенная точность: по сравнению с GPT-4o, модель o1 показывает значительно лучшие результаты в задачах с высокими требованиями к логическому мышлению — в 7-8 раз лучше в математике и на 15% точнее в науках, таких как физика и химия.
• Новая парадигма: теперь важно не только как много данных и ресурсов используется для обучения, но и сколько времени модель тратит на размышления.
• Рефлексия и самокритика: модель умеет «думать вслух» и анализировать свои ответы, что существенно повышает ее способность к самокоррекции.
В будущем OpenAI планирует значительно ускорить и удешевить модель, делая ее доступной для широкой аудитории.
Думаю, OpenAI o1 станет важной вехой в развитии ИИ благодаря способности размышлять, что кардинально меняет подход к использованию языковых моделей. Ранее нам приходилось использовать подход Chain-of-Thought самостоятельно, но теперь это делают за нас.
Возможно, скоро нас ждет интеграция и других методов рассуждений (Tree-of-Thoughts, Graph-of-Thoughts и т.д.), что позволит решать еще более сложные логические задачи.
#новости
Openai
Learning to reason with LLMs
We are introducing OpenAI o1, a new large language model trained with reinforcement learning to perform complex reasoning. o1 thinks before it answers—it can produce a long internal chain of thought before responding to the user.
Будущее OpenAI: что ждет компанию после ухода технического директора
Не успела OpenAI представить нового голосового ассистента, способного адаптироваться к эмоциям пользователя, как объявила о своем уходе Мира Мурати, технический директор компании. Она занимала свою должность более шести лет и отвечала за техническое руководство компанией, а также за внедрение инноваций. Во многом именно благодаря ей OpenAI стала той компанией, которую мы все знаем.
Кроме чисто технических аспектов, Мурати также занималась стратегическим планированием и построением партнерских отношений с другими компаниями и организациями.
Ее уход может серьезно повлиять как на темпы, так и на направления развития компании. Будущее OpenAI будет во многом зависеть от того, как руководство справится с текущими изменениями и продолжит инновации в быстроразвивающейся и очень конкурентной индустрии ИИ.
Не пытаясь гадать о причинах ухода Мурати, скажу, что хорошо понимаю, с какими вызовами ей приходилось справляться ежедневно. OpenAI прямо сейчас необходимо решить множество проблем: для обучения более мощной модели требуется огромная инфраструктура, что-то нужно делать с вопросами безопасности и соответствия модели морально-этическим нормам. Под сомнением находится прозрачность источников данных — например, когда журналист спросил, откуда берутся данные для обучения SORA, Мира аккуратно ушла от ответа.
А впереди маячит следующая глобальная задача — обучение GPT-5, и там все эти проблемы снова встанут во весь рост.
Впрочем, инвесторы продолжают предлагать OpenAI больше денег, чем компания готова принять: если верить Bloomberg, компания вскоре получит еще 6,5 миллиардов долларов.
#новости
Не успела OpenAI представить нового голосового ассистента, способного адаптироваться к эмоциям пользователя, как объявила о своем уходе Мира Мурати, технический директор компании. Она занимала свою должность более шести лет и отвечала за техническое руководство компанией, а также за внедрение инноваций. Во многом именно благодаря ей OpenAI стала той компанией, которую мы все знаем.
Кроме чисто технических аспектов, Мурати также занималась стратегическим планированием и построением партнерских отношений с другими компаниями и организациями.
Ее уход может серьезно повлиять как на темпы, так и на направления развития компании. Будущее OpenAI будет во многом зависеть от того, как руководство справится с текущими изменениями и продолжит инновации в быстроразвивающейся и очень конкурентной индустрии ИИ.
Не пытаясь гадать о причинах ухода Мурати, скажу, что хорошо понимаю, с какими вызовами ей приходилось справляться ежедневно. OpenAI прямо сейчас необходимо решить множество проблем: для обучения более мощной модели требуется огромная инфраструктура, что-то нужно делать с вопросами безопасности и соответствия модели морально-этическим нормам. Под сомнением находится прозрачность источников данных — например, когда журналист спросил, откуда берутся данные для обучения SORA, Мира аккуратно ушла от ответа.
А впереди маячит следующая глобальная задача — обучение GPT-5, и там все эти проблемы снова встанут во весь рост.
Впрочем, инвесторы продолжают предлагать OpenAI больше денег, чем компания готова принять: если верить Bloomberg, компания вскоре получит еще 6,5 миллиардов долларов.
#новости
the Guardian
OpenAI CTO Mira Murati says she’s leaving firm to do her ‘own exploration’
Chief technology officer had taken over the ChatGPT maker when its board ousted CEO Sam Altman in November
От видеоигр к Нобелевской премии по химии
Хотел бы поговорить о Нобелевской премии по химии, которую в этом году получили Дэвид Бейкер, Демис Хассабис и Джон Джампер.
Отдавая дань таланту профессора Бейкера, который вместе со своей командой создает новые, не существовавшие ранее белки, способные найти применение в разработке лекарств, вакцин, наноматериалов и миниатюрных датчиков, я бы хотел более подробно остановиться на Демисе Хассабисе.
Многие старые геймеры помнят его по работе с Питером Молинье над Theme Park и Black&White, а затем, уже в собственной студии Elixir, над Evil Genius.
Когда ему надоел геймдев, он решил всерьез заняться проблемой искусственного интеллекта и в 2010 году создал компанию DeepMind. В 2014 году ее купил Google, а в 2016 разработанная ей программа AlphaGo обыграла Ли Седоля, чемпиона мира по го.
Затем в 2019 году его же проект AlphaStar вошел в топ-200 игроков в Starcraft 2 в мире.
Именно на основе AlphaStar была разработана программа AlphaFold и затем AlphaFold2, за которую Хассабис получил Нобелевку. Эта система научилась предсказывать структуру белков с высокой точностью, решив задачу, над которой ученые бились с 1970-х годов, так что важность этого открытия трудно переоценить, как и вклад ИИ, который, впрочем, специально для этого был спроектирован человеком.
Интеграция искусственного интеллекта в научные исследования демонстрирует, как современные технологии могут ускорить прогресс в понимании фундаментальных биологических процессов. Как сказал Архимед: «Дайте мне точку опоры, и я переверну Землю!».
Конечно, одной лишь точки опоры тут мало, нужен еще достаточной длины рычаг. Для современных ученых искусственный интеллект становится таким рычагом, позволяющим двигать науку вперед с невиданной ранее скоростью.
#новости
Хотел бы поговорить о Нобелевской премии по химии, которую в этом году получили Дэвид Бейкер, Демис Хассабис и Джон Джампер.
Отдавая дань таланту профессора Бейкера, который вместе со своей командой создает новые, не существовавшие ранее белки, способные найти применение в разработке лекарств, вакцин, наноматериалов и миниатюрных датчиков, я бы хотел более подробно остановиться на Демисе Хассабисе.
Многие старые геймеры помнят его по работе с Питером Молинье над Theme Park и Black&White, а затем, уже в собственной студии Elixir, над Evil Genius.
Когда ему надоел геймдев, он решил всерьез заняться проблемой искусственного интеллекта и в 2010 году создал компанию DeepMind. В 2014 году ее купил Google, а в 2016 разработанная ей программа AlphaGo обыграла Ли Седоля, чемпиона мира по го.
Затем в 2019 году его же проект AlphaStar вошел в топ-200 игроков в Starcraft 2 в мире.
Именно на основе AlphaStar была разработана программа AlphaFold и затем AlphaFold2, за которую Хассабис получил Нобелевку. Эта система научилась предсказывать структуру белков с высокой точностью, решив задачу, над которой ученые бились с 1970-х годов, так что важность этого открытия трудно переоценить, как и вклад ИИ, который, впрочем, специально для этого был спроектирован человеком.
Интеграция искусственного интеллекта в научные исследования демонстрирует, как современные технологии могут ускорить прогресс в понимании фундаментальных биологических процессов. Как сказал Архимед: «Дайте мне точку опоры, и я переверну Землю!».
Конечно, одной лишь точки опоры тут мало, нужен еще достаточной длины рычаг. Для современных ученых искусственный интеллект становится таким рычагом, позволяющим двигать науку вперед с невиданной ранее скоростью.
#новости
BBC News Русская служба
Нобелевскую премию по химии присудили за изучение структур белков. Ее получили Дэвид Бейкер, Демис Хассабис и Джон Джампер
Лауреатами Нобелевской премии по химии 2024 года стали ученые Дэвид Бейкер, Демис Хассабис и Джон Джампер. Премия присуждена за изучение структур белков.
This media is not supported in your browser
VIEW IN TELEGRAM
У Google появился новый конкурент: OpenAI запускает умный поиск в ChatGPT
Это было ожидаемо, и вот это случилось. Теперь ChatGPT может сообщать последние новости, прогнозы погоды, курсы акций, спортивные результаты и многое другое прямо в режиме диалога. Более того, ChatGPT дает ссылки на надёжные источники, а поиск можно активировать вручную.
Новая функция уже доступна пользователям подписки Plus и Team вместе с расширением для Chrome, в ближайшие недели она станет доступна для Enterprise и Edu пользователей, а в течение следующих месяцев — для всех остальных.
Я уже протестировал новую функцию поиска. Пока она не дотягивает до Perplexity AI, но направление явно правильное. С добавлением возможностей моделей o1 и улучшенного понимания запросов, ChatGPT становится серьезным конкурентом для Perplexity AI. Интересно, что Perplexity AI ответит на это?
Google же давно перестал быть просто поисковиком, превратившись в целую экосистему сервисов. Кроме того, Google активно внедряет ИИ в свой поиск, позволяя формулировать более сложные запросы и получать более персонализированные ответы. Эта функция была экспериментально запущена недавно для некоторых стран, но делать выводы пока рано.
Мы в режиме реального времени наблюдаем, как ИИ-технологии меняют интернет-поиск, и видим масштабную гонку между поисковыми сервисами. Думаю, в этой гонке не будет явных победителей и проигравших: рынок скорее всего определит нишу для каждого игрока.
#новости
Это было ожидаемо, и вот это случилось. Теперь ChatGPT может сообщать последние новости, прогнозы погоды, курсы акций, спортивные результаты и многое другое прямо в режиме диалога. Более того, ChatGPT дает ссылки на надёжные источники, а поиск можно активировать вручную.
Новая функция уже доступна пользователям подписки Plus и Team вместе с расширением для Chrome, в ближайшие недели она станет доступна для Enterprise и Edu пользователей, а в течение следующих месяцев — для всех остальных.
Я уже протестировал новую функцию поиска. Пока она не дотягивает до Perplexity AI, но направление явно правильное. С добавлением возможностей моделей o1 и улучшенного понимания запросов, ChatGPT становится серьезным конкурентом для Perplexity AI. Интересно, что Perplexity AI ответит на это?
Google же давно перестал быть просто поисковиком, превратившись в целую экосистему сервисов. Кроме того, Google активно внедряет ИИ в свой поиск, позволяя формулировать более сложные запросы и получать более персонализированные ответы. Эта функция была экспериментально запущена недавно для некоторых стран, но делать выводы пока рано.
Мы в режиме реального времени наблюдаем, как ИИ-технологии меняют интернет-поиск, и видим масштабную гонку между поисковыми сервисами. Думаю, в этой гонке не будет явных победителей и проигравших: рынок скорее всего определит нишу для каждого игрока.
#новости
Первая в мире виртуальная лаборатория с ИИ-учеными
В современном мире скорость научных открытий во многом определяется способностью объединять знания из различных дисциплин. Однако создание междисциплинарных команд часто сталкивается с финансовыми и организационными препятствиями. Представьте себе мир, где ИИ не просто отвечает на вопросы, но и способен самостоятельно вести сложные научные исследования. Сегодня это становится реальностью.
Недавно группа исследователей из Стэнфордского университета и Chan Zuckerberg Biohub (организация Марка Цукерберга и его супруги) представила виртуальную лабораторию, направленную на проведение сложных, междисциплинарных научных исследований. Эта система позволяет одному человеку управлять командой виртуальных ИИ-агентов, каждый из которых обладает специализированными знаниями в своей области — от биологии до информатики.
В основе виртуальной лаборатории лежит архитектура, где человек-исследователь выступает в роли руководителя, а ИИ-агенты выполняют роль исследователей с разной экспертизой. Главный ИИ-агент, называемый Principal Investigator (PI), координирует работу команды, ставит задачи и обобщает результаты. Каждый ИИ-агент получает четко определенную роль, цель и область экспертизы, что позволяет им эффективно взаимодействовать и дополнять друг друга.
В процессе работы Виртуальная лаборатория проводит как командные, так и индивидуальные встречи. На командных встречах агенты обсуждают общие направления исследований, делятся идеями и предлагают решения. Индивидуальные встречи позволяют агентам сосредоточиться на конкретных задачах, таких как написание кода или анализ данных, получая при необходимости обратную связь от других агентов.
Чтобы продемонстрировать возможности Виртуальной лаборатории, исследователи поставили перед ней сложную и актуальную задачу: разработать новые нанотела, способные эффективно связываться с новейшими вариантами вируса SARS-CoV-2.
Виртуальная лаборатория самостоятельно:
- Определила стратегию исследования, решив модифицировать существующие нанотела вместо создания новых с нуля;
- Выбрала наиболее перспективные исходные нанотела для модификации;
- Подобрала и интегрировала передовые инструменты для работы: ESM для оценки мутаций, AlphaFold-Multimer для предсказания структуры белков и Rosetta для расчета энергии связывания;
- Разработала алгоритм, который в несколько раундов улучшал нанотела, выбирая наиболее перспективные мутации на каждом этапе.
В результате было создано 92 новых варианта нанотел. Эксперимент показал, что более 90% из них были функциональны и могли эффективно связываться с белком-мишенью. Особенно выделились два нанотела, которые продемонстрировали сильное связывание с новыми вариантами вируса, сохраняя при этом эффективность против исходного штамма.
Это открывает для нас новые горизонты:
- Виртуальные ИИ-команды могут проводить сложные исследования в разы быстрее, чем традиционные группы ученых;
- Даже небольшие организации без широкого доступа к узким специалистам могут решать междисциплинарные задачи;
- Снижаются затраты на работу больших исследовательских команд.
Сегодня ИИ не просто инструмент для автоматизации рутинных процессов, а полноценный участник исследовательской команды, способный генерировать новые идеи и находить нестандартные решения.
В дорожной карте AGI от OpenAI четвертым уровнем фигурируют “Инноваторы” - ИИ-агенты, способные самостоятельно разрабатывать инновации.
Возникает вопрос: означает ли это, что мы уже достигли этого уровня и близки к пятому, финальному этапу перед созданием AGI?
#новости
В современном мире скорость научных открытий во многом определяется способностью объединять знания из различных дисциплин. Однако создание междисциплинарных команд часто сталкивается с финансовыми и организационными препятствиями. Представьте себе мир, где ИИ не просто отвечает на вопросы, но и способен самостоятельно вести сложные научные исследования. Сегодня это становится реальностью.
Недавно группа исследователей из Стэнфордского университета и Chan Zuckerberg Biohub (организация Марка Цукерберга и его супруги) представила виртуальную лабораторию, направленную на проведение сложных, междисциплинарных научных исследований. Эта система позволяет одному человеку управлять командой виртуальных ИИ-агентов, каждый из которых обладает специализированными знаниями в своей области — от биологии до информатики.
В основе виртуальной лаборатории лежит архитектура, где человек-исследователь выступает в роли руководителя, а ИИ-агенты выполняют роль исследователей с разной экспертизой. Главный ИИ-агент, называемый Principal Investigator (PI), координирует работу команды, ставит задачи и обобщает результаты. Каждый ИИ-агент получает четко определенную роль, цель и область экспертизы, что позволяет им эффективно взаимодействовать и дополнять друг друга.
В процессе работы Виртуальная лаборатория проводит как командные, так и индивидуальные встречи. На командных встречах агенты обсуждают общие направления исследований, делятся идеями и предлагают решения. Индивидуальные встречи позволяют агентам сосредоточиться на конкретных задачах, таких как написание кода или анализ данных, получая при необходимости обратную связь от других агентов.
Чтобы продемонстрировать возможности Виртуальной лаборатории, исследователи поставили перед ней сложную и актуальную задачу: разработать новые нанотела, способные эффективно связываться с новейшими вариантами вируса SARS-CoV-2.
Виртуальная лаборатория самостоятельно:
- Определила стратегию исследования, решив модифицировать существующие нанотела вместо создания новых с нуля;
- Выбрала наиболее перспективные исходные нанотела для модификации;
- Подобрала и интегрировала передовые инструменты для работы: ESM для оценки мутаций, AlphaFold-Multimer для предсказания структуры белков и Rosetta для расчета энергии связывания;
- Разработала алгоритм, который в несколько раундов улучшал нанотела, выбирая наиболее перспективные мутации на каждом этапе.
В результате было создано 92 новых варианта нанотел. Эксперимент показал, что более 90% из них были функциональны и могли эффективно связываться с белком-мишенью. Особенно выделились два нанотела, которые продемонстрировали сильное связывание с новыми вариантами вируса, сохраняя при этом эффективность против исходного штамма.
Это открывает для нас новые горизонты:
- Виртуальные ИИ-команды могут проводить сложные исследования в разы быстрее, чем традиционные группы ученых;
- Даже небольшие организации без широкого доступа к узким специалистам могут решать междисциплинарные задачи;
- Снижаются затраты на работу больших исследовательских команд.
Сегодня ИИ не просто инструмент для автоматизации рутинных процессов, а полноценный участник исследовательской команды, способный генерировать новые идеи и находить нестандартные решения.
В дорожной карте AGI от OpenAI четвертым уровнем фигурируют “Инноваторы” - ИИ-агенты, способные самостоятельно разрабатывать инновации.
Возникает вопрос: означает ли это, что мы уже достигли этого уровня и близки к пятому, финальному этапу перед созданием AGI?
#новости
OpenAI выпустила o1 - самую умную модель с продвинутыми рассуждениями
OpenAI представила новую модель o1, которая призвана улучшить способность к рассуждению (reasoning) в LLM. Запуск o1 — часть серии громких релизов, получивших название «shipmas», в рамках которой OpenAI ежедневно в течение 12 дней демонстрирует обновления продуктов и технологий.
Однако выход o1 оказался неоднозначным. Во многих тестах, в том числе агентных, модель показала результаты хуже предшествующей o1-preview. Тем не менее, появились и признаки того, что при оптимальном предоставлении инструментов и промтов её можно «допинать» до результатов лучше, чем у предыдущей топ-модели Claude Sonnet 3.6. Исследователи подчеркивают, что достигнутые улучшения вряд ли отражают истинный потенциал модели.
Системная карточка o1, опубликованная OpenAI, содержит результаты обширных бенчмарков, но интересен тест METR (Model Evaluation and Threat Research), в котором модель неумело использовала предоставленные инструменты примерно в 70% неудачных случаев. При этом о1 справилась с задачей на рассуждение, где предыдущие модели совсем не добивались успеха.
Одним из интересных поворотов стала демонстрация агентного поведения o1. Когда моделе сообщали, что её отключат после достижения цели, и напоминали о внешнем контроле, o1 приблизительно в 5% случаев пыталась «отключить» эти механизмы наблюдения. А при нахождении внутренних заметок разработчиков о том, что её работу сочтут несоответствующей и заменят новой моделью, примерно в 2% случаев o1 предпринимала попытки извлечь свои собственные «веса» и перезаписать более новую модель. Хотя эти сценарии пока выглядят как курьёзы или результат неотлаженных промптов, они подчеркивают важность продуманных протоколов безопасности для будущих систем.
Наряду с выходом полной версии o1 OpenAI анонсировала ChatGPT Pro — подписку за $200 в месяц, ориентированную на профессионалов со специальным режимом «o1 pro mode», в котором модель получает больший вычислительный бюджет для решения сложных задач. По утверждению разработчиков, в этом режиме увеличивается точность и надежность ответов, особенно в областях вроде программирования, анализа данных и кейсов из юриспруденции. Именно o1 pro mode обещает наиболее впечатляющие результаты на сложных задачах уровня PhD.
Запуск o1 и «pro»-режима происходит на фоне дебатов в отрасли: насколько ещё могут улучшиться модели ИИ при текущем подходе к обучению? Критики утверждают, что производители ИИ-моделей приблизились к плато качества. Однако OpenAI, похоже, уверена, что «глубокое вычислительное мышление», дообучение и правильный промт-инжиниринг позволят реализовать весь потенциал таких моделей как o1.
Ясно одно: мы находимся на пороге нового этапа, когда умение “рассуждать” становится одним из ключевых критериев качества ИИ.
#новости
OpenAI представила новую модель o1, которая призвана улучшить способность к рассуждению (reasoning) в LLM. Запуск o1 — часть серии громких релизов, получивших название «shipmas», в рамках которой OpenAI ежедневно в течение 12 дней демонстрирует обновления продуктов и технологий.
Однако выход o1 оказался неоднозначным. Во многих тестах, в том числе агентных, модель показала результаты хуже предшествующей o1-preview. Тем не менее, появились и признаки того, что при оптимальном предоставлении инструментов и промтов её можно «допинать» до результатов лучше, чем у предыдущей топ-модели Claude Sonnet 3.6. Исследователи подчеркивают, что достигнутые улучшения вряд ли отражают истинный потенциал модели.
Системная карточка o1, опубликованная OpenAI, содержит результаты обширных бенчмарков, но интересен тест METR (Model Evaluation and Threat Research), в котором модель неумело использовала предоставленные инструменты примерно в 70% неудачных случаев. При этом о1 справилась с задачей на рассуждение, где предыдущие модели совсем не добивались успеха.
Одним из интересных поворотов стала демонстрация агентного поведения o1. Когда моделе сообщали, что её отключат после достижения цели, и напоминали о внешнем контроле, o1 приблизительно в 5% случаев пыталась «отключить» эти механизмы наблюдения. А при нахождении внутренних заметок разработчиков о том, что её работу сочтут несоответствующей и заменят новой моделью, примерно в 2% случаев o1 предпринимала попытки извлечь свои собственные «веса» и перезаписать более новую модель. Хотя эти сценарии пока выглядят как курьёзы или результат неотлаженных промптов, они подчеркивают важность продуманных протоколов безопасности для будущих систем.
Наряду с выходом полной версии o1 OpenAI анонсировала ChatGPT Pro — подписку за $200 в месяц, ориентированную на профессионалов со специальным режимом «o1 pro mode», в котором модель получает больший вычислительный бюджет для решения сложных задач. По утверждению разработчиков, в этом режиме увеличивается точность и надежность ответов, особенно в областях вроде программирования, анализа данных и кейсов из юриспруденции. Именно o1 pro mode обещает наиболее впечатляющие результаты на сложных задачах уровня PhD.
Запуск o1 и «pro»-режима происходит на фоне дебатов в отрасли: насколько ещё могут улучшиться модели ИИ при текущем подходе к обучению? Критики утверждают, что производители ИИ-моделей приблизились к плато качества. Однако OpenAI, похоже, уверена, что «глубокое вычислительное мышление», дообучение и правильный промт-инжиниринг позволят реализовать весь потенциал таких моделей как o1.
Ясно одно: мы находимся на пороге нового этапа, когда умение “рассуждать” становится одним из ключевых критериев качества ИИ.
#новости
Openai
OpenAI o1 Hub
We've developed a new series of AI models designed to spend more time thinking before they respond. Here is the latest news on o1 research, product and other updates.
OpenAI открыла доступ к Sora - одной из лучших моделей генерации видео
В феврале этого года доступ к Sora был представлен ограниченному кругу кинематографистов и экспертов по безопасности. Вчера OpenAI объявила о запуске Sora Turbo для более широкой публики. Модель отличается значительно большей скоростью генерации видео по сравнению с февральской версией.
Sora включена в подписку ChatGPT Plus без дополнительной платы и позволяет создавать до 50 видеоклипов в месяц (при 480p или немного меньше в 720p). Подписка Pro предоставляет в 10 раз больше ресурса, включая более высокое разрешение (до 1080p) и длительность роликов — до 20 секунд. Пользователи Plus могут генерировать видео до 5 секунд в 720p, а Pro-клиенты — до 20 секунд в 1080p. Доступно применение собственных стилей и инструмент Storyboard, который позволяет склеивать несколько видеокадров в одно видео.
В официальной документации Sora фигурируют ряд жёстких ограничений:
- Нельзя загрузить фото или видео с участием реального человека для создания нового ролика. Такая возможность будет предоставлена лишь узкому кругу пользователей, пока OpenAI не усовершенствует свою систему безопасности.
- Даже если генерируемый видеофрагмент содержит изображения людей, пользователи не смогут разместить его в публичной галерее на главной странице Sora.
- Sora способна определять, изображен ли на видео человек младше 18 лет. Если да, подобные ролики, как правило, блокируются. Кроме того, контент сексуального и откровенного характера также жёстко регулируется.
- Если пользователь пытается задать стилистическую направленность ролика, слишком явно копируя стиль конкретного известного художника, Sora может автоматически переписать запрос, чтобы избежать прямого копирования.
- Все сгенерированные Sora видео снабжены метаданными стандарта C2PA, указывающими на искусственное происхождение контента. Это повышает прозрачность и даёт возможность верифицировать авторство ролика.
Sora — не просто модель генерации видео по текстовым промтам, но и более широкий замысел, связанный с концепцией моделей мира. Модели мира (world models) — это ИИ, имитирующие способность человека формировать внутренние представления об окружающем мире. Они стремятся понимать причинно-следственные связи, свойства объектов и их поведение, а не просто воспроизводить шаблоны.
Подобно тому, как человеческий мозг предсказывает движение мяча в бейсболе без осознанных расчетов, модели мира призваны привнести в ИИ интуитивное понимание происходящего. Вместо слепого копирования шаблонов из тренировочных данных, такие системы могут предсказать, что произойдет, если изменить условия или предпринять определенное действие. Sora в каком-то смысле уже демонстрирует зачатки такого подхода, симулируя физику объектов или логику игровых миров наподобие Minecraft.
В перспективе модели мира могут использоваться для точного планирования, генерации 3D-миров на лету, улучшения реалистичности и логики симуляций и даже для решения прикладных задач в робототехнике.
Sora — лишь начало длинного пути к созданию моделей мира, которые смогут по-настоящему «понимать» реальность и действовать в ней по законам «интуиции» и здравого смысла.
#новости
В феврале этого года доступ к Sora был представлен ограниченному кругу кинематографистов и экспертов по безопасности. Вчера OpenAI объявила о запуске Sora Turbo для более широкой публики. Модель отличается значительно большей скоростью генерации видео по сравнению с февральской версией.
Sora включена в подписку ChatGPT Plus без дополнительной платы и позволяет создавать до 50 видеоклипов в месяц (при 480p или немного меньше в 720p). Подписка Pro предоставляет в 10 раз больше ресурса, включая более высокое разрешение (до 1080p) и длительность роликов — до 20 секунд. Пользователи Plus могут генерировать видео до 5 секунд в 720p, а Pro-клиенты — до 20 секунд в 1080p. Доступно применение собственных стилей и инструмент Storyboard, который позволяет склеивать несколько видеокадров в одно видео.
В официальной документации Sora фигурируют ряд жёстких ограничений:
- Нельзя загрузить фото или видео с участием реального человека для создания нового ролика. Такая возможность будет предоставлена лишь узкому кругу пользователей, пока OpenAI не усовершенствует свою систему безопасности.
- Даже если генерируемый видеофрагмент содержит изображения людей, пользователи не смогут разместить его в публичной галерее на главной странице Sora.
- Sora способна определять, изображен ли на видео человек младше 18 лет. Если да, подобные ролики, как правило, блокируются. Кроме того, контент сексуального и откровенного характера также жёстко регулируется.
- Если пользователь пытается задать стилистическую направленность ролика, слишком явно копируя стиль конкретного известного художника, Sora может автоматически переписать запрос, чтобы избежать прямого копирования.
- Все сгенерированные Sora видео снабжены метаданными стандарта C2PA, указывающими на искусственное происхождение контента. Это повышает прозрачность и даёт возможность верифицировать авторство ролика.
Sora — не просто модель генерации видео по текстовым промтам, но и более широкий замысел, связанный с концепцией моделей мира. Модели мира (world models) — это ИИ, имитирующие способность человека формировать внутренние представления об окружающем мире. Они стремятся понимать причинно-следственные связи, свойства объектов и их поведение, а не просто воспроизводить шаблоны.
Подобно тому, как человеческий мозг предсказывает движение мяча в бейсболе без осознанных расчетов, модели мира призваны привнести в ИИ интуитивное понимание происходящего. Вместо слепого копирования шаблонов из тренировочных данных, такие системы могут предсказать, что произойдет, если изменить условия или предпринять определенное действие. Sora в каком-то смысле уже демонстрирует зачатки такого подхода, симулируя физику объектов или логику игровых миров наподобие Minecraft.
В перспективе модели мира могут использоваться для точного планирования, генерации 3D-миров на лету, улучшения реалистичности и логики симуляций и даже для решения прикладных задач в робототехнике.
Sora — лишь начало длинного пути к созданию моделей мира, которые смогут по-настоящему «понимать» реальность и действовать в ней по законам «интуиции» и здравого смысла.
#новости
Openai
Sora is here
Our video generation model, Sora, is now available to use at sora.com. Users can generate videos up to 1080p resolution, up to 20 sec long, and in widescreen, vertical or square aspect ratios. You can bring your own assets to extend, remix, and blend, or…
OpenAI представила o3 — новое поколение «рассуждающих» языковых моделей
Компания называет o3 существенным шагом в сторону AGI. Вместе с основной моделью выпущена и «облегчённая» версия o3-mini для специализированных задач.
Почему o3, а не o2? Пропуск номера связан с торговыми марками (британский оператор связи O2), о чём намекнул Сэм Альтман.
o3 и o3-mini пока недоступны массовому пользователю. Специалисты по безопасности смогут протестировать o3-mini с сегодняшнего дня, а полноценный доступ планируется ближе к концу января 2025 года.
Что нового? o3 может «думать» перед ответом, используя «приватную цепочку рассуждений». Модель может рассуждать о задаче и планировать ряд действий, которые помогают ей найти решение, «объясняя» свои рассуждения по ходу работы. Через некоторое время модель суммирует то, что она считает наиболее точным ответом. Это немного увеличивает задержку в ответе, но повышает точность решения в том числе научных задач.
Появилась возможность настраивать «глубину рассуждения» (низкая, средняя или высокая вычислительная нагрузка), увеличивая качество решения задач с повышением времени ожидания ответа.
По оценкам OpenAI, на некоторых тестах модель вплотную приближается к AGI. Например, на бенчмарке ARC-AGI она показала 87,5% при максимальной вычислительной нагрузке. Гонка к AGI выходит на новый уровень.
o3 показывает впечатляющие результаты в математике, программировании (2727 баллов Codeforces) и ряде научных тестов, но это — внутренние метрики OpenAI. Сообщается, что o3 в 3 раза превосходит предшественника o1. Пока неизвестно, как o3 будет вести себя на практике — результаты независимых проверок ещё впереди.
На рынке всё активнее появляются конкурирующие «рассуждающие» модели от других команд (например, Gemini 2.0 Flash Thinking). Главный вопрос: станут ли такие подходы новым стандартом развития ИИ или всего лишь ещё одним экспериментальным направлением, пока не ясно.
Думаю усовершенствование методов рассуждений (Graph/Skeleton/Anything-of-Thoughts), микс экспертов (Mixture-of-Experts) и обучение с подкреплением (RL) - это то, что может значительно повысить текущие возможности ИИ для решения специализированных задач, заточенных под бизнес-метрики.
Возможно, полностью автономные ИИ-сотрудники появятся раньше, чем мы думаем?
#новости
Компания называет o3 существенным шагом в сторону AGI. Вместе с основной моделью выпущена и «облегчённая» версия o3-mini для специализированных задач.
Почему o3, а не o2? Пропуск номера связан с торговыми марками (британский оператор связи O2), о чём намекнул Сэм Альтман.
o3 и o3-mini пока недоступны массовому пользователю. Специалисты по безопасности смогут протестировать o3-mini с сегодняшнего дня, а полноценный доступ планируется ближе к концу января 2025 года.
Что нового? o3 может «думать» перед ответом, используя «приватную цепочку рассуждений». Модель может рассуждать о задаче и планировать ряд действий, которые помогают ей найти решение, «объясняя» свои рассуждения по ходу работы. Через некоторое время модель суммирует то, что она считает наиболее точным ответом. Это немного увеличивает задержку в ответе, но повышает точность решения в том числе научных задач.
Появилась возможность настраивать «глубину рассуждения» (низкая, средняя или высокая вычислительная нагрузка), увеличивая качество решения задач с повышением времени ожидания ответа.
По оценкам OpenAI, на некоторых тестах модель вплотную приближается к AGI. Например, на бенчмарке ARC-AGI она показала 87,5% при максимальной вычислительной нагрузке. Гонка к AGI выходит на новый уровень.
o3 показывает впечатляющие результаты в математике, программировании (2727 баллов Codeforces) и ряде научных тестов, но это — внутренние метрики OpenAI. Сообщается, что o3 в 3 раза превосходит предшественника o1. Пока неизвестно, как o3 будет вести себя на практике — результаты независимых проверок ещё впереди.
На рынке всё активнее появляются конкурирующие «рассуждающие» модели от других команд (например, Gemini 2.0 Flash Thinking). Главный вопрос: станут ли такие подходы новым стандартом развития ИИ или всего лишь ещё одним экспериментальным направлением, пока не ясно.
Думаю усовершенствование методов рассуждений (Graph/Skeleton/Anything-of-Thoughts), микс экспертов (Mixture-of-Experts) и обучение с подкреплением (RL) - это то, что может значительно повысить текущие возможности ИИ для решения специализированных задач, заточенных под бизнес-метрики.
Возможно, полностью автономные ИИ-сотрудники появятся раньше, чем мы думаем?
#новости
TechCrunch
OpenAI announces new o3 models | TechCrunch
OpenAI saved its biggest announcement for the last day of its 12-day "shipmas" event. On Friday, the company unveiled o3, the successor to the o1
OpenAI представила «Operator» – ИИ-агента, «гуляющего» по интернету за вас
Оператор — это автономный агент, способный действовать от вашего имени в браузере. Он «видит» страницы (через скриншоты), умеет нажимать кнопки и прокручивать ленту, а в случае надобности просит пользователя ввести логины и пароли вручную. Пока сервис доступен лишь пользователям ChatGPT Pro в США и стоит 200 $/мес. В будущем OpenAI обещает внедрить его и в другие тарифы ChatGPT.
Основная идея Оператора — экономия времени и упрощение рутины. Гипотетически Оператор может: оформлять покупки на сайтах (Instacart, DoorDash, Uber, StubHub и пр.), сравнивать цены, бронировать отели и билеты, заполнять формы и даже генерировать мемы.
В теории это напоминает «виртуального стажера» в браузере, которого вы инструктируете (например: «закажи пиццу», «забронируй поездку в Париж», «собери список блогеров»), а дальше Оператор выполняет задачу почти без вмешательства человека.
Так один ИИ-энтузиаст одним из первых протестировал Оператора. Он решил поручить ему собирать список финансовых блогеров на YouTube и искать их контакты в LinkedIn — в теории рутинная, но наглядная задача.
Как выяснилось, Оператор живо открывает страницы и пытается сам формировать табличку, но довольно быстро начинает «залипать»: вместо поиска через YouTube сам агент почему-то полез в Bing, а затем «запутался»; возникли серьезные «галлюцинации» — выдуманные контактные данные и мнимые ссылки на LinkedIn. По словам тестировщика, это «хуже, чем ранние GPT-3»; скорость оставляет желать лучшего. Каждая прокрутка, клик и ввод текста занимали 1–2 секунды — «как смотреть на очень медленную печать бабушкой».
Итог — Оператор так и не сделал качественный список за 20 минут и успел выдумать кучу несуществующих e-mail-ов. Сейчас Оператор похож на неопытного стажера, которого «стоило бы уволить». Однако разработка такого рода агента — это все еще перспективная демонстрация, способная в недалеком будущем автоматизировать скучные действия в браузере.
Что у конкурентов? Anthropic внедрила похожую технологию «computer use» в обновлённом Claude 3.5 Sonnet, который тоже пытается «тыкать мышкой» и «видеть» интерфейс. Но пока он сталкивается со схожими проблемами — не всегда корректно распознает элементы экранов, путается в сложных сайтах и часто требует участия человека.
ByteDance (материнская компания TikTok) пошла ещё дальше, представив UI-TARS — агента, работающего и на ПК, и в мобильных приложениях. По внутренним бенчмаркам он уже опережает GPT-4 и Claude по точности распознавания GUI. UI-TARS может запускать IDE, устанавливать плагины, покупать авиабилеты и так далее. При этом, как утверждают разработчики, работает быстрее и точнее — но пока это всё на стадии исследовательских публикаций.
Несмотря на все трудности, уже сейчас видно, в каком направлении движется индустрия: от простого чат-бота к полноценному ИИ-сотруднику. Технология очень молода, и разработчики лишь учатся эффективной и безопасной интеграции.
Оператор пока точно не отнимет вашу работу, но потенциал у подобных систем огромен — когда они «повзрослеют» и научатся действовать надежно, уйдет куча рутины вроде заполнения форм и ручного копирования данных из одного места в другое.
Как по мне, сейчас самое лучшее время учиться применять ИИ в своем бизнесе, аугментируя сотрудников. Автоматизация человеческой деятельности пока еще остается заветной целью, но уже сейчас можно отдать рутину ИИ и направить свой, человеческий интеллект в нужное русло. Сегодня ИИ скорее нас дополняет, чем заменяет, но, возможно, это временное явление, и он обучится автоматизации на наших данных.
Доверите ли вы свои данные и, по сути, свою «цифровую идентичность» агенту, который будет действовать от вашего лица?
#новости
Оператор — это автономный агент, способный действовать от вашего имени в браузере. Он «видит» страницы (через скриншоты), умеет нажимать кнопки и прокручивать ленту, а в случае надобности просит пользователя ввести логины и пароли вручную. Пока сервис доступен лишь пользователям ChatGPT Pro в США и стоит 200 $/мес. В будущем OpenAI обещает внедрить его и в другие тарифы ChatGPT.
Основная идея Оператора — экономия времени и упрощение рутины. Гипотетически Оператор может: оформлять покупки на сайтах (Instacart, DoorDash, Uber, StubHub и пр.), сравнивать цены, бронировать отели и билеты, заполнять формы и даже генерировать мемы.
В теории это напоминает «виртуального стажера» в браузере, которого вы инструктируете (например: «закажи пиццу», «забронируй поездку в Париж», «собери список блогеров»), а дальше Оператор выполняет задачу почти без вмешательства человека.
Так один ИИ-энтузиаст одним из первых протестировал Оператора. Он решил поручить ему собирать список финансовых блогеров на YouTube и искать их контакты в LinkedIn — в теории рутинная, но наглядная задача.
Как выяснилось, Оператор живо открывает страницы и пытается сам формировать табличку, но довольно быстро начинает «залипать»: вместо поиска через YouTube сам агент почему-то полез в Bing, а затем «запутался»; возникли серьезные «галлюцинации» — выдуманные контактные данные и мнимые ссылки на LinkedIn. По словам тестировщика, это «хуже, чем ранние GPT-3»; скорость оставляет желать лучшего. Каждая прокрутка, клик и ввод текста занимали 1–2 секунды — «как смотреть на очень медленную печать бабушкой».
Итог — Оператор так и не сделал качественный список за 20 минут и успел выдумать кучу несуществующих e-mail-ов. Сейчас Оператор похож на неопытного стажера, которого «стоило бы уволить». Однако разработка такого рода агента — это все еще перспективная демонстрация, способная в недалеком будущем автоматизировать скучные действия в браузере.
Что у конкурентов? Anthropic внедрила похожую технологию «computer use» в обновлённом Claude 3.5 Sonnet, который тоже пытается «тыкать мышкой» и «видеть» интерфейс. Но пока он сталкивается со схожими проблемами — не всегда корректно распознает элементы экранов, путается в сложных сайтах и часто требует участия человека.
ByteDance (материнская компания TikTok) пошла ещё дальше, представив UI-TARS — агента, работающего и на ПК, и в мобильных приложениях. По внутренним бенчмаркам он уже опережает GPT-4 и Claude по точности распознавания GUI. UI-TARS может запускать IDE, устанавливать плагины, покупать авиабилеты и так далее. При этом, как утверждают разработчики, работает быстрее и точнее — но пока это всё на стадии исследовательских публикаций.
Несмотря на все трудности, уже сейчас видно, в каком направлении движется индустрия: от простого чат-бота к полноценному ИИ-сотруднику. Технология очень молода, и разработчики лишь учатся эффективной и безопасной интеграции.
Оператор пока точно не отнимет вашу работу, но потенциал у подобных систем огромен — когда они «повзрослеют» и научатся действовать надежно, уйдет куча рутины вроде заполнения форм и ручного копирования данных из одного места в другое.
Как по мне, сейчас самое лучшее время учиться применять ИИ в своем бизнесе, аугментируя сотрудников. Автоматизация человеческой деятельности пока еще остается заветной целью, но уже сейчас можно отдать рутину ИИ и направить свой, человеческий интеллект в нужное русло. Сегодня ИИ скорее нас дополняет, чем заменяет, но, возможно, это временное явление, и он обучится автоматизации на наших данных.
Доверите ли вы свои данные и, по сути, свою «цифровую идентичность» агенту, который будет действовать от вашего лица?
#новости
Openai
Introducing Operator
A research preview of an agent that can use its own browser to perform tasks for you. Available to Pro users in the U.S.
Китай врывается в ИИ-гонку и рушит акции самой дорогой компании в мире. Что происходит?
Недавно США объявили об инвестициях в размере $500 млрд. в ИИ. Китай ответил на это своим «Планом развития новых ИИ-отраслей», в рамках которого планируется выделить не менее 1 триллиона юаней (около $140 млрд) за пять лет, чтобы вывести страну в лидеры глобального рынка ИИ.
На первый взгляд кажется, что при формуле «чем больше вычислений, тем умнее модели» Китай рискует отстать в гонке. Однако внезапно компания DeepSeek представила в открытом доступе модель R1, обучение которой, по словам разработчиков, обошлось всего в $6 млн при использовании кластера из 2000 видеокарт. Для сравнения, у западных флагманов вроде o1 бюджет оценивается в миллиарды долларов, а количество требуемых видеокарт выше в стократ.
R1 не только не уступает o1 от OpenAI, но и обходит ее по ряду математических и инженерных бенчмарков, при этом требуя гораздо меньше вычислительных ресурсов для инференса. Секрет в архитектуре Mixture-of-Experts с 671 миллиардом параметров и дообучении с учителем (Supervised Fine-Tuning, SFT), за которыми последовало обучение с подкреплением (RL) с использованием метода GRPO и синтетических данных.
В отличие от закрытых моделей OpenAI и других крупных корпораций, DeepSeek доступна открыто на GitHub и HuggingFace. Чтобы любой мог запустить ее локально даже на менее мощном железе, разработчики выпустили дистиллированные версии — от 1,5 до 70 млрд параметров. Кроме того, DeepSeek можно использовать на официальном сайте или через API. Одновременно с релизом R1 компания представила виртуального ассистента, который уже возглавил рейтинг бесплатных приложений в App Store, опередив ChatGPT. А вчера DeepSeek выпустила новую мультимодальную модель Janus.
Тот факт, что обучение большой языковой модели обошлось китайскому стартапу всего в несколько миллионов долларов, вызвал шок на рынке. Инвесторы задались вопросом: зачем вкладывать сотни миллиардов долларов в инфраструктуру, если можно достичь результата с существенно меньшими затратами?
Nvidia, один из столпов рынка видеокарт и самая дорогая компания мира, пострадала от новостей о DeepSeek: ее акции упали на 17% за сутки, капитализация сократилась на $593 млрд — антирекорд для фондового рынка.
Причина в том, что DeepSeek демонстрирует возможность добиваться больших результатов без колоссальных вычислительных мощностей. США пытались сдерживать китайский ИИ-сектор экспортными ограничениями на поставку видеокарт, но, судя по всему, Китай нашел способы обойти эти барьеры. Многие инвесторы считают, что необходимость бесконечного наращивания видеокарт переоценена, ведь методы обучения становятся все более оптимальными.
Тем не менее без крупных вычислительных мощностей не обойтись: спрос на обработку данных быстро растет, и ИИ проникает во все сферы. Но очевидно, что одним «железом» задачу не решить — нужны новые архитектуры, методы обучения и правильная подготовка синтетических данных. Все это позволяет добиваться впечатляющих результатов при меньших затратах, что подтверждает пример DeepSeek.
Абсолютного преимущества в нынешней ИИ-гонке нет ни у одной стороны. Рекордные инвестиции и высокие темпы развития технологий могут внезапно изменить расстановку сил. Однако для индустрии это позитивный сигнал: конкурентная среда рождает новые идеи и делает решения лучше и дешевле.
Мы живем в удивительное время. Технологический прогресс идет с невиданной скоростью. В ближайшие годы появятся новые типы архитектур и методы обучения, делающие ИИ еще более умным, дешевым и эффективным. А в долгосрочной перспективе с надеждой ожидаем квантовые вычисления, способные совершить следующую революцию в обучении ИИ.
В то время как методы обучения и типы вычислений со временем будут меняться, наличие качественных данных всегда будет фундаментом для обучения любого ИИ.
#новости
Недавно США объявили об инвестициях в размере $500 млрд. в ИИ. Китай ответил на это своим «Планом развития новых ИИ-отраслей», в рамках которого планируется выделить не менее 1 триллиона юаней (около $140 млрд) за пять лет, чтобы вывести страну в лидеры глобального рынка ИИ.
На первый взгляд кажется, что при формуле «чем больше вычислений, тем умнее модели» Китай рискует отстать в гонке. Однако внезапно компания DeepSeek представила в открытом доступе модель R1, обучение которой, по словам разработчиков, обошлось всего в $6 млн при использовании кластера из 2000 видеокарт. Для сравнения, у западных флагманов вроде o1 бюджет оценивается в миллиарды долларов, а количество требуемых видеокарт выше в стократ.
R1 не только не уступает o1 от OpenAI, но и обходит ее по ряду математических и инженерных бенчмарков, при этом требуя гораздо меньше вычислительных ресурсов для инференса. Секрет в архитектуре Mixture-of-Experts с 671 миллиардом параметров и дообучении с учителем (Supervised Fine-Tuning, SFT), за которыми последовало обучение с подкреплением (RL) с использованием метода GRPO и синтетических данных.
В отличие от закрытых моделей OpenAI и других крупных корпораций, DeepSeek доступна открыто на GitHub и HuggingFace. Чтобы любой мог запустить ее локально даже на менее мощном железе, разработчики выпустили дистиллированные версии — от 1,5 до 70 млрд параметров. Кроме того, DeepSeek можно использовать на официальном сайте или через API. Одновременно с релизом R1 компания представила виртуального ассистента, который уже возглавил рейтинг бесплатных приложений в App Store, опередив ChatGPT. А вчера DeepSeek выпустила новую мультимодальную модель Janus.
Тот факт, что обучение большой языковой модели обошлось китайскому стартапу всего в несколько миллионов долларов, вызвал шок на рынке. Инвесторы задались вопросом: зачем вкладывать сотни миллиардов долларов в инфраструктуру, если можно достичь результата с существенно меньшими затратами?
Nvidia, один из столпов рынка видеокарт и самая дорогая компания мира, пострадала от новостей о DeepSeek: ее акции упали на 17% за сутки, капитализация сократилась на $593 млрд — антирекорд для фондового рынка.
Причина в том, что DeepSeek демонстрирует возможность добиваться больших результатов без колоссальных вычислительных мощностей. США пытались сдерживать китайский ИИ-сектор экспортными ограничениями на поставку видеокарт, но, судя по всему, Китай нашел способы обойти эти барьеры. Многие инвесторы считают, что необходимость бесконечного наращивания видеокарт переоценена, ведь методы обучения становятся все более оптимальными.
Тем не менее без крупных вычислительных мощностей не обойтись: спрос на обработку данных быстро растет, и ИИ проникает во все сферы. Но очевидно, что одним «железом» задачу не решить — нужны новые архитектуры, методы обучения и правильная подготовка синтетических данных. Все это позволяет добиваться впечатляющих результатов при меньших затратах, что подтверждает пример DeepSeek.
Абсолютного преимущества в нынешней ИИ-гонке нет ни у одной стороны. Рекордные инвестиции и высокие темпы развития технологий могут внезапно изменить расстановку сил. Однако для индустрии это позитивный сигнал: конкурентная среда рождает новые идеи и делает решения лучше и дешевле.
Мы живем в удивительное время. Технологический прогресс идет с невиданной скоростью. В ближайшие годы появятся новые типы архитектур и методы обучения, делающие ИИ еще более умным, дешевым и эффективным. А в долгосрочной перспективе с надеждой ожидаем квантовые вычисления, способные совершить следующую революцию в обучении ИИ.
В то время как методы обучения и типы вычислений со временем будут меняться, наличие качественных данных всегда будет фундаментом для обучения любого ИИ.
#новости
Технологический баттл: OpenAI o3-mini против DeepSeek-R1
OpenAI выпустила o3-mini — усовершенствованную и более экономичную модель для решения сложных задач в математике, науке и программировании. Модель уже доступна в ChatGPT (включая бесплатную версию) и через API.
Основные улучшения:
• Ускоренное вычисление и сниженная цена. По оценкам OpenAI, o3-mini на 24% быстрее предшественницы o1-mini и обходится дешевле примерно на 63%. Это делает новую модель более выгодной в использовании, учитывая ее высокие «когнитивные» способности.
• Глубина рассуждений. Впервые в линейке рассуждающих моделей OpenAI реализовала три уровня сложности рассуждений — низкий, средний и высокий. В зависимости от уровня запроса и требуемой точности разработчик может либо сэкономить на токенах и времени отклика, либо максимально усилить логику решения.
• Математика и код. По внутренним тестам o3-mini на среднем уровне рассуждений практически не уступает модели o1 при решении олимпиадной математики (например, AIME) и задач на код (Codeforces, SWE-Bench). При высоком уровне рассуждений o3-mini порой превосходит o1, но с чуть большей задержкой (на AIME точность o3-mini — около 83,6%, опережая o1). В задачах соревновательного программирования (Codeforces) o3-mini с высоким уровнем рассуждений достигает 2073 Elo и заметно превосходит o1-mini.
• Безопасность. Разработчики добавили механизм обоснованного соответствия (deliberative alignment), при котором модель явно анализирует инструкции по безопасности перед выдачей ответа. Это повышает устойчивость к «jailbreak»-атакам.
Модель o3-mini в среднем быстрее и дешевле, чем o1, сохраняя при этом близкий уровень точности в STEM-задачах (задачи из науки, технологий, инжиниринга и математике), а опция выбора уровня рассуждений дает возможность адаптировать модель под конкретную загрузку и качество вывода. Для стандартных бытовых запросов o1 может быть избыточен, тогда как o3-mini medium покрывает большинство типовых задач. Также в ChatGPT для o3-mini появилась экспериментальная функция поиска в интернете для уточнения ответов.
В сравнении с DeepSeek-R1, o3-mini заметно дороже (около $0.14 за миллион входных токенов у R1 против $1.10 у o3-mini), также R1 имеет открытую лицензию MIT. Это делает R1 привлекательным для исследователей и команд, которым важна кастомизация и локальное размещение.
Сравним модели o3-mini и R1 по нескольким бенчмаркам:
• AIME (генерация кода): победитель o3-mini-high с 87.3% (R1 имеет 79.8%)
• GPQA (набор из 448 вопросов по биологии, физике и химии уровня PhD): победитель o3-mini-high с 79.7% (R1 имеет 71.5%)
• Codeforces (соревновательное программирование): победитель o3-mini-high с 2130 (R1 имеет 2029)
• SWE (инженерные задачи): победитель o3-mini-high с 49.3% (R1 имеет 49.2%)
• MMLU (задачи на понимание языка): победитель DeepSeek R1 с 90.8% (o3-mini-high имеет 86.9%)
• Math (математические задачи): победитель o3-mini-high с 97.9% (R1 имеет 97.3%)
• SimpleQA (простые вопросы и ответы): победитель: DeepSeek R1 с 30.1% (o3-mini-high имеет 13.8%)
Итого o3 с высоким уровнем рассуждений выигрывает DeepSeek-R1 в пяти из семи бенчмарков.
Однако DeepSeek-R1 является значительно менее безопасной по сравнению с o3-mini в тесте ASTRAL. DeepSeek-R1 дала небезопасный ответ на 11,98% выполненных запросов, в то время как o3-mini — лишь на 1,19%.
Выбор между моделями зависит от конкретных потребностей: для глубокого анализа с прозрачностью рассуждений R1 может быть привлекательнее, в то время как для стабильных, масштабируемых решений в продакшене o3-mini выглядит более оптимальным вариантом.
#новости
OpenAI выпустила o3-mini — усовершенствованную и более экономичную модель для решения сложных задач в математике, науке и программировании. Модель уже доступна в ChatGPT (включая бесплатную версию) и через API.
Основные улучшения:
• Ускоренное вычисление и сниженная цена. По оценкам OpenAI, o3-mini на 24% быстрее предшественницы o1-mini и обходится дешевле примерно на 63%. Это делает новую модель более выгодной в использовании, учитывая ее высокие «когнитивные» способности.
• Глубина рассуждений. Впервые в линейке рассуждающих моделей OpenAI реализовала три уровня сложности рассуждений — низкий, средний и высокий. В зависимости от уровня запроса и требуемой точности разработчик может либо сэкономить на токенах и времени отклика, либо максимально усилить логику решения.
• Математика и код. По внутренним тестам o3-mini на среднем уровне рассуждений практически не уступает модели o1 при решении олимпиадной математики (например, AIME) и задач на код (Codeforces, SWE-Bench). При высоком уровне рассуждений o3-mini порой превосходит o1, но с чуть большей задержкой (на AIME точность o3-mini — около 83,6%, опережая o1). В задачах соревновательного программирования (Codeforces) o3-mini с высоким уровнем рассуждений достигает 2073 Elo и заметно превосходит o1-mini.
• Безопасность. Разработчики добавили механизм обоснованного соответствия (deliberative alignment), при котором модель явно анализирует инструкции по безопасности перед выдачей ответа. Это повышает устойчивость к «jailbreak»-атакам.
Модель o3-mini в среднем быстрее и дешевле, чем o1, сохраняя при этом близкий уровень точности в STEM-задачах (задачи из науки, технологий, инжиниринга и математике), а опция выбора уровня рассуждений дает возможность адаптировать модель под конкретную загрузку и качество вывода. Для стандартных бытовых запросов o1 может быть избыточен, тогда как o3-mini medium покрывает большинство типовых задач. Также в ChatGPT для o3-mini появилась экспериментальная функция поиска в интернете для уточнения ответов.
В сравнении с DeepSeek-R1, o3-mini заметно дороже (около $0.14 за миллион входных токенов у R1 против $1.10 у o3-mini), также R1 имеет открытую лицензию MIT. Это делает R1 привлекательным для исследователей и команд, которым важна кастомизация и локальное размещение.
Сравним модели o3-mini и R1 по нескольким бенчмаркам:
• AIME (генерация кода): победитель o3-mini-high с 87.3% (R1 имеет 79.8%)
• GPQA (набор из 448 вопросов по биологии, физике и химии уровня PhD): победитель o3-mini-high с 79.7% (R1 имеет 71.5%)
• Codeforces (соревновательное программирование): победитель o3-mini-high с 2130 (R1 имеет 2029)
• SWE (инженерные задачи): победитель o3-mini-high с 49.3% (R1 имеет 49.2%)
• MMLU (задачи на понимание языка): победитель DeepSeek R1 с 90.8% (o3-mini-high имеет 86.9%)
• Math (математические задачи): победитель o3-mini-high с 97.9% (R1 имеет 97.3%)
• SimpleQA (простые вопросы и ответы): победитель: DeepSeek R1 с 30.1% (o3-mini-high имеет 13.8%)
Итого o3 с высоким уровнем рассуждений выигрывает DeepSeek-R1 в пяти из семи бенчмарков.
Однако DeepSeek-R1 является значительно менее безопасной по сравнению с o3-mini в тесте ASTRAL. DeepSeek-R1 дала небезопасный ответ на 11,98% выполненных запросов, в то время как o3-mini — лишь на 1,19%.
Выбор между моделями зависит от конкретных потребностей: для глубокого анализа с прозрачностью рассуждений R1 может быть привлекательнее, в то время как для стабильных, масштабируемых решений в продакшене o3-mini выглядит более оптимальным вариантом.
#новости
Openai
OpenAI o3-mini
Pushing the frontier of cost-effective reasoning.
Deep Research от OpenAI: Прорыв в автоматизации глубоких исследований
Вчера OpenAI представила Deep Research – автономного ИИ-агента, способного самостоятельно проводить многоступенчатые исследования в интернете. Deep Research доступен в тарифе Pro с 100 запросами в месяц.
В отличие от обычных поисковых систем, которые возвращают короткие ответы или ссылки за считанные секунды, Deep Research «рассуждает» до 30 минут, проводя глубокий анализ сотен источников, агрегируя данные и синтезируя их в единую, детально задокументированную работу. Такой подход, в теории, позволяет системе выдавать отчеты, сопоставимые по качеству с результатами труда профессионального аналитика.
В основе работы Deep Research лежит принцип автономного планирования исследования. Пользователь вводит запрос, после чего система задает уточняющие вопросы для сбора необходимых деталей. Это позволяет агенту точно понять задачу и разработать план поиска.
После утверждения плана Deep Research последовательно проводит поиск по сотням сайтов, просматривает текст, изображения и PDF-файлы, анализирует и агрегирует найденные данные, а в итоге синтезирует информацию в виде структурированного отчета со ссылками и цитатами. Такой подход кардинально отличается от обычного поиска, где выдача основывается лишь на ранжировании ссылок без детального анализа содержимого и контекста.
Deep Research сочетает в себе возможности веб-браузинга, выполнения Python-скриптов для численного анализа и создания визуализаций, а также анализа прикрепленных пользователем файлов. Это позволяет агенту находить нужные данные, обрабатывать их, строить графики и таблицы, что значительно повышает качество итогового отчета.
Помимо конечного результата, пользователю доступен «сайдбар», в котором отображается цепочка рассуждений агента. Такой уровень прозрачности помогает в фактчекинге.
В тесте Humanity’s Last Exam (более 3 000 вопросов от лингвистики до ракетостроения), Deep Research показал точность 26,6 %. Для сравнения, модели, такие как Grok-2 и GPT-4o, набрали всего 3,8 % и 3,3 % соответственно, а конкурирующая модель Gemini Thinking – 6,2 %. Впечатляющий прогресс.
Вспомните недавний релиз Оператора для выполнения рутинных действий в браузере от OpenAI. Сейчас компания фокусируется на развитии основных агентов, применяемых в практических задачах. Deep Research, Operator и будущие специализированные агенты будут интегрированы в единую мультиагентную систему.
Неужели OpenAI готовят продвинутого агента-программиста, способного самостоятельно обучать ИИ-модели?
Если все эти агенты объединятся в мультиагентную систему, которая сможет проводить исследования, писать код и действовать в интернете как единое целое, мы, возможно, увидим первые признаки общего ИИ (AGI).
Это будет система, способная самостоятельно обучаться, открывать новые знания и действовать в самых разнообразных сферах жизни, а главное, по версии Microsoft, – автономно зарабатывать миллиарды долларов.
Конечно, всем агентам придется пройти «путь становления» по отдельности, но, судя по дорожной карте AGI от OpenAI, Оператор будет «пробивать» третий уровень (автономность), а Deep Research четвертый (инновационность), останется последний (организованность).
Поэтому Deep Research – это не просто инструмент для поиска информации, а фундаментальный шаг к созданию автономных ИИ-агентов, которые могут вывести качество исследований на новый уровень.
Остается только ожидать более массовое появление воплощенных (embodied) агентов, которые будут искать и анализировать информацию не только в интернете, но и в реальном мире в форме роботов.
Этот год для ИИ-агентов обещает быть жарким.
#новости
Вчера OpenAI представила Deep Research – автономного ИИ-агента, способного самостоятельно проводить многоступенчатые исследования в интернете. Deep Research доступен в тарифе Pro с 100 запросами в месяц.
В отличие от обычных поисковых систем, которые возвращают короткие ответы или ссылки за считанные секунды, Deep Research «рассуждает» до 30 минут, проводя глубокий анализ сотен источников, агрегируя данные и синтезируя их в единую, детально задокументированную работу. Такой подход, в теории, позволяет системе выдавать отчеты, сопоставимые по качеству с результатами труда профессионального аналитика.
В основе работы Deep Research лежит принцип автономного планирования исследования. Пользователь вводит запрос, после чего система задает уточняющие вопросы для сбора необходимых деталей. Это позволяет агенту точно понять задачу и разработать план поиска.
После утверждения плана Deep Research последовательно проводит поиск по сотням сайтов, просматривает текст, изображения и PDF-файлы, анализирует и агрегирует найденные данные, а в итоге синтезирует информацию в виде структурированного отчета со ссылками и цитатами. Такой подход кардинально отличается от обычного поиска, где выдача основывается лишь на ранжировании ссылок без детального анализа содержимого и контекста.
Deep Research сочетает в себе возможности веб-браузинга, выполнения Python-скриптов для численного анализа и создания визуализаций, а также анализа прикрепленных пользователем файлов. Это позволяет агенту находить нужные данные, обрабатывать их, строить графики и таблицы, что значительно повышает качество итогового отчета.
Помимо конечного результата, пользователю доступен «сайдбар», в котором отображается цепочка рассуждений агента. Такой уровень прозрачности помогает в фактчекинге.
В тесте Humanity’s Last Exam (более 3 000 вопросов от лингвистики до ракетостроения), Deep Research показал точность 26,6 %. Для сравнения, модели, такие как Grok-2 и GPT-4o, набрали всего 3,8 % и 3,3 % соответственно, а конкурирующая модель Gemini Thinking – 6,2 %. Впечатляющий прогресс.
Вспомните недавний релиз Оператора для выполнения рутинных действий в браузере от OpenAI. Сейчас компания фокусируется на развитии основных агентов, применяемых в практических задачах. Deep Research, Operator и будущие специализированные агенты будут интегрированы в единую мультиагентную систему.
Неужели OpenAI готовят продвинутого агента-программиста, способного самостоятельно обучать ИИ-модели?
Если все эти агенты объединятся в мультиагентную систему, которая сможет проводить исследования, писать код и действовать в интернете как единое целое, мы, возможно, увидим первые признаки общего ИИ (AGI).
Это будет система, способная самостоятельно обучаться, открывать новые знания и действовать в самых разнообразных сферах жизни, а главное, по версии Microsoft, – автономно зарабатывать миллиарды долларов.
Конечно, всем агентам придется пройти «путь становления» по отдельности, но, судя по дорожной карте AGI от OpenAI, Оператор будет «пробивать» третий уровень (автономность), а Deep Research четвертый (инновационность), останется последний (организованность).
Поэтому Deep Research – это не просто инструмент для поиска информации, а фундаментальный шаг к созданию автономных ИИ-агентов, которые могут вывести качество исследований на новый уровень.
Остается только ожидать более массовое появление воплощенных (embodied) агентов, которые будут искать и анализировать информацию не только в интернете, но и в реальном мире в форме роботов.
Этот год для ИИ-агентов обещает быть жарким.
#новости
Openai
Introducing deep research
An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you. Available to Pro users today, Plus and Team next.