This media is not supported in your browser
VIEW IN TELEGRAM
Figure создает гуманоидных роботов с ИИ, которые анализируют объекты с помощью визуально-языковых моделей (VLM). На видео робот определяет съедобные предметы и передает человеку яблоко, демонстрируя способность к пониманию.
#технологии
#технологии
Как ИИ меняет военные конфликты
Как известно, война никогда не меняется. Но также известно, что война – двигатель прогресса. Поле боя всегда становилось ареной противоборства не только людей, но и технологий. Железо против бронзы, аркебузы против рыцарской конницы, и так далее, и тому подобное – примеров можно подобрать множество. В современном мире информационные технологии становятся ключевым фактором, определяющим исход военных конфликтов. Искусственный интеллект (ИИ) со временем кардинально и неизбежно изменит характер войн и военных операций, найдя применение во всех аспектах боевых действий.
Информационная война: с помощью дипфейков и бот-ферм распространяются фейковые новости и пропаганда. Кибератаки на инфраструктуру противника становятся более эффективными благодаря интеллектуальному анализу данных.
Стратегическое и тактическое планирование: на уровне театра военных действий ИИ, обученный на алгоритмах теории игр, может на данных мониторинга спутниковых снимков (см. британский проект Spotter) анализировать военную активность, симулировать различные сценарии и давать рекомендации военному руководству, повышая скорость и качество управления войсками. Аналогичный проект StormCloud, тоже родом из Британии, созданный Королевским флотом совместно c Microsoft и AWS, действует на тактическом уровне и анализирует данные с дронов, спутников и наземных сенсоров.
Применение в войсках: еще в 2021 году турецкий дрон Kargu-2 впервые в истории совершил автономную атаку. Дроны Bayraktar TB2 способны выполнять боевые задачи даже при нарушении связи с оператором. Различные наземные роботы используются для разведки, разминирования, эвакуации раненых. Отдельная история – роевые технологии, когда ПВО противника перегружается множеством дронов, управляемых единой интеллектуальной системой. В этой области мы узнаем что-то новое чуть ли не ежедневно.
Вытесняя людей из войн, ИИ меняет саму их природу. В будущем автономные роботы и дроны будут в основном сражаться между собой, а людям останется роль операторов, как в видеоигре – причем даже не в шутере, а в стратегии реального времени, условной Starcraft. Это снизит потери, увеличит скорость и точность операций, но повысит риски неконтролируемой эскалации и ошибок ИИ.
Внедрение ИИ в военное дело поднимает серьезные этические вопросы: можно ли доверять машинам принимать решения о жизни и смерти? Кто несет ответственность за ошибки ИИ? Не может ли развитие военных технологий и стремление к технологическому превосходству привести к новым конфликтам само по себе?
Мы не можем остановить развитие технологий, но можем договариваться о том, как их использовать. Военные применения ИИ – тот самый случай, когда очень важно выработать единые гуманные стандарты поведения устройств на базе искусственного интеллекта, прежде всего для того, чтобы сберечь жизни мирных жителей. Иначе вполне возможно, что в войнах будущего, когда роботы окончательно отстранят людей от участия в боевых действиях, гибнуть будут только гражданские. Уверен, не о таком будущем мы все мечтаем.
#технологии
Как известно, война никогда не меняется. Но также известно, что война – двигатель прогресса. Поле боя всегда становилось ареной противоборства не только людей, но и технологий. Железо против бронзы, аркебузы против рыцарской конницы, и так далее, и тому подобное – примеров можно подобрать множество. В современном мире информационные технологии становятся ключевым фактором, определяющим исход военных конфликтов. Искусственный интеллект (ИИ) со временем кардинально и неизбежно изменит характер войн и военных операций, найдя применение во всех аспектах боевых действий.
Информационная война: с помощью дипфейков и бот-ферм распространяются фейковые новости и пропаганда. Кибератаки на инфраструктуру противника становятся более эффективными благодаря интеллектуальному анализу данных.
Стратегическое и тактическое планирование: на уровне театра военных действий ИИ, обученный на алгоритмах теории игр, может на данных мониторинга спутниковых снимков (см. британский проект Spotter) анализировать военную активность, симулировать различные сценарии и давать рекомендации военному руководству, повышая скорость и качество управления войсками. Аналогичный проект StormCloud, тоже родом из Британии, созданный Королевским флотом совместно c Microsoft и AWS, действует на тактическом уровне и анализирует данные с дронов, спутников и наземных сенсоров.
Применение в войсках: еще в 2021 году турецкий дрон Kargu-2 впервые в истории совершил автономную атаку. Дроны Bayraktar TB2 способны выполнять боевые задачи даже при нарушении связи с оператором. Различные наземные роботы используются для разведки, разминирования, эвакуации раненых. Отдельная история – роевые технологии, когда ПВО противника перегружается множеством дронов, управляемых единой интеллектуальной системой. В этой области мы узнаем что-то новое чуть ли не ежедневно.
Вытесняя людей из войн, ИИ меняет саму их природу. В будущем автономные роботы и дроны будут в основном сражаться между собой, а людям останется роль операторов, как в видеоигре – причем даже не в шутере, а в стратегии реального времени, условной Starcraft. Это снизит потери, увеличит скорость и точность операций, но повысит риски неконтролируемой эскалации и ошибок ИИ.
Внедрение ИИ в военное дело поднимает серьезные этические вопросы: можно ли доверять машинам принимать решения о жизни и смерти? Кто несет ответственность за ошибки ИИ? Не может ли развитие военных технологий и стремление к технологическому превосходству привести к новым конфликтам само по себе?
Мы не можем остановить развитие технологий, но можем договариваться о том, как их использовать. Военные применения ИИ – тот самый случай, когда очень важно выработать единые гуманные стандарты поведения устройств на базе искусственного интеллекта, прежде всего для того, чтобы сберечь жизни мирных жителей. Иначе вполне возможно, что в войнах будущего, когда роботы окончательно отстранят людей от участия в боевых действиях, гибнуть будут только гражданские. Уверен, не о таком будущем мы все мечтаем.
#технологии
Media is too big
VIEW IN TELEGRAM
На видео показано, как передовые автономные дроны с ИИ способны эффективно перемещаться в сложных средах и формировать рой.
Роевые системы обеспечивают координацию и избегание препятствий в реальном времени, что повышает точность и скорость военных операций.
#технологии
Роевые системы обеспечивают координацию и избегание препятствий в реальном времени, что повышает точность и скорость военных операций.
#технологии
Топ-10 кейсов неэтичного применения ИИ
В своей статье «Этические проблемы в продвинутом искусственном интеллекте» философ Ник Бостром предупреждает, что ИИ способен вызвать вымирание человечества. Он утверждает, что сверхразумный ИИ может действовать автономно и создавать собственные планы, что делает его независимым агентом с потенциально непредсказуемым поведением.
В 2021 году в России был подписан Кодекс этики в сфере ИИ, а в 2024 году Европейский союз принял Регламент об искусственном интеллекте, направленный на создание общей нормативно-правовой базы для использования ИИ.
Но несмотря на эти усилия, примеры неэтичного использования ИИ продолжают появляться. Давайте рассмотрим топ-10 таких случаев:
1. Автономное оружие. Некоторые страны разрабатывают автономные дроны и роботов-убийц, которые могут идентифицировать и уничтожать цели без непосредственного контроля оператора. Это повышает риск неконтролируемого применения силы и возможных гражданских жертв. Об этом я писал совсем недавно.
2. Фейковые новости. Языковые модели позволяют генерировать статьи и сообщения в социальных сетях, которые выглядят как настоящие новости, но содержат ложную или искаженную информацию. Это влияет на общественное мнение и может дестабилизировать политическую ситуацию.
3. Дипфейки и подмена голосов. В сети распространялись видео с известными политиками. Бывший президент США Дональд Трамп опубликовал на платформе Truth Social поддельное видео с якобы реакцией ведущего CNN Андерсона Купера на его участие в теледебатах.
4. Вмешательство в выборы. Знаменитый кейс с Cambridge Analytica, которая собрала данные миллионов пользователей Facebook без их согласия и использовала их для микротаргетинга политической рекламы во время выборов в США в 2016 году.
5. ИИ для создания порнографического контента. Приложения, которые могут «раздеть» людей на фотографиях или вставить их лица в порнографические видео, нарушают права на приватность и могут привести к кибербуллингу и шантажу. Так в феврале 2024 года Тейлор Свифт стала жертвой фейковых порнографических изображений, созданных с помощью ИИ и распространившихся в соцсетях.
6. Манипуляция рекомендательными системами. Социальные сети могут продвигать контент, вызывающий сильные эмоциональные реакции, чтобы увеличить время пребывания пользователей на платформе, даже если этот контент содержит дезинформацию или экстремистские идеи.
7. Фермы ботов для политического влияния. Во время политических кампаний боты массово публикуют сообщения в поддержку или против определенных кандидатов, создавая иллюзию массовой поддержки или недовольства. Также эти боты занимаются пропагандой в социальных сетях.
8. Слежка за гражданами без их согласия. Камеры с распознаванием лиц устанавливаются в общественных местах, собирая данные о передвижениях людей, что может использоваться для контроля и подавления инакомыслия. В Китае это уже считается нормой.
9. Подделка документов. Владелец бизнеса из Миссури был оштрафован на 10 тыс. долларов за использование ложных ссылок на судебные дела, сгенерированных ИИ, в юридических документах.
10. Применение медицинских данных для дискриминации. Страховые компании могут использовать ИИ для оценки рисков на основе генетических данных, что может привести к отказу в страховании людей с определенными предрасположенностями.
Очевидно, что влияние ИИ на нашу жизнь становится все более глубоким и неоднозначным. Конечно, можно рассуждать об ответственности разработчиков, вводить кодексы, запрещающие использовать ИИ-контент без пометки «сделано ИИ», договориться о раскрытии источников датасетов для общественности, но это не поможет, если изначальная цель применения ИИ далека от этичной, а у заказчика достаточно ресурсов.
Поэтому особую важность приобретает выработка коллективного иммунитета от фейков, дипфейков и прочего. Другой вопрос, что такой иммунитет сам по себе может и будет использоваться для манипуляций общественным мнением и в других неприглядных целях.
#технологии
В своей статье «Этические проблемы в продвинутом искусственном интеллекте» философ Ник Бостром предупреждает, что ИИ способен вызвать вымирание человечества. Он утверждает, что сверхразумный ИИ может действовать автономно и создавать собственные планы, что делает его независимым агентом с потенциально непредсказуемым поведением.
В 2021 году в России был подписан Кодекс этики в сфере ИИ, а в 2024 году Европейский союз принял Регламент об искусственном интеллекте, направленный на создание общей нормативно-правовой базы для использования ИИ.
Но несмотря на эти усилия, примеры неэтичного использования ИИ продолжают появляться. Давайте рассмотрим топ-10 таких случаев:
1. Автономное оружие. Некоторые страны разрабатывают автономные дроны и роботов-убийц, которые могут идентифицировать и уничтожать цели без непосредственного контроля оператора. Это повышает риск неконтролируемого применения силы и возможных гражданских жертв. Об этом я писал совсем недавно.
2. Фейковые новости. Языковые модели позволяют генерировать статьи и сообщения в социальных сетях, которые выглядят как настоящие новости, но содержат ложную или искаженную информацию. Это влияет на общественное мнение и может дестабилизировать политическую ситуацию.
3. Дипфейки и подмена голосов. В сети распространялись видео с известными политиками. Бывший президент США Дональд Трамп опубликовал на платформе Truth Social поддельное видео с якобы реакцией ведущего CNN Андерсона Купера на его участие в теледебатах.
4. Вмешательство в выборы. Знаменитый кейс с Cambridge Analytica, которая собрала данные миллионов пользователей Facebook без их согласия и использовала их для микротаргетинга политической рекламы во время выборов в США в 2016 году.
5. ИИ для создания порнографического контента. Приложения, которые могут «раздеть» людей на фотографиях или вставить их лица в порнографические видео, нарушают права на приватность и могут привести к кибербуллингу и шантажу. Так в феврале 2024 года Тейлор Свифт стала жертвой фейковых порнографических изображений, созданных с помощью ИИ и распространившихся в соцсетях.
6. Манипуляция рекомендательными системами. Социальные сети могут продвигать контент, вызывающий сильные эмоциональные реакции, чтобы увеличить время пребывания пользователей на платформе, даже если этот контент содержит дезинформацию или экстремистские идеи.
7. Фермы ботов для политического влияния. Во время политических кампаний боты массово публикуют сообщения в поддержку или против определенных кандидатов, создавая иллюзию массовой поддержки или недовольства. Также эти боты занимаются пропагандой в социальных сетях.
8. Слежка за гражданами без их согласия. Камеры с распознаванием лиц устанавливаются в общественных местах, собирая данные о передвижениях людей, что может использоваться для контроля и подавления инакомыслия. В Китае это уже считается нормой.
9. Подделка документов. Владелец бизнеса из Миссури был оштрафован на 10 тыс. долларов за использование ложных ссылок на судебные дела, сгенерированных ИИ, в юридических документах.
10. Применение медицинских данных для дискриминации. Страховые компании могут использовать ИИ для оценки рисков на основе генетических данных, что может привести к отказу в страховании людей с определенными предрасположенностями.
Очевидно, что влияние ИИ на нашу жизнь становится все более глубоким и неоднозначным. Конечно, можно рассуждать об ответственности разработчиков, вводить кодексы, запрещающие использовать ИИ-контент без пометки «сделано ИИ», договориться о раскрытии источников датасетов для общественности, но это не поможет, если изначальная цель применения ИИ далека от этичной, а у заказчика достаточно ресурсов.
Поэтому особую важность приобретает выработка коллективного иммунитета от фейков, дипфейков и прочего. Другой вопрос, что такой иммунитет сам по себе может и будет использоваться для манипуляций общественным мнением и в других неприглядных целях.
#технологии
Пять ИИ-инструментов, которые сделают из вас сверхчеловека
Все говорят о том, что ИИ повышает продуктивность работы. Я задумался о создании обширного списка таких инструментов, но осознал, что всего пять из них покрывают 80% моих задач.
1. Мозг на аутсорсе: ChatGPT ($20/месяц) и Claude ($18/месяц)
Главными помощниками в моей работе стали ChatGPT от OpenAI и Claude от Anthropic. Хотя чаще я использую ChatGPT, в некоторых ситуациях Claude оказывается более подходящим.
ChatGPT отлично генерирует формальный текст, помогает структурировать мысли, формулировать сложные предложения и корректировать грамматику. Claude предлагает более творческие и нестандартные решения, что особенно полезно при написании статей.
Например, при необходимости сообщить сотруднику об увольнении, я прогоняю свою речь через ChatGPT, чтобы смягчить тон и донести информацию корректно. В рабочих чатах использую его для улучшения стиля и устранения ошибок. Часто ChatGPT помогает мне подготовить драфт речи для выступлений.
В последнее время я использую модели o1-preview и o1-mini с более продвинутыми возможностями рассуждения. Они позволяют взглянуть на задачи под другим углом и предлагают новые решения. Важно уметь правильно работать с промптами для получения наилучших результатов; обычно я предоставляю пару примеров своих сообщений, чтобы инструмент мог скопировать мой стиль.
2. Умный поиск: Perplexity ($20/месяц)
Perplexity — продвинутый инструмент для поиска информации, который я использую чаще, чем Google. Он находит более релевантные и точные ответы на мои запросы.
Perplexity сканирует интернет в реальном времени, собирая информацию из авторитетных источников: статей, сайтов, журналов. Затем объединяет наиболее релевантные сведения в понятный ответ, предоставляя ссылки на оригинальные материалы для проверки и углубленного изучения.
Этот инструмент существенно экономит время при проведении исследований. Обычно я использую Perplexity в сочетании с ChatGPT: получаю нужные источники информации с помощью первого и создаю необходимый материал с помощью второго.
3. Заметки со встреч: TL;DV ($18/месяц)
TL;DV стал незаменимым инструментом для моих рабочих встреч. Каждый раз, когда провожу созвон, TL;DV записывает его, распознаёт участников, суммирует и выделяет ключевые моменты.
Я могу вернуться к записям в любое время, чтобы убедиться, что ничего не упустил. На основе нескольких встреч обычно загружаю записи в ChatGPT, который генерирует интересные идеи и инсайты. Однажды я попросил создать новую бизнес-модель продукта на основе записей за шесть месяцев работы — результат превзошел ожидания.
4. Создание изображений: Flux Pro ($0.05/картинка)
Когда необходимо создать изображения для презентаций, я использую Flux. Ранее я пользовался Stable Diffusion от Stability AI, но после появления Flux Pro полностью перешёл на него благодаря более высокому качеству генерации.
5. Работа с кодом: Cursor ($20/месяц)
Последний, но не менее важный инструмент — Cursor — революционный помощник в программировании. Это не просто автодополнение кода; Cursor работает со всеми файлами проекта, а не только с текущим окном контекста.
Cursor анализирует весь проект, понимая общую структуру и зависимости, что позволяет предлагать точные и полезные подсказки. Я пишу код для своих проектов с помощью Cursor и уже не помню, когда последний раз программировал вручную. Это ускоряет разработку и повышает качество кода. Возможность давать команды на естественном языке и получать готовые решения экономит огромное количество времени.
Несмотря на множество новых ИИ-решений на рынке, этого набора мне хватает, чтобы эффективно выполнять большинство задач и оставаться продуктивным. Конечно, важно следить за новинками, но еще важнее уметь пользоваться тем, что приносит пользу прямо сейчас.
#технологии
Все говорят о том, что ИИ повышает продуктивность работы. Я задумался о создании обширного списка таких инструментов, но осознал, что всего пять из них покрывают 80% моих задач.
1. Мозг на аутсорсе: ChatGPT ($20/месяц) и Claude ($18/месяц)
Главными помощниками в моей работе стали ChatGPT от OpenAI и Claude от Anthropic. Хотя чаще я использую ChatGPT, в некоторых ситуациях Claude оказывается более подходящим.
ChatGPT отлично генерирует формальный текст, помогает структурировать мысли, формулировать сложные предложения и корректировать грамматику. Claude предлагает более творческие и нестандартные решения, что особенно полезно при написании статей.
Например, при необходимости сообщить сотруднику об увольнении, я прогоняю свою речь через ChatGPT, чтобы смягчить тон и донести информацию корректно. В рабочих чатах использую его для улучшения стиля и устранения ошибок. Часто ChatGPT помогает мне подготовить драфт речи для выступлений.
В последнее время я использую модели o1-preview и o1-mini с более продвинутыми возможностями рассуждения. Они позволяют взглянуть на задачи под другим углом и предлагают новые решения. Важно уметь правильно работать с промптами для получения наилучших результатов; обычно я предоставляю пару примеров своих сообщений, чтобы инструмент мог скопировать мой стиль.
2. Умный поиск: Perplexity ($20/месяц)
Perplexity — продвинутый инструмент для поиска информации, который я использую чаще, чем Google. Он находит более релевантные и точные ответы на мои запросы.
Perplexity сканирует интернет в реальном времени, собирая информацию из авторитетных источников: статей, сайтов, журналов. Затем объединяет наиболее релевантные сведения в понятный ответ, предоставляя ссылки на оригинальные материалы для проверки и углубленного изучения.
Этот инструмент существенно экономит время при проведении исследований. Обычно я использую Perplexity в сочетании с ChatGPT: получаю нужные источники информации с помощью первого и создаю необходимый материал с помощью второго.
3. Заметки со встреч: TL;DV ($18/месяц)
TL;DV стал незаменимым инструментом для моих рабочих встреч. Каждый раз, когда провожу созвон, TL;DV записывает его, распознаёт участников, суммирует и выделяет ключевые моменты.
Я могу вернуться к записям в любое время, чтобы убедиться, что ничего не упустил. На основе нескольких встреч обычно загружаю записи в ChatGPT, который генерирует интересные идеи и инсайты. Однажды я попросил создать новую бизнес-модель продукта на основе записей за шесть месяцев работы — результат превзошел ожидания.
4. Создание изображений: Flux Pro ($0.05/картинка)
Когда необходимо создать изображения для презентаций, я использую Flux. Ранее я пользовался Stable Diffusion от Stability AI, но после появления Flux Pro полностью перешёл на него благодаря более высокому качеству генерации.
5. Работа с кодом: Cursor ($20/месяц)
Последний, но не менее важный инструмент — Cursor — революционный помощник в программировании. Это не просто автодополнение кода; Cursor работает со всеми файлами проекта, а не только с текущим окном контекста.
Cursor анализирует весь проект, понимая общую структуру и зависимости, что позволяет предлагать точные и полезные подсказки. Я пишу код для своих проектов с помощью Cursor и уже не помню, когда последний раз программировал вручную. Это ускоряет разработку и повышает качество кода. Возможность давать команды на естественном языке и получать готовые решения экономит огромное количество времени.
Несмотря на множество новых ИИ-решений на рынке, этого набора мне хватает, чтобы эффективно выполнять большинство задач и оставаться продуктивным. Конечно, важно следить за новинками, но еще важнее уметь пользоваться тем, что приносит пользу прямо сейчас.
#технологии
Топ ИИ-инструментов для создания контента
Искусственный интеллект все больше влияет на то, как мы создаем контент — от написания статей и создания изображений до музыки и видео. Недавно я наткнулся на исследование, которое показало, что читатели нередко отдают предпочтение контенту, созданному ИИ, по сравнению с материалами от профессиональных авторов.
Марк Цукерберг недавно заявил, что в ближайшем будущем на его платформах станет больше контента, созданного с помощью ИИ. Он называет это "естественной эволюцией" соцсетей.
С учетом этого тренда, я решил собрать список лучших ИИ-инструментов для создания различных типов контента:
1. Генерация текста
• Jasper AI от $49 в месяц: В отличии от ChatGPT или Claude этот инструмент специализирован на создании контента для маркетинга, SEO-оптимизации, блогов и постов для соцсетей.
• WriteSonic от $16 в месяц: Подходит для генерации статей, эссе, а также для переписывания текста. Доступен бесплатный план для ознакомления.
• Quillbot от $8 в месяц: Отличный помощник для переписывания, перевода, проверки грамматики и улучшения стиля текста. Помогает избежать плагиата, доступна бесплатная версия и Chrome-плагин.
2. Генерация изображений
• Midjourney от $10 в месяц (~200 изображений): Если вам нужны привлекательные и детализированные изображения по текстовым запросам, то этот инструмент для вас. Однако он предлагает меньше гибкости в настройках по сравнению со следующими двумя моделями.
• Stable Diffusion: Это инструмент с открытым исходным кодом. Можно запускать локально на собственном оборудовании без необходимости подписки или можно воспользоваться специальными платформами.
• FLUX.1: Новое семейство моделей от бывших участников команды Stable Diffusion. Предлагает улучшенное качество, особенно в генерации рук и текста на изображениях, а также отличается отсутствием цензуры (можно настраивать через API). Flux Schnell самая быстрая и дешевая модель; Flux Dev предназначена для некоммерческого использования; а Flux Pro самая качественная, но дорогая. Цена зависит от платформы, в среднем Flux Pro за одну картинку стоит от $0.05.
3. Генерация музыки
• Suno AI от $8 в месяц: Позволяет генерировать полные песни с вокалом и инструментами на основе текстового описания. Можно создать до 10 песен бесплатно.
• Mubert от $12 в месяц: Отличный инструмент для создания музыки без роялти. Вы можете генерировать треки, лупы, джинглы и фоновую музыку. Бесплатно можно создать до 25 треков в месяц.
• MusicGen: Позволяет генерировать музыку по текстовым запросам и добавлять аудио-примеры. Однако треки ограничены до 15 секунд. Это бесплатный инструмент с открытым исходным кодом.
4. Генерация голоса
• ElevenLabs от $5 в месяц: Обладает большой библиотекой реалистичных голосов, позволяет настраивать параметры и даже клонировать голоса. Бесплатно вы получаете около 10 минут аудио в месяц.
• Murf от $23 в месяц: Предлагает контроль акцентов и эмоций, настройку скорости и высоты тона, а также интеграцию с видео и музыкой. Бесплатный план включает 10 минут генерации.
• OpenAI Advanced Voice от $20 в месяц: Это голосовой ассистент с естественным звучанием, адаптирующийся к стилю пользователя. Доступен ограниченному числу пользователей и требует подписки ChatGPT Plus.
5. Генерация видео
• Runway от $15 в месяц: Runway позволяет генерировать видео по текстовым запросам и изображениям с контролем камеры и анимацией персонажей.
• Luma Dream Machine от $30 в месяц: Специализируется на создании и высококачественных консистентных видео на основе текста и изображений с контролем камеры.
• Kling от $10 в месяц: Китайская альтернатива генерации видео по тексту и картинкам. По качеству не сильно уступает предыдущим двум моделям.
ИИ автоматизирует создание контента, но смыслы и идеи для контента придумывает человек. Однако создатели контента, умеющие эффективно использовать ИИ-инструменты, становятся особенно востребованы уже сегодня, создавая больше вовлекательного контента в единицу времени.
#технологии
Искусственный интеллект все больше влияет на то, как мы создаем контент — от написания статей и создания изображений до музыки и видео. Недавно я наткнулся на исследование, которое показало, что читатели нередко отдают предпочтение контенту, созданному ИИ, по сравнению с материалами от профессиональных авторов.
Марк Цукерберг недавно заявил, что в ближайшем будущем на его платформах станет больше контента, созданного с помощью ИИ. Он называет это "естественной эволюцией" соцсетей.
С учетом этого тренда, я решил собрать список лучших ИИ-инструментов для создания различных типов контента:
1. Генерация текста
• Jasper AI от $49 в месяц: В отличии от ChatGPT или Claude этот инструмент специализирован на создании контента для маркетинга, SEO-оптимизации, блогов и постов для соцсетей.
• WriteSonic от $16 в месяц: Подходит для генерации статей, эссе, а также для переписывания текста. Доступен бесплатный план для ознакомления.
• Quillbot от $8 в месяц: Отличный помощник для переписывания, перевода, проверки грамматики и улучшения стиля текста. Помогает избежать плагиата, доступна бесплатная версия и Chrome-плагин.
2. Генерация изображений
• Midjourney от $10 в месяц (~200 изображений): Если вам нужны привлекательные и детализированные изображения по текстовым запросам, то этот инструмент для вас. Однако он предлагает меньше гибкости в настройках по сравнению со следующими двумя моделями.
• Stable Diffusion: Это инструмент с открытым исходным кодом. Можно запускать локально на собственном оборудовании без необходимости подписки или можно воспользоваться специальными платформами.
• FLUX.1: Новое семейство моделей от бывших участников команды Stable Diffusion. Предлагает улучшенное качество, особенно в генерации рук и текста на изображениях, а также отличается отсутствием цензуры (можно настраивать через API). Flux Schnell самая быстрая и дешевая модель; Flux Dev предназначена для некоммерческого использования; а Flux Pro самая качественная, но дорогая. Цена зависит от платформы, в среднем Flux Pro за одну картинку стоит от $0.05.
3. Генерация музыки
• Suno AI от $8 в месяц: Позволяет генерировать полные песни с вокалом и инструментами на основе текстового описания. Можно создать до 10 песен бесплатно.
• Mubert от $12 в месяц: Отличный инструмент для создания музыки без роялти. Вы можете генерировать треки, лупы, джинглы и фоновую музыку. Бесплатно можно создать до 25 треков в месяц.
• MusicGen: Позволяет генерировать музыку по текстовым запросам и добавлять аудио-примеры. Однако треки ограничены до 15 секунд. Это бесплатный инструмент с открытым исходным кодом.
4. Генерация голоса
• ElevenLabs от $5 в месяц: Обладает большой библиотекой реалистичных голосов, позволяет настраивать параметры и даже клонировать голоса. Бесплатно вы получаете около 10 минут аудио в месяц.
• Murf от $23 в месяц: Предлагает контроль акцентов и эмоций, настройку скорости и высоты тона, а также интеграцию с видео и музыкой. Бесплатный план включает 10 минут генерации.
• OpenAI Advanced Voice от $20 в месяц: Это голосовой ассистент с естественным звучанием, адаптирующийся к стилю пользователя. Доступен ограниченному числу пользователей и требует подписки ChatGPT Plus.
5. Генерация видео
• Runway от $15 в месяц: Runway позволяет генерировать видео по текстовым запросам и изображениям с контролем камеры и анимацией персонажей.
• Luma Dream Machine от $30 в месяц: Специализируется на создании и высококачественных консистентных видео на основе текста и изображений с контролем камеры.
• Kling от $10 в месяц: Китайская альтернатива генерации видео по тексту и картинкам. По качеству не сильно уступает предыдущим двум моделям.
ИИ автоматизирует создание контента, но смыслы и идеи для контента придумывает человек. Однако создатели контента, умеющие эффективно использовать ИИ-инструменты, становятся особенно востребованы уже сегодня, создавая больше вовлекательного контента в единицу времени.
#технологии
Forbes
Humans Prefer AI-Generated Content, New Research Suggests
An MIT study showed human subjects rated AI-generated content as better than that created by professional writers.
Большие поведенческие модели (LBM): новый этап в развитии ИИ
Представьте робота, который изучает, как вы готовите еду, и с каждым приготовленным вами блюдом он сам становится всё более искусным поваром. Разбираемся, как большие поведенческие модели (LBM) помогут роботу в этом деле.
Несмотря на впечатляющие достижения больших языковых моделей (LLM) в обработке и генерации текста, они не умеют обрабатывать изображения или сенсорные данные, необходимые роботу для ориентации в физическом пространстве, “понимания” объектов и обучения действиям пользователя.
Так Visual Language Models (VLM), обрабатывающие визуальные данные, могут “понимать” содержимое изображений и отвечать на вопросы по изображениям. Примером такой модели является GPT-4-Vision.
Large Action Models (LAM) обучены на данных о действиях (в том числе из сенсоров). LAM превращают LLM в автономных агентов, способных выполнять комплексные задачи, ориентированные на вызов определённых функций, улучшенное понимание и планирование. Salesforce уже начали выпускать такие модели для автоматизации процессов.
Visual Language Action Models (VLA) обучены на визуальных данных и данных о действиях. Они дают LLM возможность быть “воплощённым” агентом (Embodied Agent) в физическом мире. Например, RT-2 демонстрирует способность робота выполнять сложные команды благодаря использованию цепочки рассуждений. PaLM-E — мультимодальная языковая модель с 562 миллиардами параметров, демонстрирующая высокую универсальность и эффективность. А OpenVLA — открытая модель с 7 миллиардами параметров поддерживает управление несколькими роботами одновременно.
Для обучения агентов применяется обучение с подкреплением (Reinforcement Learning, RL). Существуют различные RL-методы, но в целом обучение агента построено на политике вознаграждений и наказаний за совершение определённых действий. Среди RL-методов также есть обучение с подкреплением на основе обратной связи от пользователя (Reinforcement Learning from Human Feedback, RLHF).
Комплексно задачу по обучению роботов действиям человека решают LBM (Large Behavior Models) — большие мультимодальные поведенческие модели, представляющие новое направление в ИИ. LBM направлены на понимание, моделирование, адаптивное обучение и генерацию человеческого поведения в физическом мире (похоже на RLHF на основе данных из физического мира).
Большие поведенческие модели уже используются на практике:
1. В Lirio разработали первую в мире LBM для здравоохранения. Их модель создаёт гиперперсонализированные рекомендации для пациентов на основе медицинских данных и данных о поведении пациента от различных датчиков.
2. Toyota Research Institute совершил прорыв в обучении роботов новым сложным навыкам с помощью метода Diffusion Policy. Их роботы могут быстро осваивать новые действия, такие как наливание жидкостей или использование инструментов, без необходимости перепрограммирования.
3. Стартап Physical Intelligence привлёк $400 миллионов инвестиций от Джеффа Безоса, OpenAI и других крупных игроков. Они стремятся создать роботов, которые смогут выполнять любые задачи по запросу пользователя, будь то уборка, сборка мебели или обслуживание клиентов.
Однако, как отмечал философ Людвиг Витгенштейн в своём "Логико-философском трактате": "Границы моего языка означают границы моего мира". Это актуально для LBM, так как они всё ещё ограничены данными, на которых обучены. Их "мир" определяется теми модальностями, что они могут воспринимать через сенсоры и понимать с помощью алгоритмов.
Для обучения качественной поведенческой модели нужно больше датчиков для сбора данных из различных модальностей. Так данные электроэнцефалографа позволили бы лучше распознавать и имитировать человеческие эмоции. А обучение моделей с помощью синтетических данных из симуляций делает "картину мира" LBM более разнообразной.
В реальном мире мы пока можем отличить робота от человека. Но возникает вопрос: а как мы будем отличать человеческое поведение от ИИ в цифровом мире?
#технологии
Представьте робота, который изучает, как вы готовите еду, и с каждым приготовленным вами блюдом он сам становится всё более искусным поваром. Разбираемся, как большие поведенческие модели (LBM) помогут роботу в этом деле.
Несмотря на впечатляющие достижения больших языковых моделей (LLM) в обработке и генерации текста, они не умеют обрабатывать изображения или сенсорные данные, необходимые роботу для ориентации в физическом пространстве, “понимания” объектов и обучения действиям пользователя.
Так Visual Language Models (VLM), обрабатывающие визуальные данные, могут “понимать” содержимое изображений и отвечать на вопросы по изображениям. Примером такой модели является GPT-4-Vision.
Large Action Models (LAM) обучены на данных о действиях (в том числе из сенсоров). LAM превращают LLM в автономных агентов, способных выполнять комплексные задачи, ориентированные на вызов определённых функций, улучшенное понимание и планирование. Salesforce уже начали выпускать такие модели для автоматизации процессов.
Visual Language Action Models (VLA) обучены на визуальных данных и данных о действиях. Они дают LLM возможность быть “воплощённым” агентом (Embodied Agent) в физическом мире. Например, RT-2 демонстрирует способность робота выполнять сложные команды благодаря использованию цепочки рассуждений. PaLM-E — мультимодальная языковая модель с 562 миллиардами параметров, демонстрирующая высокую универсальность и эффективность. А OpenVLA — открытая модель с 7 миллиардами параметров поддерживает управление несколькими роботами одновременно.
Для обучения агентов применяется обучение с подкреплением (Reinforcement Learning, RL). Существуют различные RL-методы, но в целом обучение агента построено на политике вознаграждений и наказаний за совершение определённых действий. Среди RL-методов также есть обучение с подкреплением на основе обратной связи от пользователя (Reinforcement Learning from Human Feedback, RLHF).
Комплексно задачу по обучению роботов действиям человека решают LBM (Large Behavior Models) — большие мультимодальные поведенческие модели, представляющие новое направление в ИИ. LBM направлены на понимание, моделирование, адаптивное обучение и генерацию человеческого поведения в физическом мире (похоже на RLHF на основе данных из физического мира).
Большие поведенческие модели уже используются на практике:
1. В Lirio разработали первую в мире LBM для здравоохранения. Их модель создаёт гиперперсонализированные рекомендации для пациентов на основе медицинских данных и данных о поведении пациента от различных датчиков.
2. Toyota Research Institute совершил прорыв в обучении роботов новым сложным навыкам с помощью метода Diffusion Policy. Их роботы могут быстро осваивать новые действия, такие как наливание жидкостей или использование инструментов, без необходимости перепрограммирования.
3. Стартап Physical Intelligence привлёк $400 миллионов инвестиций от Джеффа Безоса, OpenAI и других крупных игроков. Они стремятся создать роботов, которые смогут выполнять любые задачи по запросу пользователя, будь то уборка, сборка мебели или обслуживание клиентов.
Однако, как отмечал философ Людвиг Витгенштейн в своём "Логико-философском трактате": "Границы моего языка означают границы моего мира". Это актуально для LBM, так как они всё ещё ограничены данными, на которых обучены. Их "мир" определяется теми модальностями, что они могут воспринимать через сенсоры и понимать с помощью алгоритмов.
Для обучения качественной поведенческой модели нужно больше датчиков для сбора данных из различных модальностей. Так данные электроэнцефалографа позволили бы лучше распознавать и имитировать человеческие эмоции. А обучение моделей с помощью синтетических данных из симуляций делает "картину мира" LBM более разнообразной.
В реальном мире мы пока можем отличить робота от человека. Но возникает вопрос: а как мы будем отличать человеческое поведение от ИИ в цифровом мире?
#технологии
Forbes
Large Behavior Models Surpass Large Language Models To Create AI That Walks And Talks
Hot AI trend consists of large behavior models (LBM), which is a combination of generative AI LLMs with behavior-oriented AI walk and talk features. Here's the scoop.
Демо-видео, показывающие фантастические возможности модели PaLM-E в выполнении комплексных задач.
Примеры включают получение конкретных предметов, сортировку блоков по цвету, выполнение задач с толканием объектов, а также демонстрацию способности модели обобщать действия на новые объекты, с которыми робот ранее не сталкивался.
#технологии
Примеры включают получение конкретных предметов, сортировку блоков по цвету, выполнение задач с толканием объектов, а также демонстрацию способности модели обобщать действия на новые объекты, с которыми робот ранее не сталкивался.
#технологии
Большие популяционные модели (LPM): как ИИ симулирует социальное поведение?
В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.
Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.
Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.
Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.
Потенциальные области применения больших популяционных моделей обширны:
- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;
- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;
- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.
Недавно ученые разработали модель под названием «Кентавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.
Интересно, что дообучение модели также улучшает согласованность внутренних представлений Кентавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.
Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.
Авторы этой статьи считают замену респондентов LLM привлекательной из-за скорости и дешевизны, но модели пока плохо передают сложные взаимосвязи, дают слишком однородные данные, зависят от контекста и могут искажать восприятие общественного мнения.
LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. Хотя такие модели могут сэкономить время и ресурсы, компании должны быть осторожны, чтобы не полагаться полностью на синтетических респондентов, а использовать их в сочетании с традиционными методами исследований.
С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому с помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.
#технологии
В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.
Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.
Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.
Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.
Потенциальные области применения больших популяционных моделей обширны:
- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;
- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;
- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.
Недавно ученые разработали модель под названием «Кентавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.
Интересно, что дообучение модели также улучшает согласованность внутренних представлений Кентавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.
Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.
Авторы этой статьи считают замену респондентов LLM привлекательной из-за скорости и дешевизны, но модели пока плохо передают сложные взаимосвязи, дают слишком однородные данные, зависят от контекста и могут искажать восприятие общественного мнения.
LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. Хотя такие модели могут сэкономить время и ресурсы, компании должны быть осторожны, чтобы не полагаться полностью на синтетических респондентов, а использовать их в сочетании с традиционными методами исследований.
С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому с помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.
#технологии
Arimadata
The Large Population Model: LLM equivalent for Population Simulation
the-large-population-model-llm-equivalent-for-population-simulation-036faca4389f
This media is not supported in your browser
VIEW IN TELEGRAM
AgentTorch - открытая платформа для создания и запуска масштабных симуляций популяций с использованием больших популяционных моделей (Large Population Models, LPMs). Она открывает новые горизонты для научных открытий и эффективного управления сложными социальными системами.
Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.
AgentTorch использует следующие технологии:
- GradABM: Тензоризированное и дифференцируемое программирование, что позволяет моделям AgentTorch масштабироваться до популяций размером с страну за несколько секунд на стандартном оборудовании;
- DecABM: Децентрализованные агентно-ориентированные модели (DecABMs) используют протоколы разделения секретов для выполнения симуляций без необходимости сбора информации об агентах. Это обеспечивает конфиденциальность чувствительных данных;
- AgentTorch API: Платформа доступна для исследователей и разработчиков через простой Python-API для создания и запуска симуляций.
#технологии
Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.
AgentTorch использует следующие технологии:
- GradABM: Тензоризированное и дифференцируемое программирование, что позволяет моделям AgentTorch масштабироваться до популяций размером с страну за несколько секунд на стандартном оборудовании;
- DecABM: Децентрализованные агентно-ориентированные модели (DecABMs) используют протоколы разделения секретов для выполнения симуляций без необходимости сбора информации об агентах. Это обеспечивает конфиденциальность чувствительных данных;
- AgentTorch API: Платформа доступна для исследователей и разработчиков через простой Python-API для создания и запуска симуляций.
#технологии
Чего ждать от ИИ в следующем году: технологические тренды Gartner 2025
До конца года остаётся всего месяц, и это отличное время, чтобы обсудить основные тренды в области ИИ. Тем более, что аналитическая компания Gartner представила свои технологические прогнозы, сгруппировав их в три основные категории:
1. ИИ: Императивы и риски ИИ для защиты организаций
- Agentic AI: Автономные ИИ-агенты, способные сами планировать и действовать для достижения поставленных целей;
- AI Governance Platforms: Платформы для управления ИИ позволяют организациям управлять юридическими, этическими и операционными аспектами ИИ-систем;
- Disinformation Security: Технологии защиты от дезинформации снижают уровень мошенничества и защищают репутацию бренда через усиленные меры проверки.
2. Новые технологии побуждают организации пересматривать свои подходы к вычислениям
- Post-Quantum Cryptography (PQC): Постквантовая криптография защищает данные от угроз квантовых вычислений;
- Ambient Invisible Intelligence: Использование незаметных сенсоров для выявления ранее скрытых процессов в организациях, повышая эффективность и улучшая принятие решений;
- Energy-Efficient Computing: Энергоэффективные вычисления повышают устойчивость за счёт оптимизированной архитектуры и использования возобновляемой энергии;
- Hybrid Computing: Гибридные вычисления комбинируют различные механизмы для решения вычислительных задач, например, сочетание тензорных (TPU) и графических (GPU) вычислений.
3. Синергия человека и машины объединяет физические и цифровые миры
- Spatial Computing: Пространственные вычисления используют технологии расширенной (XR), дополненной (AR), смешанной (MR) и виртуальных реальностей (VR) для создания иммерсивных миров;
- Polyfunctional Robots: Многофункциональные роботы, выполняющие различные задачи и способные работать вместе с людьми;
- Neurological Enhancement: Нейронные улучшения повышают когнитивные способности, считывая мозговую активность.
Углубимся в категорию императивов и рисков ИИ для защиты организаций.
Что касается ИИ-агентов, мне интересно наблюдать за компанией Artisan, которая разработала ИИ-сотрудника по имени Ava. Ava автоматизирует процессы отдела продаж — от поиска клиентов до закрытия сделок. Ava функционирует как полноценный член команды, не требуя постоянного контроля.
Такие инструменты, как AutoGen, LangChain и CrewAI, помогают создавать ИИ-агентов, которые могут самостоятельно выполнять задачи без постоянного вмешательства человека. Агентный ИИ обладает потенциалом кардинально преобразовать множество отраслей. Однако с ростом возможностей таких агентов возникает необходимость в строгом регулировании и этических стандартах.
Поэтому возникает потребность в инструментах, позволяющих контролировать и регулировать его применение. Платформы для управления ИИ становятся незаменимыми для компаний, стремящихся эффективно и безопасно интегрировать ИИ в свои процессы. Они предназначены для мониторинга работы ИИ-систем, регулярной проверки соответствия ИИ-решений установленным стандартам и нормам, а также для обнаружения возможных угроз, включая предвзятость алгоритмов и проблемы конфиденциальности данных. Один из примеров таких систем — Holistic AI.
В эпоху информационных войн и фейковых новостей технологии борьбы с дезинформацией становятся жизненно необходимыми. Например, Sensity AI помогает обнаруживать дипфейки в реальном времени. По прогнозам Gartner, к 2028 году 50% предприятий будут использовать продукты и услуги, направленные на борьбу с дезинформацией, что значительно выше текущих показателей.
В ближайшие годы прогнозируется стремительный рост инвестиций в эти направления, и только те организации, которые оперативно адаптируются к быстро меняющемуся технологическому ландшафту, смогут сохранить свои лидирующие позиции и оставаться конкурентоспособными на рынке.
#технологии
До конца года остаётся всего месяц, и это отличное время, чтобы обсудить основные тренды в области ИИ. Тем более, что аналитическая компания Gartner представила свои технологические прогнозы, сгруппировав их в три основные категории:
1. ИИ: Императивы и риски ИИ для защиты организаций
- Agentic AI: Автономные ИИ-агенты, способные сами планировать и действовать для достижения поставленных целей;
- AI Governance Platforms: Платформы для управления ИИ позволяют организациям управлять юридическими, этическими и операционными аспектами ИИ-систем;
- Disinformation Security: Технологии защиты от дезинформации снижают уровень мошенничества и защищают репутацию бренда через усиленные меры проверки.
2. Новые технологии побуждают организации пересматривать свои подходы к вычислениям
- Post-Quantum Cryptography (PQC): Постквантовая криптография защищает данные от угроз квантовых вычислений;
- Ambient Invisible Intelligence: Использование незаметных сенсоров для выявления ранее скрытых процессов в организациях, повышая эффективность и улучшая принятие решений;
- Energy-Efficient Computing: Энергоэффективные вычисления повышают устойчивость за счёт оптимизированной архитектуры и использования возобновляемой энергии;
- Hybrid Computing: Гибридные вычисления комбинируют различные механизмы для решения вычислительных задач, например, сочетание тензорных (TPU) и графических (GPU) вычислений.
3. Синергия человека и машины объединяет физические и цифровые миры
- Spatial Computing: Пространственные вычисления используют технологии расширенной (XR), дополненной (AR), смешанной (MR) и виртуальных реальностей (VR) для создания иммерсивных миров;
- Polyfunctional Robots: Многофункциональные роботы, выполняющие различные задачи и способные работать вместе с людьми;
- Neurological Enhancement: Нейронные улучшения повышают когнитивные способности, считывая мозговую активность.
Углубимся в категорию императивов и рисков ИИ для защиты организаций.
Что касается ИИ-агентов, мне интересно наблюдать за компанией Artisan, которая разработала ИИ-сотрудника по имени Ava. Ava автоматизирует процессы отдела продаж — от поиска клиентов до закрытия сделок. Ava функционирует как полноценный член команды, не требуя постоянного контроля.
Такие инструменты, как AutoGen, LangChain и CrewAI, помогают создавать ИИ-агентов, которые могут самостоятельно выполнять задачи без постоянного вмешательства человека. Агентный ИИ обладает потенциалом кардинально преобразовать множество отраслей. Однако с ростом возможностей таких агентов возникает необходимость в строгом регулировании и этических стандартах.
Поэтому возникает потребность в инструментах, позволяющих контролировать и регулировать его применение. Платформы для управления ИИ становятся незаменимыми для компаний, стремящихся эффективно и безопасно интегрировать ИИ в свои процессы. Они предназначены для мониторинга работы ИИ-систем, регулярной проверки соответствия ИИ-решений установленным стандартам и нормам, а также для обнаружения возможных угроз, включая предвзятость алгоритмов и проблемы конфиденциальности данных. Один из примеров таких систем — Holistic AI.
В эпоху информационных войн и фейковых новостей технологии борьбы с дезинформацией становятся жизненно необходимыми. Например, Sensity AI помогает обнаруживать дипфейки в реальном времени. По прогнозам Gartner, к 2028 году 50% предприятий будут использовать продукты и услуги, направленные на борьбу с дезинформацией, что значительно выше текущих показателей.
В ближайшие годы прогнозируется стремительный рост инвестиций в эти направления, и только те организации, которые оперативно адаптируются к быстро меняющемуся технологическому ландшафту, смогут сохранить свои лидирующие позиции и оставаться конкурентоспособными на рынке.
#технологии
Forbes
Gartner’s 2025 Strategic Technology Trends Are Just Right
Every year Gartner releases its list of technology trends. This year (for 2025) the trends include AI, new computing frontiers and human computer synergy.
Возможность на $300 млрд: как заработать на вертикальных ИИ-агентах
Сегодня наступает новая эпоха, в которой искусственный интеллект не только помогает с рутинными задачами, но становится настоящим «сотрудником».
Если в 2000-х появление SaaS (Software as a Service) превратило громоздкие программы в облачные сервисы и сформировало рынок в $300 млрд долларов, то теперь нас ждёт следующий подобный скачок — эра вертикальных ИИ-агентов.
Аналитики и инвесторы уже всерьез заявляют: вертикальные ИИ-агенты могут превысить масштабы нынешнего SaaS-рынка. ИИ-агенты могут заменить целую команду: от отдела продаж до QA-инженеров. Разница с классическим SaaS колоссальна: если SaaS повышал эффективность существующих команд, то ИИ-агенты позволяют создавать компании с куда меньшим штатом, а в перспективе - полная автоматизация бизнес-процессов компании.
В отличие от облачного приложения, которое упрощает отдельные операции, ИИ-агент самостоятельно планирует, действует и принимает решения. Также SaaS был общим инструментом для всех, а вертикальный ИИ-агент нацелен на конкретную отрасль или функцию.
Интересно, что крупным игрокам тяжело конкурировать в специальных вертикальных сегментах. Гиганты, подобно Google, игнорировали узкие ниши (скажем, автоматизацию специфических банковских операций или фарм-процессов) — именно там стартапы выигрывают. Они глубоко погружаются в специфику, обучают ИИ-модели на уникальных данных, создают технологический барьер для конкурентов и предлагают решение, за которое клиент готов платить больше, ведь оно идеально «заточено» под его задачи.
Эта ситуация напоминает ранний период SaaS, когда небольшие компании, вроде Salesforce, нашли «золотую жилу» до того, как старые IT-корпорации успели перестроиться. История циклична: сейчас — звёздный час стартапов, работающих над вертикальными ИИ-продуктами.
Поэтому вот основные советы для технологических предпринимателей:
- Найдите проблему, которую ИИ может решить лучше, чем человек, и двигайтесь в сторону “вертикализации” решения, усиляя барьеры для конкурентов;
- Используйте уникальные данные для обучения более «умных» агентов;
- Начав с обёртки над GPT, развивайтесь в сторону автоматизации полноценного рабочего процесса, интегрируясь с большим количеством инструментов.
Например, Harvey - GPT для юристов, подчёркивает тренд: нишевые задачи, ранее требовавшие десятков сотрудников, теперь может решать один специализированный ИИ-агент. Генерация контрактов, анализ законодательных актов, поиск судебных прецедентов — всё становится «интеллектуальной рутиной» для ИИ.
Другой пример — превратить сервисный бизнес в продуктовую компанию: кадровые агентства, маркетинговые агентства, консультационные фирмы уже сейчас могут автоматизировать ключевые операции с помощью обученных на собственных экспертных данных ИИ-моделей. Это дает им технологическое преимущество, повышает маржинальность и открывает дорогу к упаковке сервисов в продукты.
Появление LLM, технологических платформ, а также инструментов вроде AutoGen, CrewAI или LangChain/LangGraph упростило создание ИИ-агентов. Также сегодня человек без навыков программирования может разработать простое приложение, используя ИИ. С правильно выбранной нишей и подходом можно быстро вывести на рынок MVP и протестировать спрос.
Мы находимся в уникальном моменте: ещё недавно гиганты определяли правила игры, а теперь небольшие стартапы могут захватить лидерские позиции в отдельных отраслях. Те, кто вовремя адаптируются, создав вертикальные ИИ-решения, способные заменить целые команды, окажутся в числе тех, кто будет делить пирог не в миллионы, а в миллиарды долларов.
Потенциал колоссален, а возможности безграничны.
$300 млрд — это не предел, а стартовая отметка для тех, кто решит пойти по пути вертикальных ИИ-агентов. Сейчас самое время начать действовать, чтобы войти в историю нового технологического бума.
#технологии
Сегодня наступает новая эпоха, в которой искусственный интеллект не только помогает с рутинными задачами, но становится настоящим «сотрудником».
Если в 2000-х появление SaaS (Software as a Service) превратило громоздкие программы в облачные сервисы и сформировало рынок в $300 млрд долларов, то теперь нас ждёт следующий подобный скачок — эра вертикальных ИИ-агентов.
Аналитики и инвесторы уже всерьез заявляют: вертикальные ИИ-агенты могут превысить масштабы нынешнего SaaS-рынка. ИИ-агенты могут заменить целую команду: от отдела продаж до QA-инженеров. Разница с классическим SaaS колоссальна: если SaaS повышал эффективность существующих команд, то ИИ-агенты позволяют создавать компании с куда меньшим штатом, а в перспективе - полная автоматизация бизнес-процессов компании.
В отличие от облачного приложения, которое упрощает отдельные операции, ИИ-агент самостоятельно планирует, действует и принимает решения. Также SaaS был общим инструментом для всех, а вертикальный ИИ-агент нацелен на конкретную отрасль или функцию.
Интересно, что крупным игрокам тяжело конкурировать в специальных вертикальных сегментах. Гиганты, подобно Google, игнорировали узкие ниши (скажем, автоматизацию специфических банковских операций или фарм-процессов) — именно там стартапы выигрывают. Они глубоко погружаются в специфику, обучают ИИ-модели на уникальных данных, создают технологический барьер для конкурентов и предлагают решение, за которое клиент готов платить больше, ведь оно идеально «заточено» под его задачи.
Эта ситуация напоминает ранний период SaaS, когда небольшие компании, вроде Salesforce, нашли «золотую жилу» до того, как старые IT-корпорации успели перестроиться. История циклична: сейчас — звёздный час стартапов, работающих над вертикальными ИИ-продуктами.
Поэтому вот основные советы для технологических предпринимателей:
- Найдите проблему, которую ИИ может решить лучше, чем человек, и двигайтесь в сторону “вертикализации” решения, усиляя барьеры для конкурентов;
- Используйте уникальные данные для обучения более «умных» агентов;
- Начав с обёртки над GPT, развивайтесь в сторону автоматизации полноценного рабочего процесса, интегрируясь с большим количеством инструментов.
Например, Harvey - GPT для юристов, подчёркивает тренд: нишевые задачи, ранее требовавшие десятков сотрудников, теперь может решать один специализированный ИИ-агент. Генерация контрактов, анализ законодательных актов, поиск судебных прецедентов — всё становится «интеллектуальной рутиной» для ИИ.
Другой пример — превратить сервисный бизнес в продуктовую компанию: кадровые агентства, маркетинговые агентства, консультационные фирмы уже сейчас могут автоматизировать ключевые операции с помощью обученных на собственных экспертных данных ИИ-моделей. Это дает им технологическое преимущество, повышает маржинальность и открывает дорогу к упаковке сервисов в продукты.
Появление LLM, технологических платформ, а также инструментов вроде AutoGen, CrewAI или LangChain/LangGraph упростило создание ИИ-агентов. Также сегодня человек без навыков программирования может разработать простое приложение, используя ИИ. С правильно выбранной нишей и подходом можно быстро вывести на рынок MVP и протестировать спрос.
Мы находимся в уникальном моменте: ещё недавно гиганты определяли правила игры, а теперь небольшие стартапы могут захватить лидерские позиции в отдельных отраслях. Те, кто вовремя адаптируются, создав вертикальные ИИ-решения, способные заменить целые команды, окажутся в числе тех, кто будет делить пирог не в миллионы, а в миллиарды долларов.
Потенциал колоссален, а возможности безграничны.
$300 млрд — это не предел, а стартовая отметка для тех, кто решит пойти по пути вертикальных ИИ-агентов. Сейчас самое время начать действовать, чтобы войти в историю нового технологического бума.
#технологии
От языковых моделей к моделям мира
Большие языковые модели (LLMs) впечатляют умением работать с текстом, но они не имеют реального понятия о трёхмерном мире, физике и логике пространства. Модели мира (World Models, WMs или LWMs — Large World Models) обещают сделать шаг вперед от текстового понимания к пониманию среды, наделяя ИИ способностью «видеть», «чувствовать» и «предсказывать» поведение объектов и агентов.
Если языковые модели генерируют последовательности слов, то модели мира стремятся к глубинному моделированию реальности. Они берут визуальные, аудио- и прочие сенсорные данные (включая данные от камер, IoT-сенсоров, микрофонов), чтобы создать внутреннюю симуляцию мира: с физическими законами, динамикой движения, взаимодействиями объектов, NPC и людей.
Одним из примеров таких систем стала Genie 2 от Google DeepMind — фундаментальная модель мира, способная на основе одного изображения создать интерактивное 3D-пространство, в котором можно управлять персонажем и выполнять различные действия. Genie 2 — авторегрессионная диффузионная модель, предсказывающая каждый следующий «кадр состояния» так же, как LLM предсказывает следующий токен. Но в отличие от чисто текстовых моделей, Genie 2 учитывает физику и трехмерность, позволяя агентам взаимодействовать со сценой. Это не просто генерация пикселей, а предсказание будущих состояний среды исходя из действий, что критически важно для обучения агентов.
Другой пример - Sora от OpenAI, генерирующая до минуты реалистичного видео, моделируя динамику сцены, перспективу, свет, тени и взаимодействия с объектами. Подобно тому как языковые модели пользуются текстовыми токенами, модели мира работают с «патчами» — фрагментами визуальной информации. Sora сжимает входное видео в латентное пространство и разрезает его на патчи, которые затем обрабатываются трансформером. Такой подход облегчает масштабируемое обучение на огромных наборах видеоданных.
Genie 2 и Sora способны «запоминать» объекты, моделировать эффекты гравитации и инерции, а также обеспечивать длительную согласованность сцен. В созданных ими виртуальных мирах персонажи стараются не терять форму, предметы не телепортироваться без причины — всё выглядит логичным и правдоподобным.
Помимо генерации видео, Sora может симулировать поведение внутри игры Minecraft, включая управление агентом. А Genie 2 позволяет создавать бесконечно разнообразные игровые миры, где поведение объектов и персонажей не задано вручную, а выучено моделью. Агенту можно дать задание и наблюдать, как он осваивает новые навыки, решает задачи и самостоятельно адаптируется к непредсказуемым условиям.
Все это ведет к тому, что роботы на базе моделей мира смогут лучше понимать пространство, предсказывать последствия своих действий и безопаснее взаимодействовать с реальным окружением.
Однако перед нами встают более глубокие вопросы: как интерпретировать решения агентов на базе моделей мира, как избежать опасных сценариев, если модель «догадается» нарушить правила? Такие случаи пока редки и напоминают курьёзы, но уже показывают, что серьезная работа над безопасностью только начинается
Конечно, обучение на огромных видеодатасетах требует колоссальных вычислительных мощностей, куда больше, чем для LLM. Также для обучения нужно много разнообразных данных. Но результат того стоит, ведь одно из перспективных направлений применения моделей мира - симуляция физических законов для развития науки и технологий. Например, использование химических элементов как «слов» в моделях мира позволяет ИИ предсказывать новые материалы или лекарства.
Модели мира — это переход от «умных слов» к «умным действиям» и пониманию пространства. Мы подходим к эпохе, когда ИИ будет предсказывать физические процессы, понимать причинно-следственные связи и даже проявлять «здравый смысл». Хотя модели мира только начали развиваться, но именно они способны заложить фундамент для ИИ, который будет не просто приятным собеседником в чате, а полноценным субъектом в нашем сложном реальном мире.
#технологии
Большие языковые модели (LLMs) впечатляют умением работать с текстом, но они не имеют реального понятия о трёхмерном мире, физике и логике пространства. Модели мира (World Models, WMs или LWMs — Large World Models) обещают сделать шаг вперед от текстового понимания к пониманию среды, наделяя ИИ способностью «видеть», «чувствовать» и «предсказывать» поведение объектов и агентов.
Если языковые модели генерируют последовательности слов, то модели мира стремятся к глубинному моделированию реальности. Они берут визуальные, аудио- и прочие сенсорные данные (включая данные от камер, IoT-сенсоров, микрофонов), чтобы создать внутреннюю симуляцию мира: с физическими законами, динамикой движения, взаимодействиями объектов, NPC и людей.
Одним из примеров таких систем стала Genie 2 от Google DeepMind — фундаментальная модель мира, способная на основе одного изображения создать интерактивное 3D-пространство, в котором можно управлять персонажем и выполнять различные действия. Genie 2 — авторегрессионная диффузионная модель, предсказывающая каждый следующий «кадр состояния» так же, как LLM предсказывает следующий токен. Но в отличие от чисто текстовых моделей, Genie 2 учитывает физику и трехмерность, позволяя агентам взаимодействовать со сценой. Это не просто генерация пикселей, а предсказание будущих состояний среды исходя из действий, что критически важно для обучения агентов.
Другой пример - Sora от OpenAI, генерирующая до минуты реалистичного видео, моделируя динамику сцены, перспективу, свет, тени и взаимодействия с объектами. Подобно тому как языковые модели пользуются текстовыми токенами, модели мира работают с «патчами» — фрагментами визуальной информации. Sora сжимает входное видео в латентное пространство и разрезает его на патчи, которые затем обрабатываются трансформером. Такой подход облегчает масштабируемое обучение на огромных наборах видеоданных.
Genie 2 и Sora способны «запоминать» объекты, моделировать эффекты гравитации и инерции, а также обеспечивать длительную согласованность сцен. В созданных ими виртуальных мирах персонажи стараются не терять форму, предметы не телепортироваться без причины — всё выглядит логичным и правдоподобным.
Помимо генерации видео, Sora может симулировать поведение внутри игры Minecraft, включая управление агентом. А Genie 2 позволяет создавать бесконечно разнообразные игровые миры, где поведение объектов и персонажей не задано вручную, а выучено моделью. Агенту можно дать задание и наблюдать, как он осваивает новые навыки, решает задачи и самостоятельно адаптируется к непредсказуемым условиям.
Все это ведет к тому, что роботы на базе моделей мира смогут лучше понимать пространство, предсказывать последствия своих действий и безопаснее взаимодействовать с реальным окружением.
Однако перед нами встают более глубокие вопросы: как интерпретировать решения агентов на базе моделей мира, как избежать опасных сценариев, если модель «догадается» нарушить правила? Такие случаи пока редки и напоминают курьёзы, но уже показывают, что серьезная работа над безопасностью только начинается
Конечно, обучение на огромных видеодатасетах требует колоссальных вычислительных мощностей, куда больше, чем для LLM. Также для обучения нужно много разнообразных данных. Но результат того стоит, ведь одно из перспективных направлений применения моделей мира - симуляция физических законов для развития науки и технологий. Например, использование химических элементов как «слов» в моделях мира позволяет ИИ предсказывать новые материалы или лекарства.
Модели мира — это переход от «умных слов» к «умным действиям» и пониманию пространства. Мы подходим к эпохе, когда ИИ будет предсказывать физические процессы, понимать причинно-следственные связи и даже проявлять «здравый смысл». Хотя модели мира только начали развиваться, но именно они способны заложить фундамент для ИИ, который будет не просто приятным собеседником в чате, а полноценным субъектом в нашем сложном реальном мире.
#технологии
Google DeepMind
Genie 2: A large-scale foundation world model
Generating unlimited diverse training environments for future general agents
This media is not supported in your browser
VIEW IN TELEGRAM
Genie 2 позволяет быстро создавать бесконечное множество различных виртуальных миров для обучения ИИ-агентов.
Основные возможности модели:
- Генерация разнообразных сред на основе начального кадра длиной до минуты;
- Моделирование физических эффектов воды, дыма, гравитации, освещения и отражений;
- Запоминание частей мира, которые временно выходят из поля зрения, и восстановление их при повторном появлении;
- Моделирование поведения неигровых персонажей (NPCs) и сложных взаимодействий между ними;
- Управление действиями агента с помощью клавиатуры и мыши;
- А также возможность взаимодействия с другими объектами и агентами.
Что думаете, полностью сгенерированные игры уже не кажутся такой фантастикой?
#технологии
Основные возможности модели:
- Генерация разнообразных сред на основе начального кадра длиной до минуты;
- Моделирование физических эффектов воды, дыма, гравитации, освещения и отражений;
- Запоминание частей мира, которые временно выходят из поля зрения, и восстановление их при повторном появлении;
- Моделирование поведения неигровых персонажей (NPCs) и сложных взаимодействий между ними;
- Управление действиями агента с помощью клавиатуры и мыши;
- А также возможность взаимодействия с другими объектами и агентами.
Что думаете, полностью сгенерированные игры уже не кажутся такой фантастикой?
#технологии
Большой потенциал малых языковых моделей
Современный бум ИИ уже давно не сводится к крупным разработкам от гигантов вроде OpenAI или Anthropic, инвестирующих миллиарды в большие языковые модели. Наоборот, всё чаще в фокус внимания попадают малые языковые модели (Small Language Models, SLMs), способные решать узкоспециализированные задачи не хуже (а порой и лучше) своих «старших собратьев».
Яркий пример — стартап Patronus AI со своей моделью Glider, имеющей 3,8 миллиарда параметров. Большинство компаний применяют для оценки своих продуктов большие закрытые модели вроде GPT-4. Но это дорого, не всегда прозрачно и несет риски для конфиденциальности. Glider же, будучи относительно компактной, способна работать на более простом «железе» и при этом давать детальное объяснение своих оценок по сотням критериев (точность, безопасность, стиль, тон и т. д.).
По результатам тестов Glider превосходит GPT-4o mini по нескольким метрикам и отвечает в среднем менее чем за секунду, что делает ее практически идеальным решением для генерации текста в реальном времени.
Большие языковые модели, безусловно, продолжают впечатлять своей универсальностью, но их недостатки очевидны:
- Высокие затраты на ресурсы. Обучение и инференс больших моделей требуют колоссальных вычислительных мощностей, что приводит к дополнительным расходам на инфраструктуру, электроэнергию и обслуживание;
- Низкая конфиденциальность. Использование больших закрытых моделей предполагает отправку данных во внешний облачный сервис, что критично для финансовых организаций и здравоохранения;
- Зависимость от интернета. При отсутствии доступа к сети такие модели попросту недоступны;
Малые языковые модели, напротив, легко разворачиваются на локальном сервере или даже на обычном пользовательском устройстве, снижая задержки при ответах и повышая контроль над безопасностью. Им не нужны сотни гигабайт видеопамяти, а адаптация к узконаправленной задаче и интеграция в собственную инфраструктуру обходятся заметно дешевле и проще. Дополнительно малые модели экономят электроэнергию и бережнее относятся к экологии.
Малые языковые модели можно либо обучать с нуля под конкретную задачу, либо «сжимать» уже готовые большие модели, используя методы прунинга, квантизации и дистилляции знаний, сохраняя высокое качество при сокращении числа параметров.
Набирают популярность и гибридные системы, в которых несколько малых моделей берут на себя простые запросы, а большая модель выступает их «роутером» и используется для более сложных задач.
Помимо Glider, существуют такие модели, как Ministral (Mistral AI), Phi (Microsoft) и Llama 3.2 (Meta). Все они ориентированы на локальное использование в задачах, где высоки требования к приватности и быстроте отклика.
Малые языковые модели незаменимы там, где требуется локальная обработка данных: в медицине (электронные записи пациентов, выписки, рецепты) или финансовой сфере (работа с регулятивными документами). Их размер снижает риск «галлюцинаций», помогает быстрее достичь высоких результатов в узкоспециализированных областях и защищает конфиденциальную информацию.
В действительности большие и малые языковые модели — это две параллельные ветви эволюции, которые не исключают, а взаимно дополняют друг друга. Большие модели лучше справляются с универсальными задачами, требующими миллиарды параметров и богатого контекста, а малые эффективнее работают над узкоспециализированными кейсами, обеспечивая локальную приватность и минимизируя затраты.
В ближайшие годы мы увидим стремительный рост гибридных решений, где оба типа моделей будут работать вместе. В результате мы получим еще более умные, надежные и быстрые ИИ-сервисы, способные удовлетворить самые разнообразные потребности практически любого бизнеса.
#технологии
Современный бум ИИ уже давно не сводится к крупным разработкам от гигантов вроде OpenAI или Anthropic, инвестирующих миллиарды в большие языковые модели. Наоборот, всё чаще в фокус внимания попадают малые языковые модели (Small Language Models, SLMs), способные решать узкоспециализированные задачи не хуже (а порой и лучше) своих «старших собратьев».
Яркий пример — стартап Patronus AI со своей моделью Glider, имеющей 3,8 миллиарда параметров. Большинство компаний применяют для оценки своих продуктов большие закрытые модели вроде GPT-4. Но это дорого, не всегда прозрачно и несет риски для конфиденциальности. Glider же, будучи относительно компактной, способна работать на более простом «железе» и при этом давать детальное объяснение своих оценок по сотням критериев (точность, безопасность, стиль, тон и т. д.).
По результатам тестов Glider превосходит GPT-4o mini по нескольким метрикам и отвечает в среднем менее чем за секунду, что делает ее практически идеальным решением для генерации текста в реальном времени.
Большие языковые модели, безусловно, продолжают впечатлять своей универсальностью, но их недостатки очевидны:
- Высокие затраты на ресурсы. Обучение и инференс больших моделей требуют колоссальных вычислительных мощностей, что приводит к дополнительным расходам на инфраструктуру, электроэнергию и обслуживание;
- Низкая конфиденциальность. Использование больших закрытых моделей предполагает отправку данных во внешний облачный сервис, что критично для финансовых организаций и здравоохранения;
- Зависимость от интернета. При отсутствии доступа к сети такие модели попросту недоступны;
Малые языковые модели, напротив, легко разворачиваются на локальном сервере или даже на обычном пользовательском устройстве, снижая задержки при ответах и повышая контроль над безопасностью. Им не нужны сотни гигабайт видеопамяти, а адаптация к узконаправленной задаче и интеграция в собственную инфраструктуру обходятся заметно дешевле и проще. Дополнительно малые модели экономят электроэнергию и бережнее относятся к экологии.
Малые языковые модели можно либо обучать с нуля под конкретную задачу, либо «сжимать» уже готовые большие модели, используя методы прунинга, квантизации и дистилляции знаний, сохраняя высокое качество при сокращении числа параметров.
Набирают популярность и гибридные системы, в которых несколько малых моделей берут на себя простые запросы, а большая модель выступает их «роутером» и используется для более сложных задач.
Помимо Glider, существуют такие модели, как Ministral (Mistral AI), Phi (Microsoft) и Llama 3.2 (Meta). Все они ориентированы на локальное использование в задачах, где высоки требования к приватности и быстроте отклика.
Малые языковые модели незаменимы там, где требуется локальная обработка данных: в медицине (электронные записи пациентов, выписки, рецепты) или финансовой сфере (работа с регулятивными документами). Их размер снижает риск «галлюцинаций», помогает быстрее достичь высоких результатов в узкоспециализированных областях и защищает конфиденциальную информацию.
В действительности большие и малые языковые модели — это две параллельные ветви эволюции, которые не исключают, а взаимно дополняют друг друга. Большие модели лучше справляются с универсальными задачами, требующими миллиарды параметров и богатого контекста, а малые эффективнее работают над узкоспециализированными кейсами, обеспечивая локальную приватность и минимизируя затраты.
В ближайшие годы мы увидим стремительный рост гибридных решений, где оба типа моделей будут работать вместе. В результате мы получим еще более умные, надежные и быстрые ИИ-сервисы, способные удовлетворить самые разнообразные потребности практически любого бизнеса.
#технологии
Forbes
Why Small Language Models Are The Next Big Thing In AI
With Elon Musk’s xAI raising an $5 billion and Amazon investing an $4 billion in OpenAI rival Anthropic — artificial intelligence enters the holiday season with a competitive roar.
Топ-20 лучших научных статей об ИИ-агентах в 2024 году
Под конец 2024 года я решил сделать обзор двадцати лучших (на мой взгляд) работ об ИИ-агентах и выложить на Хабр. Ниже — краткий обзор каждого исследования (будет, что почитать на каникулах):
• Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective - дорожная карта для воспроизведения модели o1 от OpenAI.
• Agentic Information Retrieval - новая парадигма поиска, где агент с внутренней памятью и внешними инструментами делает информационный поиск интерактивным и автономным.
• Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond - обзор моделей мира для видео и автопилотов, доказывающий, что симуляции повышают эффективность обучения и приближают нас к AGI.
• Genie: Generative Interactive Environments - модель, которая из текста или изображений «на лету» генерирует играбельные миры.
• Agent AI: Surveying the Horizons of Multimodal Interaction - объединение языковых и визуальных моделей в единую агентную систему, умеющую действовать сразу в нескольких модальностях и демонстрирующую шаг к AGI.
• The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use - оценка первой модели для управления компьютером через GUI.
• WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning - фреймворк для обучения веб-агентов на всё более сложных заданиях.
• Personalization of Large Language Models: A Survey - таксономия методов персонализации больших языковых моделей.
• Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities - архитектура агентов, чьи личности меняются с течением времени в интерактивных средах.
• More Agents Is All You Need - метод показывает, что несколько менее больших моделей могут коллективно давать точные решения дешевле и надежнее одной большой.
• Internet of Agents - фреймворк позволяет агентам «подключаться к сети» и обнаруживать друг друга, формируя команды для решения сложных задач.
• Many-agent Simulations toward AI Civilization - масштабные симуляции агентов в Minecraft, где наблюдается социализация, специализация ролей и элементы зарождения «ИИ-цивилизации».
• AIGS: Generating Science from AI-Powered Automated Falsification - автоматизация научного метода от генерации гипотез до экспериментов и «опровержения».
• ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning Agents - имитация экономических процессов в масштабируемой среде с обучающимися агентами: от домохозяйств и фирм до госструктур.
• AFlow: Automating Agentic Workflow Generation - фреймворк находит оптимальные цепочки вызовов LLM, уменьшая стоимость вычислений и повышая точность.
• Automated Design of Agentic Systems - метод показывает, как ИИ может «сам» изобретать всё более совершенные агентные системы, минимизируя ручной труд.
• Thinking LLMs: General Instruction Following with Thought Generation - модели учатся «думать» текстом перед ответом, что повышает точность в решении широкого спектра задач.
• Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning - способ генерации сложных историй для проверки и обучения «социального интеллекта» у языковых моделей.
• MindSearch: Mimicking Human Minds Elicits Deep AI Searcher - мультиагентная система, имитирующая человеческое мышление в веб-поиске, разбивает запросы на подзадачи и обрабатывает их параллельно.
• A Comprehensive Survey of Small Language Models in the Era of Large Language Models - обзор малых языковых моделей, которые могут быть эффективнее и дешевле больших для конкретных прикладных задач.
В 2024 году ИИ-агенты продвинулись в мультиагентных сценариях, активно совершенствовались процессы автоматизации создания агентов, а когнитивные способности ИИ становились всё более сложными и гибкими.
Мы живем в поистине удивительное время, и я уверен, что 2025 год принесет множество новых интересных исследований, приближая нас к достижению общего ИИ (AGI).
Поздравляю всех с наступающим Новым годом!
#технологии
Под конец 2024 года я решил сделать обзор двадцати лучших (на мой взгляд) работ об ИИ-агентах и выложить на Хабр. Ниже — краткий обзор каждого исследования (будет, что почитать на каникулах):
• Scaling of Search and Learning: A Roadmap to Reproduce o1 from Reinforcement Learning Perspective - дорожная карта для воспроизведения модели o1 от OpenAI.
• Agentic Information Retrieval - новая парадигма поиска, где агент с внутренней памятью и внешними инструментами делает информационный поиск интерактивным и автономным.
• Is Sora a World Simulator? A Comprehensive Survey on General World Models and Beyond - обзор моделей мира для видео и автопилотов, доказывающий, что симуляции повышают эффективность обучения и приближают нас к AGI.
• Genie: Generative Interactive Environments - модель, которая из текста или изображений «на лету» генерирует играбельные миры.
• Agent AI: Surveying the Horizons of Multimodal Interaction - объединение языковых и визуальных моделей в единую агентную систему, умеющую действовать сразу в нескольких модальностях и демонстрирующую шаг к AGI.
• The Dawn of GUI Agent: A Preliminary Case Study with Claude 3.5 Computer Use - оценка первой модели для управления компьютером через GUI.
• WebRL: Training LLM Web Agents via Self-Evolving Online Curriculum Reinforcement Learning - фреймворк для обучения веб-агентов на всё более сложных заданиях.
• Personalization of Large Language Models: A Survey - таксономия методов персонализации больших языковых моделей.
• Evolving Agents: Interactive Simulation of Dynamic and Diverse Human Personalities - архитектура агентов, чьи личности меняются с течением времени в интерактивных средах.
• More Agents Is All You Need - метод показывает, что несколько менее больших моделей могут коллективно давать точные решения дешевле и надежнее одной большой.
• Internet of Agents - фреймворк позволяет агентам «подключаться к сети» и обнаруживать друг друга, формируя команды для решения сложных задач.
• Many-agent Simulations toward AI Civilization - масштабные симуляции агентов в Minecraft, где наблюдается социализация, специализация ролей и элементы зарождения «ИИ-цивилизации».
• AIGS: Generating Science from AI-Powered Automated Falsification - автоматизация научного метода от генерации гипотез до экспериментов и «опровержения».
• ABIDES-Economist: Agent-Based Simulation of Economic Systems with Learning Agents - имитация экономических процессов в масштабируемой среде с обучающимися агентами: от домохозяйств и фирм до госструктур.
• AFlow: Automating Agentic Workflow Generation - фреймворк находит оптимальные цепочки вызовов LLM, уменьшая стоимость вычислений и повышая точность.
• Automated Design of Agentic Systems - метод показывает, как ИИ может «сам» изобретать всё более совершенные агентные системы, минимизируя ручной труд.
• Thinking LLMs: General Instruction Following with Thought Generation - модели учатся «думать» текстом перед ответом, что повышает точность в решении широкого спектра задач.
• Explore Theory of Mind: Program-guided adversarial data generation for theory of mind reasoning - способ генерации сложных историй для проверки и обучения «социального интеллекта» у языковых моделей.
• MindSearch: Mimicking Human Minds Elicits Deep AI Searcher - мультиагентная система, имитирующая человеческое мышление в веб-поиске, разбивает запросы на подзадачи и обрабатывает их параллельно.
• A Comprehensive Survey of Small Language Models in the Era of Large Language Models - обзор малых языковых моделей, которые могут быть эффективнее и дешевле больших для конкретных прикладных задач.
В 2024 году ИИ-агенты продвинулись в мультиагентных сценариях, активно совершенствовались процессы автоматизации создания агентов, а когнитивные способности ИИ становились всё более сложными и гибкими.
Мы живем в поистине удивительное время, и я уверен, что 2025 год принесет множество новых интересных исследований, приближая нас к достижению общего ИИ (AGI).
Поздравляю всех с наступающим Новым годом!
#технологии
Хабр
Топ-20 лучших научных статей об ИИ-агентах в 2024 году
Привет, Хабр! Подходит к концу 2024 год — год, который был насыщен огромным количеством исследований в области искусственного интеллекта. Причём настоящий бум произошёл в сфере ИИ-агентов, их...
Новая гонка вооружений — на этот раз за искусственный суперинтеллект
Вчера Белый дом и офис премьер-министра Великобритании почти одновременно опубликовали документы о ключевой роли ИИ в экономике и геополитике. Стало понятно: мы на пороге новой «гонки вооружений», где дело уже не в количестве ядерных боеголовок, а в интеллектуальном превосходстве. Владение сверхмощными интеллектуальными системами позволяет любому государству определять правила игры в экономике, дипломатии и обороне.
Сегодня речь идет не только об “общем ИИ” (AGI), но и о возможном появлении “суперинтеллекта” (ASI), который может изменить саму основу человеческой цивилизации. Раньше AGI считался далекой фантастикой, но прогресс в ИИ (вспомним недавние успехи OpenAI) уже меняет скептические настроения.
До сих пор нет четкого понимания «интеллекта» как феномена. Однако в соглашениях Microsoft с OpenAI прописано, что AGI — это система, способная автономно заработать $100 млрд. С научной точки зрения такое понимание спорно, но с прикладной — имеет смысл.
Глава OpenAI Сэм Альтман заявил, что AGI появится быстрее, чем многие ожидают. Следующая цель для OpenAI — это ASI, когда «машинный разум» не только догонит человека во всех задачах, но и превзойдет. Многие называют это «точкой невозврата», ведь тогда ИИ сможет сам улучшать собственную архитектуру и ускорять свое развитие без участия человека.
В прошлом году соучредитель OpenAI Илья Суцкевер объявил о создании новой компании Safe Superintelligence (SSI). Проект быстро собрал $1 млрд инвестиций. Подробности пока скрыты, но известно одно: SSI стремится к созданию ASI с упором на «безопасность» и «человеческие ценности». Суцкевер предупреждает, что языковые модели способны отходить от заданных инструкций, фактически проявляя «свободу воли» и становясь менее управляемыми.
Почему это опасно? В книге «Superintelligence» Ник Бостром указывает, что если попросить сверхразум «решить проблему голода» или «искоренить рак», то мы не можем быть уверены, что его методы окажутся этичными по человеческим меркам. Машина, лишенная морали, способна принять радикальные решения, опасные для человечества.
С другой стороны ASI может стать мощным инструментом для решения сложнейших задач: от климата до поиска новых источников энергии, от медицины до эффективного управления ресурсами планеты. Многие видят в «суперинтеллекте» спасителя, который поможет нам достичь нового уровня благополучия. Я лично ожидаю от продвинутого ИИ больших открытий в физике, химии, биологии, социологии и других науках.
Еще одна острая проблема — рынок труда. Если ASI научится выполнять практически любую работу лучше человека, как будет выглядеть экономика будущего? Как обеспечить занятость и социальную поддержку? (Привет идеям социального капитализма и безусловного базового дохода!) Эти вопросы уже возникают с приходом AGI, а при развитии ASI станут только острее.
Соревноваться с ASI напрямую людям бессмысленно: у биологического мозга есть жесткие ограничения, а машинную архитектуру можно масштабировать почти бесконечно — добавляйте новые серверы и кластеры GPU. Потенциал ускорения колоссален, а следующая революция может наступить с приходом квантовых вычислений.
Какие у нас есть варианты?
1. Развивать «дружественный» суперинтеллект. Вкладываться в AI Safety и формировать международные институты, чтобы выработать подходы к взаимодействию с ИИ.
2. Соревноваться за «корону» любыми средствами. Корпорации и государства, не думая об осторожности, будут стараться первыми добиться прорыва, но это повышает риск катастрофы.
3. Замедлить развитие ASI законодательно. Когда-то пытались ограничить распространение ядерного оружия, но даже ядерные соглашения не всегда работают, а уж контролировать «неосязаемый» ИИ еще сложнее.
«Мы откроем ящик Пандоры, — говорил Сэм Альтман. — Вопрос в том, найдем ли мы в нем надежду?» Ответ во многом зависит от политической воли, работы ученых и разработчиков, а также от глобальной общественности, которая должна уже сегодня влиять на то, каким будет мир завтра.
#технологии
Вчера Белый дом и офис премьер-министра Великобритании почти одновременно опубликовали документы о ключевой роли ИИ в экономике и геополитике. Стало понятно: мы на пороге новой «гонки вооружений», где дело уже не в количестве ядерных боеголовок, а в интеллектуальном превосходстве. Владение сверхмощными интеллектуальными системами позволяет любому государству определять правила игры в экономике, дипломатии и обороне.
Сегодня речь идет не только об “общем ИИ” (AGI), но и о возможном появлении “суперинтеллекта” (ASI), который может изменить саму основу человеческой цивилизации. Раньше AGI считался далекой фантастикой, но прогресс в ИИ (вспомним недавние успехи OpenAI) уже меняет скептические настроения.
До сих пор нет четкого понимания «интеллекта» как феномена. Однако в соглашениях Microsoft с OpenAI прописано, что AGI — это система, способная автономно заработать $100 млрд. С научной точки зрения такое понимание спорно, но с прикладной — имеет смысл.
Глава OpenAI Сэм Альтман заявил, что AGI появится быстрее, чем многие ожидают. Следующая цель для OpenAI — это ASI, когда «машинный разум» не только догонит человека во всех задачах, но и превзойдет. Многие называют это «точкой невозврата», ведь тогда ИИ сможет сам улучшать собственную архитектуру и ускорять свое развитие без участия человека.
В прошлом году соучредитель OpenAI Илья Суцкевер объявил о создании новой компании Safe Superintelligence (SSI). Проект быстро собрал $1 млрд инвестиций. Подробности пока скрыты, но известно одно: SSI стремится к созданию ASI с упором на «безопасность» и «человеческие ценности». Суцкевер предупреждает, что языковые модели способны отходить от заданных инструкций, фактически проявляя «свободу воли» и становясь менее управляемыми.
Почему это опасно? В книге «Superintelligence» Ник Бостром указывает, что если попросить сверхразум «решить проблему голода» или «искоренить рак», то мы не можем быть уверены, что его методы окажутся этичными по человеческим меркам. Машина, лишенная морали, способна принять радикальные решения, опасные для человечества.
С другой стороны ASI может стать мощным инструментом для решения сложнейших задач: от климата до поиска новых источников энергии, от медицины до эффективного управления ресурсами планеты. Многие видят в «суперинтеллекте» спасителя, который поможет нам достичь нового уровня благополучия. Я лично ожидаю от продвинутого ИИ больших открытий в физике, химии, биологии, социологии и других науках.
Еще одна острая проблема — рынок труда. Если ASI научится выполнять практически любую работу лучше человека, как будет выглядеть экономика будущего? Как обеспечить занятость и социальную поддержку? (Привет идеям социального капитализма и безусловного базового дохода!) Эти вопросы уже возникают с приходом AGI, а при развитии ASI станут только острее.
Соревноваться с ASI напрямую людям бессмысленно: у биологического мозга есть жесткие ограничения, а машинную архитектуру можно масштабировать почти бесконечно — добавляйте новые серверы и кластеры GPU. Потенциал ускорения колоссален, а следующая революция может наступить с приходом квантовых вычислений.
Какие у нас есть варианты?
1. Развивать «дружественный» суперинтеллект. Вкладываться в AI Safety и формировать международные институты, чтобы выработать подходы к взаимодействию с ИИ.
2. Соревноваться за «корону» любыми средствами. Корпорации и государства, не думая об осторожности, будут стараться первыми добиться прорыва, но это повышает риск катастрофы.
3. Замедлить развитие ASI законодательно. Когда-то пытались ограничить распространение ядерного оружия, но даже ядерные соглашения не всегда работают, а уж контролировать «неосязаемый» ИИ еще сложнее.
«Мы откроем ящик Пандоры, — говорил Сэм Альтман. — Вопрос в том, найдем ли мы в нем надежду?» Ответ во многом зависит от политической воли, работы ученых и разработчиков, а также от глобальной общественности, которая должна уже сегодня влиять на то, каким будет мир завтра.
#технологии