🤖 Датаист
2.48K subscribers
9 photos
13 videos
1 file
85 links
Меня зовут Андрей Кузьминых, я технологический предприниматель, ex-директор по данным и ИИ в Сбере. Рассказываю о своих проектах, объясняю, как работают все эти ИИ-чудеса, комментирую новости и рассуждаю о будущем индустрии

Для связи: @andre_andreevich
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Figure создает гуманоидных роботов с ИИ, которые анализируют объекты с помощью визуально-языковых моделей (VLM). На видео робот определяет съедобные предметы и передает человеку яблоко, демонстрируя способность к пониманию.

#технологии
Как ИИ меняет военные конфликты

Как известно, война никогда не меняется. Но также известно, что война – двигатель прогресса. Поле боя всегда становилось ареной противоборства не только людей, но и технологий. Железо против бронзы, аркебузы против рыцарской конницы, и так далее, и тому подобное – примеров можно подобрать множество. В современном мире информационные технологии становятся ключевым фактором, определяющим исход военных конфликтов. Искусственный интеллект (ИИ) со временем кардинально и неизбежно изменит характер войн и военных операций, найдя применение во всех аспектах боевых действий.

Информационная война: с помощью дипфейков и бот-ферм распространяются фейковые новости и пропаганда. Кибератаки на инфраструктуру противника становятся более эффективными благодаря интеллектуальному анализу данных.

Стратегическое и тактическое планирование: на уровне театра военных действий ИИ, обученный на алгоритмах теории игр, может на данных мониторинга спутниковых снимков (см. британский проект Spotter) анализировать военную активность, симулировать различные сценарии и давать рекомендации военному руководству, повышая скорость и качество управления войсками. Аналогичный проект StormCloud, тоже родом из Британии, созданный Королевским флотом совместно c Microsoft и AWS, действует на тактическом уровне и анализирует данные с дронов, спутников и наземных сенсоров.

Применение в войсках: еще в 2021 году турецкий дрон Kargu-2 впервые в истории совершил автономную атаку. Дроны Bayraktar TB2 способны выполнять боевые задачи даже при нарушении связи с оператором. Различные наземные роботы используются для разведки, разминирования, эвакуации раненых. Отдельная история – роевые технологии, когда ПВО противника перегружается множеством дронов, управляемых единой интеллектуальной системой. В этой области мы узнаем что-то новое чуть ли не ежедневно.

Вытесняя людей из войн, ИИ меняет саму их природу. В будущем автономные роботы и дроны будут в основном сражаться между собой, а людям останется роль операторов, как в видеоигре – причем даже не в шутере, а в стратегии реального времени, условной Starcraft. Это снизит потери, увеличит скорость и точность операций, но повысит риски неконтролируемой эскалации и ошибок ИИ.

Внедрение ИИ в военное дело поднимает серьезные этические вопросы: можно ли доверять машинам принимать решения о жизни и смерти? Кто несет ответственность за ошибки ИИ? Не может ли развитие военных технологий и стремление к технологическому превосходству привести к новым конфликтам само по себе?

Мы не можем остановить развитие технологий, но можем договариваться о том, как их использовать. Военные применения ИИ – тот самый случай, когда очень важно выработать единые гуманные стандарты поведения устройств на базе искусственного интеллекта, прежде всего для того, чтобы сберечь жизни мирных жителей. Иначе вполне возможно, что в войнах будущего, когда роботы окончательно отстранят людей от участия в боевых действиях, гибнуть будут только гражданские. Уверен, не о таком будущем мы все мечтаем.

#технологии
Media is too big
VIEW IN TELEGRAM
На видео показано, как передовые автономные дроны с ИИ способны эффективно перемещаться в сложных средах и формировать рой.

Роевые системы обеспечивают координацию и избегание препятствий в реальном времени, что повышает точность и скорость военных операций.

#технологии
Топ-10 кейсов неэтичного применения ИИ

В своей статье «Этические проблемы в продвинутом искусственном интеллекте» философ Ник Бостром предупреждает, что ИИ способен вызвать вымирание человечества. Он утверждает, что сверхразумный ИИ может действовать автономно и создавать собственные планы, что делает его независимым агентом с потенциально непредсказуемым поведением.

В 2021 году в России был подписан Кодекс этики в сфере ИИ, а в 2024 году Европейский союз принял Регламент об искусственном интеллекте, направленный на создание общей нормативно-правовой базы для использования ИИ.

Но несмотря на эти усилия, примеры неэтичного использования ИИ продолжают появляться. Давайте рассмотрим топ-10 таких случаев:

1. Автономное оружие. Некоторые страны разрабатывают автономные дроны и роботов-убийц, которые могут идентифицировать и уничтожать цели без непосредственного контроля оператора. Это повышает риск неконтролируемого применения силы и возможных гражданских жертв. Об этом я писал совсем недавно.

2. Фейковые новости. Языковые модели позволяют генерировать статьи и сообщения в социальных сетях, которые выглядят как настоящие новости, но содержат ложную или искаженную информацию. Это влияет на общественное мнение и может дестабилизировать политическую ситуацию.

3. Дипфейки и подмена голосов. В сети распространялись видео с известными политиками. Бывший президент США Дональд Трамп опубликовал на платформе Truth Social поддельное видео с якобы реакцией ведущего CNN Андерсона Купера на его участие в теледебатах.

4. Вмешательство в выборы. Знаменитый кейс с Cambridge Analytica, которая собрала данные миллионов пользователей Facebook без их согласия и использовала их для микротаргетинга политической рекламы во время выборов в США в 2016 году.

5. ИИ для создания порнографического контента. Приложения, которые могут «раздеть» людей на фотографиях или вставить их лица в порнографические видео, нарушают права на приватность и могут привести к кибербуллингу и шантажу. Так в феврале 2024 года Тейлор Свифт стала жертвой фейковых порнографических изображений, созданных с помощью ИИ и распространившихся в соцсетях.

6. Манипуляция рекомендательными системами. Социальные сети могут продвигать контент, вызывающий сильные эмоциональные реакции, чтобы увеличить время пребывания пользователей на платформе, даже если этот контент содержит дезинформацию или экстремистские идеи.

7. Фермы ботов для политического влияния. Во время политических кампаний боты массово публикуют сообщения в поддержку или против определенных кандидатов, создавая иллюзию массовой поддержки или недовольства. Также эти боты занимаются пропагандой в социальных сетях.

8. Слежка за гражданами без их согласия. Камеры с распознаванием лиц устанавливаются в общественных местах, собирая данные о передвижениях людей, что может использоваться для контроля и подавления инакомыслия. В Китае это уже считается нормой.

9. Подделка документов. Владелец бизнеса из Миссури был оштрафован на 10 тыс. долларов за использование ложных ссылок на судебные дела, сгенерированных ИИ, в юридических документах.

10. Применение медицинских данных для дискриминации. Страховые компании могут использовать ИИ для оценки рисков на основе генетических данных, что может привести к отказу в страховании людей с определенными предрасположенностями.

Очевидно, что влияние ИИ на нашу жизнь становится все более глубоким и неоднозначным. Конечно, можно рассуждать об ответственности разработчиков, вводить кодексы, запрещающие использовать ИИ-контент без пометки «сделано ИИ», договориться о раскрытии источников датасетов для общественности, но это не поможет, если изначальная цель применения ИИ далека от этичной, а у заказчика достаточно ресурсов.

Поэтому особую важность приобретает выработка коллективного иммунитета от фейков, дипфейков и прочего. Другой вопрос, что такой иммунитет сам по себе может и будет использоваться для манипуляций общественным мнением и в других неприглядных целях.

#технологии
Пять ИИ-инструментов, которые сделают из вас сверхчеловека

Все говорят о том, что ИИ повышает продуктивность работы. Я задумался о создании обширного списка таких инструментов, но осознал, что всего пять из них покрывают 80% моих задач.

1. Мозг на аутсорсе: ChatGPT ($20/месяц) и Claude ($18/месяц)

Главными помощниками в моей работе стали ChatGPT от OpenAI и Claude от Anthropic. Хотя чаще я использую ChatGPT, в некоторых ситуациях Claude оказывается более подходящим.

ChatGPT отлично генерирует формальный текст, помогает структурировать мысли, формулировать сложные предложения и корректировать грамматику. Claude предлагает более творческие и нестандартные решения, что особенно полезно при написании статей.

Например, при необходимости сообщить сотруднику об увольнении, я прогоняю свою речь через ChatGPT, чтобы смягчить тон и донести информацию корректно. В рабочих чатах использую его для улучшения стиля и устранения ошибок. Часто ChatGPT помогает мне подготовить драфт речи для выступлений.

В последнее время я использую модели o1-preview и o1-mini с более продвинутыми возможностями рассуждения. Они позволяют взглянуть на задачи под другим углом и предлагают новые решения. Важно уметь правильно работать с промптами для получения наилучших результатов; обычно я предоставляю пару примеров своих сообщений, чтобы инструмент мог скопировать мой стиль.

2. Умный поиск: Perplexity ($20/месяц)

Perplexity — продвинутый инструмент для поиска информации, который я использую чаще, чем Google. Он находит более релевантные и точные ответы на мои запросы.

Perplexity сканирует интернет в реальном времени, собирая информацию из авторитетных источников: статей, сайтов, журналов. Затем объединяет наиболее релевантные сведения в понятный ответ, предоставляя ссылки на оригинальные материалы для проверки и углубленного изучения.

Этот инструмент существенно экономит время при проведении исследований. Обычно я использую Perplexity в сочетании с ChatGPT: получаю нужные источники информации с помощью первого и создаю необходимый материал с помощью второго.

3. Заметки со встреч: TL;DV ($18/месяц)

TL;DV стал незаменимым инструментом для моих рабочих встреч. Каждый раз, когда провожу созвон, TL;DV записывает его, распознаёт участников, суммирует и выделяет ключевые моменты.

Я могу вернуться к записям в любое время, чтобы убедиться, что ничего не упустил. На основе нескольких встреч обычно загружаю записи в ChatGPT, который генерирует интересные идеи и инсайты. Однажды я попросил создать новую бизнес-модель продукта на основе записей за шесть месяцев работы — результат превзошел ожидания.

4. Создание изображений: Flux Pro ($0.05/картинка)

Когда необходимо создать изображения для презентаций, я использую Flux. Ранее я пользовался Stable Diffusion от Stability AI, но после появления Flux Pro полностью перешёл на него благодаря более высокому качеству генерации.

5. Работа с кодом: Cursor ($20/месяц)

Последний, но не менее важный инструмент — Cursor — революционный помощник в программировании. Это не просто автодополнение кода; Cursor работает со всеми файлами проекта, а не только с текущим окном контекста.

Cursor анализирует весь проект, понимая общую структуру и зависимости, что позволяет предлагать точные и полезные подсказки. Я пишу код для своих проектов с помощью Cursor и уже не помню, когда последний раз программировал вручную. Это ускоряет разработку и повышает качество кода. Возможность давать команды на естественном языке и получать готовые решения экономит огромное количество времени.

Несмотря на множество новых ИИ-решений на рынке, этого набора мне хватает, чтобы эффективно выполнять большинство задач и оставаться продуктивным. Конечно, важно следить за новинками, но еще важнее уметь пользоваться тем, что приносит пользу прямо сейчас.

#технологии
Топ ИИ-инструментов для создания контента

Искусственный интеллект все больше влияет на то, как мы создаем контент — от написания статей и создания изображений до музыки и видео. Недавно я наткнулся на исследование, которое показало, что читатели нередко отдают предпочтение контенту, созданному ИИ, по сравнению с материалами от профессиональных авторов.

Марк Цукерберг недавно заявил, что в ближайшем будущем на его платформах станет больше контента, созданного с помощью ИИ. Он называет это "естественной эволюцией" соцсетей.

С учетом этого тренда, я решил собрать список лучших ИИ-инструментов для создания различных типов контента:

1. Генерация текста

Jasper AI от $49 в месяц: В отличии от ChatGPT или Claude этот инструмент специализирован на создании контента для маркетинга, SEO-оптимизации, блогов и постов для соцсетей.

WriteSonic от $16 в месяц: Подходит для генерации статей, эссе, а также для переписывания текста. Доступен бесплатный план для ознакомления.

Quillbot от $8 в месяц: Отличный помощник для переписывания, перевода, проверки грамматики и улучшения стиля текста. Помогает избежать плагиата, доступна бесплатная версия и Chrome-плагин.

2. Генерация изображений

Midjourney от $10 в месяц (~200 изображений): Если вам нужны привлекательные и детализированные изображения по текстовым запросам, то этот инструмент для вас. Однако он предлагает меньше гибкости в настройках по сравнению со следующими двумя моделями.

Stable Diffusion: Это инструмент с открытым исходным кодом. Можно запускать локально на собственном оборудовании без необходимости подписки или можно воспользоваться специальными платформами.

FLUX.1: Новое семейство моделей от бывших участников команды Stable Diffusion. Предлагает улучшенное качество, особенно в генерации рук и текста на изображениях, а также отличается отсутствием цензуры (можно настраивать через API). Flux Schnell самая быстрая и дешевая модель; Flux Dev предназначена для некоммерческого использования; а Flux Pro самая качественная, но дорогая. Цена зависит от платформы, в среднем Flux Pro за одну картинку стоит от $0.05.

3. Генерация музыки

Suno AI от $8 в месяц: Позволяет генерировать полные песни с вокалом и инструментами на основе текстового описания. Можно создать до 10 песен бесплатно.

Mubert от $12 в месяц: Отличный инструмент для создания музыки без роялти. Вы можете генерировать треки, лупы, джинглы и фоновую музыку. Бесплатно можно создать до 25 треков в месяц.

MusicGen: Позволяет генерировать музыку по текстовым запросам и добавлять аудио-примеры. Однако треки ограничены до 15 секунд. Это бесплатный инструмент с открытым исходным кодом.

4. Генерация голоса

ElevenLabs от $5 в месяц: Обладает большой библиотекой реалистичных голосов, позволяет настраивать параметры и даже клонировать голоса. Бесплатно вы получаете около 10 минут аудио в месяц.

Murf от $23 в месяц: Предлагает контроль акцентов и эмоций, настройку скорости и высоты тона, а также интеграцию с видео и музыкой. Бесплатный план включает 10 минут генерации.

OpenAI Advanced Voice от $20 в месяц: Это голосовой ассистент с естественным звучанием, адаптирующийся к стилю пользователя. Доступен ограниченному числу пользователей и требует подписки ChatGPT Plus.

5. Генерация видео

Runway от $15 в месяц: Runway позволяет генерировать видео по текстовым запросам и изображениям с контролем камеры и анимацией персонажей.

Luma Dream Machine от $30 в месяц: Специализируется на создании и высококачественных консистентных видео на основе текста и изображений с контролем камеры.

Kling от $10 в месяц: Китайская альтернатива генерации видео по тексту и картинкам. По качеству не сильно уступает предыдущим двум моделям.

ИИ автоматизирует создание контента, но смыслы и идеи для контента придумывает человек. Однако создатели контента, умеющие эффективно использовать ИИ-инструменты, становятся особенно востребованы уже сегодня, создавая больше вовлекательного контента в единицу времени.

#технологии
Большие поведенческие модели (LBM): новый этап в развитии ИИ

Представьте робота, который изучает, как вы готовите еду, и с каждым приготовленным вами блюдом он сам становится всё более искусным поваром. Разбираемся, как большие поведенческие модели (LBM) помогут роботу в этом деле.

Несмотря на впечатляющие достижения больших языковых моделей (LLM) в обработке и генерации текста, они не умеют обрабатывать изображения или сенсорные данные, необходимые роботу для ориентации в физическом пространстве, “понимания” объектов и обучения действиям пользователя.

Так Visual Language Models (VLM), обрабатывающие визуальные данные, могут “понимать” содержимое изображений и отвечать на вопросы по изображениям. Примером такой модели является GPT-4-Vision.

Large Action Models (LAM) обучены на данных о действиях (в том числе из сенсоров). LAM превращают LLM в автономных агентов, способных выполнять комплексные задачи, ориентированные на вызов определённых функций, улучшенное понимание и планирование. Salesforce уже начали выпускать такие модели для автоматизации процессов.

Visual Language Action Models (VLA) обучены на визуальных данных и данных о действиях. Они дают LLM возможность быть “воплощённым” агентом (Embodied Agent) в физическом мире. Например, RT-2 демонстрирует способность робота выполнять сложные команды благодаря использованию цепочки рассуждений. PaLM-E — мультимодальная языковая модель с 562 миллиардами параметров, демонстрирующая высокую универсальность и эффективность. А OpenVLA — открытая модель с 7 миллиардами параметров поддерживает управление несколькими роботами одновременно.

Для обучения агентов применяется обучение с подкреплением (Reinforcement Learning, RL). Существуют различные RL-методы, но в целом обучение агента построено на политике вознаграждений и наказаний за совершение определённых действий. Среди RL-методов также есть обучение с подкреплением на основе обратной связи от пользователя (Reinforcement Learning from Human Feedback, RLHF).

Комплексно задачу по обучению роботов действиям человека решают LBM (Large Behavior Models) — большие мультимодальные поведенческие модели, представляющие новое направление в ИИ. LBM направлены на понимание, моделирование, адаптивное обучение и генерацию человеческого поведения в физическом мире (похоже на RLHF на основе данных из физического мира).

Большие поведенческие модели уже используются на практике:

1. В Lirio разработали первую в мире LBM для здравоохранения. Их модель создаёт гиперперсонализированные рекомендации для пациентов на основе медицинских данных и данных о поведении пациента от различных датчиков.

2. Toyota Research Institute совершил прорыв в обучении роботов новым сложным навыкам с помощью метода Diffusion Policy. Их роботы могут быстро осваивать новые действия, такие как наливание жидкостей или использование инструментов, без необходимости перепрограммирования.

3. Стартап Physical Intelligence привлёк $400 миллионов инвестиций от Джеффа Безоса, OpenAI и других крупных игроков. Они стремятся создать роботов, которые смогут выполнять любые задачи по запросу пользователя, будь то уборка, сборка мебели или обслуживание клиентов.

Однако, как отмечал философ Людвиг Витгенштейн в своём "Логико-философском трактате": "Границы моего языка означают границы моего мира". Это актуально для LBM, так как они всё ещё ограничены данными, на которых обучены. Их "мир" определяется теми модальностями, что они могут воспринимать через сенсоры и понимать с помощью алгоритмов.

Для обучения качественной поведенческой модели нужно больше датчиков для сбора данных из различных модальностей. Так данные электроэнцефалографа позволили бы лучше распознавать и имитировать человеческие эмоции. А обучение моделей с помощью синтетических данных из симуляций делает "картину мира" LBM более разнообразной.

В реальном мире мы пока можем отличить робота от человека. Но возникает вопрос: а как мы будем отличать человеческое поведение от ИИ в цифровом мире?

#технологии
Демо-видео, показывающие фантастические возможности модели PaLM-E в выполнении комплексных задач.

Примеры включают получение конкретных предметов, сортировку блоков по цвету, выполнение задач с толканием объектов, а также демонстрацию способности модели обобщать действия на новые объекты, с которыми робот ранее не сталкивался.

#технологии
Большие популяционные модели (LPM): как ИИ симулирует социальное поведение?

В знаменитой серии «Основание» Айзека Азимова математик Хари Сэлдон создает «психоисторию» — науку, способную предсказывать будущее человечества на основе законов массового поведения. Хотя это художественная выдумка, идея отражает глубокую истину: чтобы формировать наше общее будущее, нам необходимо понимать коллективное человеческое поведение.

Сегодня мы стоим на пороге революции в изучении общества. Большие популяционные модели (Large Population Models, LPMs) предлагают нам постоянно обновляющийся портрет человечества, который отражает сложные взаимодействия миллионов отдельных людей.

Большие языковые модели (LLMs) уже продемонстрировали способность генерировать связный текст, предсказывая следующее слово (токен) в предложении. LPMs берут эту концепцию, но вместо предсказания следующего слова, они предсказывают неизвестные атрибуты людей на основе известных данных. Это позволяет моделировать поведение целых обществ, заполняя пробелы в данных и создавая более полную картину человеческого взаимодействия.

Например, если мы знаем возраст, пол и место жительства человека, модель может предсказать его уровень дохода, образование или поведенческие привычки.

Потенциальные области применения больших популяционных моделей обширны:

- Здравоохранение: В период пандемии LPMs могут помочь моделировать распространение заболеваний, основываясь на передвижениях и контактах людей;

- Социальные исследования: Предупреждение о возможных социальных волнениях или гуманитарных кризисах путем анализа настроений и поведения больших групп людей;

- Экономика: Правительства и корпорации могут использовать модели для прогнозирования экономических тенденций и адаптации политик в соответствии с динамикой местных экономик.

Недавно ученые разработали модель под названием «Кентавр». Эта модель способна предсказывать и симулировать человеческое поведение в различных экспериментах, выраженных на естественном языке. Центавр создан путем дообучения Llama 3.1 70B методом QLoRA на уникальном наборе данных Psych-101. Этот набор данных охватывает более 60 000 участников, совершивших более 10 миллионов выборов в 160 различных экспериментах.

Интересно, что дообучение модели также улучшает согласованность внутренних представлений Кентавра с нейронной активностью человека. Это означает, что модель не только предсказывает поведение, но и демонстрирует внутренние процессы, схожие с теми, что происходят в человеческом мозге. Это не просто шаг вперед в когнитивных науках, но и пример того, как большие модели могут помочь нам понять сложность человеческого поведения.

Сегодня в сфере маркетинговых исследований появляются так называемые синтетические респонденты — искусственные персоны для имитации человеческих ответов. Они могут использоваться для быстрой оценки новых продуктов или идей без необходимости проведения масштабных опросов.

Авторы этой статьи считают замену респондентов LLM привлекательной из-за скорости и дешевизны, но модели пока плохо передают сложные взаимосвязи, дают слишком однородные данные, зависят от контекста и могут искажать восприятие общественного мнения.

LPMs предлагают нам инструменты для более глубокого понимания общества для принятия обоснованных решений. Хотя такие модели могут сэкономить время и ресурсы, компании должны быть осторожны, чтобы не полагаться полностью на синтетических респондентов, а использовать их в сочетании с традиционными методами исследований.

С такой мощной технологией приходит и большая ответственность. Важно обеспечить, чтобы использование LPMs было этичным и уважало конфиденциальность людей. Цель должна быть не в том, чтобы манипулировать обществом, а в том, чтобы лучше его понимать и принимать обоснованные решения. Будущее не предопределено, поэтому с помощью LPMs у нас есть возможность формировать его в лучшую сторону, используя знания для общего блага и прогресса всего человечества.

#технологии
This media is not supported in your browser
VIEW IN TELEGRAM
AgentTorch - открытая платформа для создания и запуска масштабных симуляций популяций с использованием больших популяционных моделей (Large Population Models, LPMs). Она открывает новые горизонты для научных открытий и эффективного управления сложными социальными системами.

Долгосрочная цель платформы — «переизобрести перепись населения», создав полностью симулированную, но точно отражающую реальное население систему.

AgentTorch использует следующие технологии:

- GradABM: Тензоризированное и дифференцируемое программирование, что позволяет моделям AgentTorch масштабироваться до популяций размером с страну за несколько секунд на стандартном оборудовании;

- DecABM: Децентрализованные агентно-ориентированные модели (DecABMs) используют протоколы разделения секретов для выполнения симуляций без необходимости сбора информации об агентах. Это обеспечивает конфиденциальность чувствительных данных;

- AgentTorch API: Платформа доступна для исследователей и разработчиков через простой Python-API для создания и запуска симуляций.

#технологии