🤖 Датаист
2.48K subscribers
9 photos
13 videos
1 file
85 links
Меня зовут Андрей Кузьминых, я технологический предприниматель, ex-директор по данным и ИИ в Сбере. Рассказываю о своих проектах, объясняю, как работают все эти ИИ-чудеса, комментирую новости и рассуждаю о будущем индустрии

Для связи: @andre_andreevich
Download Telegram
Примеры нескольких сгенерированных фотографий моего цифрового двойника, полученные с помощью Pygma AI.

Может сделать блог, в котором викинг с моим лицом будет рассказывать об истории Руси, а робот обучать людей ИИ?

👍 - да
🤔 - нет

#кейсы
Как за 5 шагов научить ChatGPT генерировать тексты, которые обходят ИИ-детекторы

Однажды мне предложили поучаствовать в проекте для одного стартапа, в котором ИИ должен был писать школьникам и студентам эссе и статьи, способные обойти системы антиплагиата и ИИ-детекторы. ИИ и так довольно неплохо справляется с системами антиплагиата, а вот обходить ИИ-детекторы — задача интересная.

ИИ-детекторы вроде GPTZero работают следующим образом:

• Используется модель детектирования, обученная на данных студенческих работ;
• Проверяется, насколько текст в целом похож на то, как пишет ИИ. Текст, написанный человеком, стилистически неоднороден. ИИ создает текст по другим принципам и это нетрудно определить;
• Для выявления смешанных текстов проводится дополнительное исследование, чтобы выявить, какие конкретно предложения написаны ИИ;
• Для этого после каждого слова в предложении языковая модель предполагает, какое слово будет следующим. Она проверяет, совпадают ли предположения с текстом, и делает выводы на основе количества совпадений.

Как сделать так, чтобы языковая модель начала генерировать человекоподобный текст? Я решил задачу следующим образом:

1. Скачал множество эссе на различные тематики и разного размера c сайта, где выкладываются эссе, получился датасет. Наличие качественного и разнообразного набора человеческих текстов позволяет модели лучше понимать, какие особенности отличают человеческий текст от машинного.

2. Каждое из эссе я проверил через GPTZero на то, что оно действительно написано человеком.

3. Задал промпт ChatGPT, в котором попросил переписать эти тексты, и на выходе получил сгенерированные тексты. Теперь у меня были пары текстов — до и после обработки нейросетью. Это необходимо для последующего обучения модели имитации человеческого стиля.

4. Из полученных пар текстов собрал датасет для файнтюнинга модели: для первого раза хватило десяти экземпляров.

5. Загрузил полученный датасет на платформу OpenAI, задав стандартные параметры для дообучения модели (файнтюнинга). В результате модель научилась имитировать стилистику, интонацию и вариативность, характерные для человеческого письма.

PROFIT. Теперь полученная модель понимает, как люди пишут тексты, и легко обходит проверки ИИ-детекторов. Школьники и студенты спасены. OpenAI пытается решить эту проблему с помощью вотермарков, но нам всегда будут доступны опенсорсные LLM.

Но если нам нужно генерировать не просто эссе, а статьи, ссылаясь на определенные источники, придется немного поколдовать. Обычно для таких задач применяется RAG (Retrieval-Augmented-Generation).

RAG — это метод, который ищет релевантные документы из большой базы данных, а затем использует эту информацию для формирования ответа.

В задаче по написанию статей для студентов я собрал данные из различных источников: ArXiv, SocArXiv и BioArXiv и настроил автоматический сбор свежих статей. После чего поднял векторную базу данных ChromaDB и определил алгоритм поиска информации в базе, использовал косинусное расстояние. Нарезал статьи на чанки (минимальные фрагменты текста, в нашем случае абзацы) и настроил индексацию абзацев.

Когда пользователь задает тему статьи, языковая модель создает ее оглавление и под каждую главу запускает поиск информации в векторной базе, возвращает найденный абзац в перегенерированном под контекст виде, а также ссылку на статью. В итоге статья содержит не только факты, но и ссылки на найденные работы.

Стартап, которому я помог, сегодня зарабатывает более $1 млн MRR. С одной стороны, такая технология кажется не совсем этичной, и непонятно, как ей противодействовать.

С другой стороны, кажется, что это проблема не технологии, а системы образования: в мире, где вся информация легко доступна, и есть системы, которые могут ее обрабатывать, выступая в роли внешнего носителя памяти и логического процессора, пора учить людей чему-то другому. Прежде всего – тому, как рассуждать самостоятельно, чтобы не стать рабом таких систем.

#кейсы
Нейросекстинг: будущее онлайн-знакомств или этическая дилемма?

В одном из моих проектов было необходимо создать виртуальную собеседницу для общения на горячие темы на платформе OnlyFans. Заказчик хотел, чтобы ИИ-агент в образе женщины узнавал о пользователе как можно больше при знакомстве, соблазнял его и предлагал приобрести фотографии.

Возникла проблема: такие модели, как ChatGPT и Claude, зацензурированы и не могут использовать ненормативную лексику или вести диалоги эротического содержания.

Впрочем, для подобных задач существуют нецензурированные модели. Например, Wizard-Vicuna-Uncensored была специально обучена без морально-этических фильтров, а Llama-3-Uncensored дообучена на текстах с нецензурной лексикой.

Сценарий общения с пользователем мы разбили на несколько этапов, каждый со своими функциями:

- Этап знакомства: Цель — собрать как можно больше информации о пользователе: имя, увлечения, предпочтения. Эти данные используются для персонализации дальнейшего диалога.

- Этап соблазнения: Используя полученную информацию, виртуальная собеседница переходит к более пикантным темам, максимально раскрывая возможности нецензурированных моделей.

- Финальный этап — отправка фото: В определенные моменты нейроледи предлагает приобрести заранее подготовленные фотографии.

- Ежедневный чат: Вместо знакомства нейроледи может спросить, как дела у пользователя, чтобы собрать новую информацию и перейти к соблазнению.

Эта система показала хорошие результаты на OnlyFans, и, вероятно, она действует до сих пор. Но если продолжить рассуждения на эту тему, то есть технические возможности для улучшения:

- Рефлексия и память: В проекте не использовался Retrieval-Augmented Generation (RAG), что могло бы добавить реализма. Было бы здорово, если бы нейроледи помнила детали из прошлых бесед, например, спрашивала, как прошел визит пользователя к врачу.

- Генерация фотографий: В недавнем посте я рассказывал, как мы в Pygma научились создавать цифровых двойников людей. Пользователь мог бы настроить параметры внешности, как в Sims, и получать фотографии женщины своей мечты в разных ракурсах и обстановках. Для этого, впрочем, пришлось бы признаться, что он общается с нейросетью.

- Мультимодальность: Добавление синтеза голоса и анимированной говорящей головы с ранее созданной внешностью сделало бы взаимодействие еще более захватывающим, хотя, возможно, чуть менее реалистичным.

Конечно, замена живого человека ИИ была бы этически крайне сомнительна, если бы не одно «но»: еще на заре вебкама с пользователями приватных чатов часто общались не сами девушки, а совсем другие люди. С тех пор в этом смысле мало что изменилось, разве что масштабы стали промышленными: для общения с жаждущими женской ласки мужчинами используется дешевый труд индусов, а теперь еще и искусственный интеллект.

Возникает вопрос: что этичнее — когда мужчины обсуждают интимные темы с другими мужчинами, маскирующимися под женщин, или когда такие диалоги ведутся с искусственным интеллектом?

У меня нет однозначного ответа на этот вопрос. Но одно можно сказать точно — машины научились общаться настолько реалистично, что порой разница уже неуловима.

Во время тестирования системы я создал симулированных мужчину и женщину и дал им доступ в интернет. К моему удивлению, они договорились о свидании, нашли кафе в своем городе, договорились встретиться, а затем обсудили прекрасный вечер и последовавшую за ним бурную ночь.

В 4-м сезоне сериала Netflix «Черное зеркало» показана система знакомств, способная предсказывать длительность отношений, симулируя взаимодействие между людьми. Это напоминает то, что мы наблюдали в нашем эксперименте.

Основательница Bumble видит будущее ИИ в онлайн-знакомствах, предполагая, что ИИ-консьержи будут общаться с пользователями, что перекликается с концепцией из «Черного зеркала».

В следующем посте я поделюсь опытом разработки ИИ для дейтинга. Как вы относитесь к идее создания такой нейроледи «на максималках» в виде Telegram-бота?

#кейсы
«Мэтчим не тела, а души» с дейтинг-сервисом на базе ИИ

В 2019 году я запустил свой первый стартап и первое в России корпоративное дейтинг-приложение.

В то время я работал руководителем команды из 10 дата-инженеров и дата-сайентистов в Сбере. Все участники команды были одинокими парнями от 22 до 26 лет.

За обедом коллеги часто делились историями о своих свиданиях в тиндере. Один из них потратил около 30 тыс. рублей в месяц за несколько свиданий, которые не привели к долгосрочным отношениям.

Как специалисты по данным, мы не могли не подумать о том, что это происходит в том числе потому, что дейтингу как коммерческому продукту совершенно невыгодно устраивать эффективные метчи, приводящие к удалению приложения. Наоборот, его задача — максимально растить возвращаемость и конверсии в платные подписки.

Поскольку в тот момент команда работала над задачами Стратегического блока, связанными с оптимизацией процессов компании, у нас был большой массив данных о сотрудниках. В обезличенном виде, конечно: психотип, образование, на что они тратят деньги, какие рабочие задачи выполняют, о чем пишут рабочие письма, когда приходят и уходят из офиса, и много чего еще.

Я решил использовать эти данные для того, чтобы создать некоммерческий внутренний дейтинг и мэтчить, образно выражаясь, не тела, а души — не для извлечения прибыли, а для того, чтобы пользователь в итоге удалил приложение, найдя свою пару. С этой идеей я пошел в бизнес-акселератор от Сбера. В акселераторе я три месяца занимался исследованием проблемы, рынка и созданием MVP (минимального продукта) под кураторством опытного ментора. В процессе работы я узнал много интересного: например, что в России более 40% одиноких людей, в Японии и Великобритании существуют министры по одиночеству, а так же что треть офисных романов заканчиваются созданием семьи.

В итоге я разработал ансамбль из рекомендательных алгоритмов на базе имеющихся данных о сотрудниках, который помогал максимизировать вероятность нахождения лучшей пары среди коллег. Мне помогли сделать мобильное приложение и мы запустили бета-тест дейтинг-сервиса. Пользователи получали 10 лайков в день, чтобы процесс смахивания был более осознанным, а не превращался в бесконечный скроллинг. Кроме того, прежде чем принять решение о лайке, пользователю необходимо было пролистать всю анкету потенциального партнера.

В результате один из участников нашей команды нашел свою пару в первый же день бета-теста, их отношения продлились несколько лет. Остальные участники команды также нашли свои пары. Мы победили в бизнес-акселераторе Сбера и решили масштабировать сервис на всю Россию (к чему я был не совсем готов).

Официальный релиз SberDating для сотрудников состоялся 14 февраля 2020-го года. В день запуска к нам пришло более 6000 пользователей, и со временем их количество начало расти. Сервис существовал до 2021 года, пока я работал в Сбере и поддерживал его на добровольных началах. На протяжении пяти лет после запуска бета-теста мне не переставали писать люди, которые выражали благодарность за то, что с помощью нашего сервиса нашли свои пары, а некоторые даже вступили в брак.

При масштабировании на Россию я встретил две проблемы:
— отсутствие обогащенных данных по пользователям, которые не работают в Сбере;
— не получилось создать сходимую финансовую модель в условиях, когда пользователи быстро находят себе пару и удаляют приложение.

Превращать эту историю в еще один обычный дейтинг не хотелось, но мне понравилось делать стартапы, приносящие пользу. В Сбере это делать было сложно, а для самостоятельного плавания на тот момент мне не хватало навыков в области создания устойчивых бизнес-моделей и маркетинга. Поэтому я ушел из Сбера набираться опыта в ИИ-стартапах в роли технического директора венчурной студии.

Сейчас я чувствую себя готовым выводить на международный рынок классные ИИ-продукты, которые будут полезны многим людям.

#кейсы
Секретный рецепт создания коротких видео для соцсетей с помощью ИИ

В современном мире внимание людей — самый ценный ресурс. Все говорят о том, что короткие видео захватывают аудиторию в соцсетях и становятся ключевым инструментом для продвижения личного бренда. Я решил разобраться, как ИИ меняет подход к созданию такого контента.

Недавно я наткнулся на исследование компании Buffer: более 55 000 пользователей воспользовались их ИИ-помощником для создания контента в соцсетях. Результаты впечатляют: посты, созданные с помощью ИИ, имели более высокий уровень вовлеченности по сравнению с теми, что были созданы вручную.

Общая средняя вовлеченность для ИИ-постов составила 5,87% против 4,82% для человеческих. На платформах Threads и TikTok разница была еще более заметна: 11,11% для ИИ-контента против 5,56% для обычного. Это заставило меня задуматься о том, как ИИ может помочь мне повысить эффективность моих постов. Ключ к успеху — регулярность публикаций, а ИИ-ассистенты позволяют создавать контент быстрее без потери качества.

Тренды 2024 года показывают, что среднее дневное время использования платформ коротких видео взрослыми в США достигнет 48 минут. Наибольшую вовлеченность получают видео длительностью до 2 минут. Учитывая, что 90% интернет-трафика приходится на видео, и 72% потребителей предпочитают узнавать о продуктах или услугах через видео, становится ясно, что короткие видео — это будущее.

Я нашел инструменты для автоматизации создания коротких видео для TikTok, YouTube Shorts и рилсов в инсте:

- VideoGen позволяет генерировать покадровые видео с сгенерированными изображениями и материалами со стоков;

- Klap преобразует длинные видео в короткие, что удобно для переработки существующего контента;

- Revid помимо вышеперечисленного создает говорящих аватаров для видео;

- AutoShorts помогает поставить соцсети на автопилот, используя сгенерированные короткие видео.

В Pygma AI мы разработали ИИ-ассистента для простого и быстрого создания персонализированного контента, в том числе коротких видео. Пользователь просто вводит тему видео, и система автоматически генерирует сценарий, определяет длительность и количество кадров. К каждому кадру добавляется соответствующая часть сценария, генерируются изображения с помощью ИИ, добавляются озвучка и музыка. В итоге пользователь получает готовый ролик, который сразу можно опубликовать в соцсетях. Мы планируем добавить различные переходы, голоса для озвучки и музыку, а также интеграцию с разными соцсетями.
Наш ИИ-агент позволяет создавать короткие видео, используя данные о портрете целевой аудитории пользователя. Таким образом мы повышаем цифровое присутствие наших пользователей, помогая им привлекать необходимую аудиторию. 

Конечно, не обязательно использовать именно наш продукт или продукты конкурентов. Вы можете воспользоваться готовыми библиотеками для генерации коротких видео. Например, ReelsMaker для покадровой генерации или преобразования длинных видео в короткие. С помощью этих инструментов вы даже можете запустить свой собственный ИИ-продукт, развернув сервис на сервере, подключив удобный интерфейс и систему оплаты.

Но помните, что главная задача стартапа — донести ценность до целевой аудитории, при этом оставшись в прибыли. Тот, кто сумеет свести юнит-экономику, особенно цену за привлечение пользователя (CAC) и пожизненную ценность клиента (LTV), тот сможет занять свою нишу на рынке. Цена за генерацию видео не маленькая на больших масштабах, а как дешево добраться до платящей аудитории - вечный вопрос. Приходится много работать с аналитикой, кормить рекламные движки данными о целевой аудитории для повышения эффективности рекламы, а также искать новые каналы привлечения трафика.
 
#кейсы
Почему данные — главное технологическое преимущество ИИ-стартапа

Большинство стартапов терпят неудачу — это аксиома. Поэтому важно выстраивать понятный и быстрый процесс проверки продуктовых гипотез для максимизации вероятности запуска успешного продукта. Расскажу про свой кейс, когда мы выпустили продукт на рынок США и проиграли конкуренцию Google.

В 2023 году я присоединился к стартапу Aola в роли технического директора. Aola — ИИ-ассистент для поиска досуга: интересных мест и событий — кафе, ресторанов, концертов, кино и многого другого.

Команда была небольшой: React-разработчик на фронт, Python-разработчик на бэк, ML-инженер для создания рекомендательной системы и парт-тайм DevOps-инженер для инфраструктурных задач. Моя роль заключалась в управлении технической командой, написании кода ИИ-ассистента, сборе данных, а также запуске продукта на рынок с настроенной аналитикой. Главный вопрос, который стоял передо мной — где брать данные для рекомендательной системы?

У меня было два варианта — использовать агрегаторы, например Yelp и Ticketmaster, или открытые источники. С агрегаторами всё оказалось не так просто: они не предоставляли доступа к семантическому поиску, искать места и события можно было только по городам и категориям. Это серьёзно осложняло желание масштабироваться, но мы решили попробовать этот вариант для проверки MVP на одном городе.

Для запуска MVP я собрал данные из Атланты и настроил интеграцию с рекомендательной системой на базе коллаборативной фильтрации. Для реализации ИИ-ассистента я использовал Langchain (LangGraph появился чуть позже). ИИ-ассистент не только рекомендовал досуг, но мог поддерживать беседы на различные темы, связанные с досугом, и даже придумывать игры. Вот пара интересных статей наработки из которых я использовал в проекте: как использовать LLM в разговорных рекомендательных системах и фреймворк RecSys-Assistant-Human.

Было интересно наблюдать, как наш ассистент общается с пользователями, знает все отзывы и детали о местах и предлагает гиперперсонализированные рекомендации на основе их предпочтений. Например, пользователю с ребёнком ассистент рекомендовал пойти в кафе с детской комнатой и посоветовал, какие развлечения понравятся ребёнку на основе отзывов.

В первый день запуска мы собрали 1k+ пользователей из одного города, но понимали, что нужно масштабироваться на большее количество городов. Однако, ежедневно делать реплику всей базы агрегаторов было слишком затратно.

Поэтому я переключился на сбор данных из источников с наличием семантического поиска. Я создал ИИ-агентов, которые формировали поисковые запросы в Google Places и Google Events, собирали подробную информацию о каждом месте и возвращали ИИ-ассистенту. В итоге нам не пришлось ежедневно собирать и обновлять данные по различным городам — мы научили агентов хорошо «гуглить» за пользователя.

Мы запустили мобильное приложение, веб-версию, Telegram-бот и даже интеграцию в Instagram. В первые дни казалось, что мечта начинает сбываться, так как нашим приложением начали пользоваться 5k+ пользователей, но через несколько дней Gemini (на тот момент Bard) выкатил обновление, в котором он тоже научился обращаться к своим же сервисам за нужными данными для поиска досуга быстрее, чем мы.

В итоге у нас не было конкурентного преимущества. Да, мы могли продолжать делать рекламу и привлекать больше пользователей, но мы были объективно хуже Google Bard, и конкурировать с ним было бессмысленно — у нас не было уникальных данных, к которым у нас был бы быстрый доступ.

Этот опыт стал для меня хорошим уроком. Я на практике понял, что без уникальных данных или обученных ИИ-моделей на этих данных сложно иметь технологическое конкурентное преимущество. Данные сегодня — это действительно новая нефть.

#кейсы
Как мы автоматизировали процесс разработки ПО за 3 дня

Будучи студентом я с удовольствием участвовал в хакатонах. Нам давали сложные задачи, которые нужно было решить за пару дней. Ночь без сна - классика этого жанра, но желание победить и денежные призы отлично мотивировали.

На прошлой неделе меня пригласили стать ментором на «антихакатоне» в формате JASS (Joint Advanced Student School). В этом формате участникам предоставляется три дня для решения сложной задачи, но вместо соревнований несколько команд работают над общей задачей “на грани науки” (участникам даже можно было спать по ночам). Поэтому моя роль заключалась в разработке общей задачи для шести команд по пять человек.

Одно из правил JASS заключается в том, что участники не пишут код самостоятельно, а активно используют ИИ-ассистентов, таких как Cursor. Мероприятие ставило цель изменить парадигму программирования для участников. Но можем ли мы не просто использовать умных помощников для написания кода, а полностью заменить разработчиков уже сегодня? (Спойлер: отчасти да). Именно такую задачу я предложил участникам - разработать мультиагентную систему для автоматизации разработки ПО.

Работая техническим директором, я хорошо знаком с процессами разработки ПО. Возможно, вы слышали о Devin AI, который стремится автоматизировать создание простых приложений. Также существует опенсорсный фреймворк ChatDev — мультиагентная платформа, автоматизирующая проектирование, написание кода, тестирование и ведение документации, что значительно облегчает разработку. Недавно Microsoft представила собственный фреймворк, способный автоматизировать весь цикл разработки: от генерации идей и создания технической спецификации до планирования, написания кода, тестирования и деплоя.

Однако мы стремились создать не простой продукт, а решение с использованием ИИ. Поэтому я предложил мультиагентную архитектуру, включающую следующие ИИ-агенты:

- ИИ-продуктовый аналитик — собирает требования от пользователя и формирует общие требования к продукту;

- ИИ-архитектор — проектирует архитектуру решения, разрабатывает техническую спецификацию и декомпозирует ее на более простые задачи;

- ИИ-исследователь — ищет научные статьи для решения ИИ-задач в arxiv и соответствующий код на гитхабе;

- ИИ-разработчик — определяет структуру проекта, пишет и рефакторит код;

- ИИ-инженер — тестирует полученный код и, в случае успешного прохождения тестов, разворачивает приложение;

- ИИ-поисковик документации — генерирует документацию к проекту и позволяет пользователю находить необходимые файлы.

Мы планировали связать всех агентов в фиксированный процесс, но в итоге решили отказаться от этой идеи. Вместо этого внедрили подход blackboard. В этом подходе все агенты работают в единой цифровой среде — GitHub — и реагируют на изменения в этой среде, а не на сигналы от других агентов. Например, когда в репозитории появляется новый код, ИИ-инженер автоматически берет его для тестирования и деплоя.

Таким образом, нам не нужно создавать сложные процессы для взаимодействия агентов: система сама распределяет задачи между агентами, обладающими необходимыми навыками, которые самостоятельно «подхватывают» соответствующие задания. Также мы использовали такие методы как Tree-of-thoughts, ReAct, RAG и Reflection.

В качестве теста мы попросили систему разработать инструмент для анализа токсичности текста. Система завелась не с первого раза, но в итоге каждый из агентов сделал свое дело. На более сложных проектах система все еще ломается, однако этот опыт показал потенциал мультиагентных систем в области разработки ПО.

Если вы разработчик и еще не используете ИИ-помощников, пора начать это делать прямо сейчас — ведь уже завтра вы станете операторами еще более умных систем.

В комментариях прикрепил концептуальную архитектуру системы, ссылку на гитхаб (загрузили не все) и итоговое приложение (пока оно работает).

#кейсы
Слежка или анализ? Как найти баланс между эффективностью бизнеса и приватностью сотрудников

В 2020 году, будучи директором по данным (Chief Data Officer) в Сбере, я занимался сбором и анализом данных для управленческих дашбордов, внутренних продуктов и ИИ-моделей. HR-аналитика была ключевой задачей, так как позволяла руководству получать актуальные инсайты об эффективности сотрудников при соблюдении требований GDPR и внутренних банковских политик.

Этичная HR-аналитика — это информационная среда, где сотрудники защищены, а бизнес использует ровно те данные, которые необходимы для улучшения эффективности компании.

Основные задачи, для которых требовались данные: анализ эффективности сотрудников, прогноз увольнений, организационный сетевой анализ (Organizational Network Analysis, ONA), а также «умный календарь» для руководителей.

Главные проблемы в HR-аналитике заключались в отсутствии единой политики хранения данных, отсутствии готовых моделей (анализ проводили в Excel) и недостаточной прозрачности: сотрудники не понимали, какие данные о них собираются и зачем.

Мы провели ревизию всех источников данных, создали закрытый контур на отдельных серверах для хранения сырых данных и организовали механизмы деперсонализации данных. Входящие файлы из разных источников автоматически очищались от персональных идентификаторов (ФИО, телефоны, почта), превращаясь в эмбеддинги (векторизацию текстов) для писем и сообщений в чатах, что позволило проводить анализ коммуникаций, не храня «сырой» текст.

Мы объединили свыше пятидесяти источников данных: от базовых HR-данных (стаж, семейное положение, образование и т.д.) до логов входов-выходов из офиса, корпоративной почты и календарей, психотипов сотрудников и прочей информации. Фактически мы знали о сотруднике почти всё: кто он, что купил по пути в офис, на чём доехал, во сколько пришел, чем занимался и когда покинул офис. При этом было важно не потерять доверие людей и не превратиться в «Большого Брата».

Технически мы использовали Teradata (затем Greenplum) для разработки озера и хранилища данных, спроектированных в парадигме Data Vault 2.0, а для аналитики применяли Qlik Sense. Объем данных достигал примерно 20 терабайт в месяц.

Затем мы разработали первые ИИ-модели, которые быстро показали свою ценность:

- Модель для прогнозирования увольнений (использовали модели дожития) снизила текучку на 4%, анализируя стресс-факторы (избыточные чаты в нерабочее время, снижение активности, редкие контакты с руководителем);

- Организационный сетевой анализ помог переформировать множество команд и выявить неформальных лидеров;

- Умный календарь учитывал загруженность руководителей и приоритеты проектов, позволяя сократить до 8% неэффективных совещаний;

- Управленческий дашборд отображал ключевые HR-метрики, помогая находить неэффективных сотрудников.

Даже при выстроенной безопасности сотрудники опасались «слежки». Мы организовали разъяснительные встречи и показали, что переписка недоступна в «читаемом» виде, эффект состоял в снижении текучки сотрудников и росте эффективности банка. Сбор данных был закреплен дополнительным соглашением с сотрудниками в политике данных банка.

Итак, для внедрения этичной HR-аналитики:

1. Определите уровень конфиденциальности данных (К4 - открытые данные, K3 - данные компании, K2 - персональные данные клиентов и сотрудников, К1 - данные повышенной конфиденциальности) и разграничьте к ним доступ;

2. Проработайте архитектуру сбора, хранения, обработки, анонимизации и визуализации данных с учетом объемов и уровня конфиденциальности: хеши, эмбеддинги, шум (noise injection), федеративное обучение - есть много приемов, снижающих риск утечек;

3. Объясняйте сотрудникам цели сбора данных, заключайте с ними соглашение об использовании персональных данных.

Этичная HR-аналитика — это реальный способ повысить эффективность бизнеса, сохраняя доверие сотрудников и соответствуя законодательству. Начните с прозрачности и уважения к личным границам, и HR-аналитика станет двигателем роста компании, а не источником страха для сотрудников.

#кейсы
Как создать цифровой двойник электросетей и найти похитителей электроэнергии?

В позапрошлом году я участвовал в проекте по созданию цифрового двойника для российской энергосбытовой компании в роли технического лидера. Мы решали извечную проблему: сокращение нетехнических потерь электроэнергии.

Нетехнические потери — это по сути то, что «утекает» из сети не по техническим причинам (сопротивление, нагрев проводов), а из-за хищений, некорректного учета и «подкруток» счетчиков. Технические потери снизить можно, но сложно (это связано с физическими свойствами проводов). А нетехнические потери в отдельных районах могут достигать до 3% всей поданной электроэнергии.

Наша цель была в том, чтобы обнаруживать подобные аномалии и предотвращать недополученную выручку. Мы понимали, что полностью закрыть «краны» воровства электроэнергии невозможно, но собирались снизить их на 10% (а это, учитывая обороты, колоссальная экономия). Так родилась идея проекта с цифровым двойником.

Цифровой двойник (Digital Twin) — это виртуальная копия реальной энергосистемы с тысячами трансформаторов и потребителей. Цифровой двойник может «проигрывать» различные сценарии поведения энергосети в зависимости от нагрузки, времени суток и погоды, а также видеть, какой баланс энергии должен быть. Если фактический расход не сходится с тем, что предсказывает цифровой двойник, есть повод подозревать нетехнические потери.

В команде у меня были дата инженер, дата саентист и фулстек разработчик. Мы взяли за основу CRISP-DM (Cross-Industry Standard Process for Data Mining) — классический подход к построению интеллектуальных решений:

1. Определили бизнес-задачу. Нужно оптимизировать работу выездных бригад за счет прицельного выявления участков с потенциальной кражей.

2. Изучили данные. Собрали данные из 20+ источников: показания счетчиков, данные с трансформаторов, характеристики сети, выездные акты бригад, метеоданные, ведь при холоде или жаре нагрузка растёт и так далее. Главная сложность — не было четкой разметки: из 100 случаев с аномальными цифрами лишь в 5-10 подтверждали кражу актом.

3. Подготовили датасет. Убрали дубли, заполнили пропуски, создали дополнительные признаки, например, суммарную «норму» расхода, средние технические потери по каждой линии и усредненные профили нагрузки по сезонам.

4. Моделирование. Из-за отсутствия качественной разметки мы свели задачу к поиску аномалий во временных рядах. Пробовали методы ARIMA, Isolation Forest и DBSCAN. Они помогали находить группы точек (счетчиков), которые выпадают из общего паттерна. Мы загрузили теоретические технические потери, показания с трансформаторов, и если реальный суммарный учёт «не бился» с расчетным более чем на 20%, система выдавала «красный флаг».

5. Оценили результат. В качестве пилота взяли участок с несколькими сотнями трансформаторов. За первые два месяца эффективность бригад (их выезды действительно выявляли кражи) выросла на 12%. Если раньше они часто выезжали «наугад», то теперь точечно проверяли подозрительные узлы.

6. Внедрили в эксплуатацию. Собрали все данные в Data Lake (Apache Hadoop). Оттуда рассчитывались аналитические сводки с поиском аномалий. Разработали дашборды в Power BI, а для бригад сделали удобное приложение для разметки данных, чтобы в перспективе можно было обучить модель с использованием разметки.

Отдельный бонус — упорядочивание данных, появление сквозной аналитики, а также возможность планировать профилактики и модернизацию сети, основываясь на данных.

Любой бизнес со сложной инфраструктурой и большим объемом данных (производство, логистика, ритейл, медицина) может создать свой цифровой двойник. Вместо счетчиков и трансформаторов там будут свои измерительные приборы (сенсоры, конвейеры, аппараты МРТ и т.д.). Принцип тот же: собираем данные, моделируем реальный процесс, оцениваем разные сценарии и выявляем аномалии.

Такой подход выводит принятие решений на новый уровень, снижая риск ошибок и увеличивая потенциал для роста и оптимизации. Цифровой двойник в наш век - фундамент для стратегического управления любой организации.

#кейсы
Как придумать идею для успешного стартапа с помощью ИИ

Создание любого продукта начинается с определения проблемы клиента, поэтому в первую очередь важно провести кастдев (Customer Development), прежде чем что-то разрабатывать. Иначе может оказаться, что рынку не нужно ваше решение, и вы зря потратите деньги и — что критичнее — время.

Кастдев сопряжен с рядом сложностей: нужно найти респондентов (не все согласятся тратить на вас время), а также нужно правильно формулировать вопросы (часто предприниматели задают наводящие вопросы и получают «нечестные» ответы). Также проведение кастдевов занимает много времени.

Чтобы оптимизировать этот процесс, мы проделали следующее упражнение:

1. Поиск трендов. Взяли список последних стартапов из YC и загрузили его в ChatGPT, чтобы выявить сегменты клиентов. Также можно закинуть результаты маркетинговых исследований, чтобы понять общие тренды. На выходе мы получили большой список сегментов.

2. Определение сегментов. Затем попросили ChatGPT предложить топ-10 сегментов, на которых нам стоит нацелиться. Копипастить чужие идеи из YC мы не хотим (хотя это тоже вариант), поэтому важно было найти свою нишу. ChatGPT выдал несколько потенциально интересных сегментов, среди которых оказались солопренеры (solopreneurs или “ИПшники”).

3. Проверка сегментов. Мы нашли исследования рынка солопренеров и обнаружили, что он растет. Например, в США в 2023 году было создано свыше 5,5 млн новых бизнесов, и 84% из них управляет один человек. Но в чём их основные проблемы и можем ли мы помочь им всем?

4. Детализация сегментов. Мы попросили ChatGPT детальнее определить потенциальные сегменты в формате ICP (Ideal Customer Profile). ИИ выделил несколько более узких групп солопренеров: от налоговых консультантов и психологов до фитнес-тренеров и фотографов.

5. Создание цифровых персон. Далее с ChatGPT сгенерировали по три подробных цифровых портрета для каждой профессии, указав возраст, пол, образование, локацию, ценности, мотивацию, страхи, а также проблемы и каналы коммуникации. К примеру, для психолога мы получили двух молодых женщин арт- и гештальт-терапевтов и одного зрелого мужчину-психоаналитика. Все они продвигают свои услуги в соцсетях, работают на себя и не имеют команды.

6. Формулировка вопросов. Теперь нужно составить вопросы для каждого сегмента, чтобы узнать, как они привлекают клиентов, какими инструментами пользуются и какие барьеры видят в продвижении своих услуг. Конечно, эту задачу мы также поручили ChatGPT.

7. Симулированные интервью. Далее ChatGPT провел «виртуальные» интервью с каждым из симулякр (лучше всего это делать в отдельных контекстных окнах). Также попросите ИИ задавать уточняющие вопросы, чтобы глубже понять процессы их работы.

8. Анализ результатов. ChatGPT выделил основные общие проблемы: повышение цифрового присутствия в качестве эксперта, увеличение конверсии в продажу услуг и ведение записи клиентов. Оказалось, что все солопренеры хотят развивать личный бренд, чтобы их клиенты больше доверяли их экспертизе и охотнее записывались на консультации. При этом им не хватает времени и навыков для регулярного создания контента и управления клиентской базой.

9. Генерация решений. Далее ИИ сгенерировал потенциальные решения этих проблем в формате Lean Canvas. Мы получили множество гипотез: от рекомендаций по контент-плану и созданию коротких видео, до автоматического сбора обратной связи из комментариев и автоответов на сообщения. Но что из этого следует тестировать в первую очередь?

10. Приоритизация гипотез. В итоге ChatGPT отранжировал идеи по методу RICE. Так мы получили приоритетный список гипотез (подробности не раскрою). Далее можно провести «smoke»-тест: сделать лендинг, запустить на него трафик и понять, действительно ли это интересно клиентам. При необходимости повторять весь процесс итеративно.

На этом всё. Теперь можно приступать к разработке продукта. Конечно, реальное общение с клиентами никто не отменял, но подобный подход помогает быстро наполнить бэклог идеями. В конце концов, одна голова — хорошо, а голова в связке с ИИ — лучше.

#кейсы
Нанять за 60 секунд: реальные кейсы применения ИИ в рекрутинге

Ранее я отмечал потенциал ИИ-агентов в HR. За почти десять лет работы я провел сотни собеседований, поэтому знаком со всеми тонкостями найма.

Наблюдая за процессами найма в других компаниях, я вижу, что они зачастую работают неэффективно, в то время как мы вообще обходимся без рекрутера. Как максимально автоматизировать найм, чтобы сэкономить время как рекрутеров, так и кандидатов?

На первом этапе резюме кандидатов, как правило, проходят через ATS-системы для скоринга. Большинство из них работает по ключевым словам, что часто приводит к тому, что квалифицированные специалисты не попадают в заданные шаблоны и остаются незамеченными.

После этого рекрутер связывается с успешными кандидатами, чтобы узнать об их опыте и навыках по заранее определенным критериям. На этом этапе у людей возникают когнитивные искажения:

• Эффект ореола. Положительные качества кандидата (например, опыт работы в известной компании) часто затмевают объективную оценку;

• Стереотипизация. Такие признаки, как возраст, пол или национальность, могут привести к необъективному выбору (например, стереотип о девушках-программистах);

• Эффект сходства. Оценщик часто предпочитает кандидатов, схожих с собой по образованию и интересам.

Список искажений можно продолжить, важно понимать, что они неизбежны даже у самых опытных специалистов, поэтому осознание проблемы – первый шаг к ее решению. В итоге тратится огромное количество человеко-часов, а кандидаты теряют возможность проявить свои лучшие стороны.

Один из интересных примеров внедрения ИИ в рекрутинг – моя первая задача в Сбере. Там мы создали модель предсказания успешности сотрудников еще до их найма на основе финансовых и поведенческих паттернов, сопоставляемых с успешными сотрудниками массовых специальностей (целевой функцией выступал KPI сотрудников).

Это не только сокращало время первичного отбора и снижало риски найма неэффективных кандидатов, но и позволяло находить потенциально успешных кандидатов среди клиентов, а логистическая регрессия позволяла объяснить влияние ключевых признаков на принятие решений.

По опыту работы в стартапах могу сказать, что ИИ способен радикально ускорить процесс найма даже при ограниченных ресурсах. На раннем этапе стартапа я обычно выступаю в роли играющего тренера: разрабатываю «интеллектуальную» часть продукта, а для клиентской части ищу разработчиков.

Как выглядит процесс найма с ИИ:

1. ИИ помогает составить детальное описание вакансии, включающее роль, обязанности и требования;

2. Далее ИИ автоматически оценивает резюме кандидатов по ключевым критериям и ранжирует итоговый результат по баллам – здесь лучше использовать отдельного агента для каждого критерия;

3. На финальном этапе задаются детальные вопросы по определенным критериям, на которые кандидаты асинхронно отвечают голосовыми сообщениями, которые далее преобразуются в текст и анализируются ИИ.

В итоге я получаю отранжированный список кандидатов. В целом результат удовлетворительный – «звездных» кандидатов ИИ находит точно, а вот среднячков я бы оценил иначе – здесь, скорее всего, проявляются мои когнитивные искажения.

Далее мне остается провести систем-дизайн и поведенческие интервью с успешными кандидатами. Такая система позволяет не только сократить время на сбор и первичный отбор резюме, но и устранять влияние личных предубеждений, делая процесс более объективным.

Я узнал у кандидатов, что многие из них предпочли бы общение с роботом, а не с реальным рекрутером. Логично – у робота нет плохого настроения, и он достаточно объективен.

Важно помнить, что ИИ невольно перенимает предвзятость данных, на которых он обучался. А такие человеческие качества, как креативность и эмпатия, сложно измерить автоматически, поэтому окончательное решение требует участия человека.

Но человеческие качества могут подвести нас в стратегически важных задачах – выборе правильных людей для проекта. Поэтому давайте оставим наши лучшие качества для главного – создания атмосферы, в которой люди захотят работать и творить.

#кейсы