EasyData
1.3K subscribers
176 photos
12 videos
25 files
111 links
Добро пожаловать!
Меня зовут Мария Жарова, и это мой блог про науку о данных

Лайфхаки из будней MLщика, полезности по Data Science и ответы на вопросы, которые волнуют новичков и не только🌝

Автор @NaNCat
Download Telegram
Привет, друзья!
Вышло очередное долгожданное исследование Habr-карьеры про ЗП IT-специалистов во 2-й половине 2025. Как всегда, можно посмотреть детализацию по языкам программирования, городам и направлениям - но отдельно про DS/ML снова не написали 😢

Однако благодаря логам нашего канала мы можем провести собственную аналитику 😏
Сравнение с точными прошлогодними цифрами для тех, кто назвал себя Data Scientist и ML-разработчик, можете оценить на первых двух скринах (указаны сумма ЗП и премий net). Общий вердикт таков:
• интенсивный рост остановился - в совокупности во всём IT в Москве медианная ЗП поднялась на 4%; если брать все города - не более чем на 2%
• в разрезе грейдов у джунов, стажеров и мидлов ЗП выросла; у сеньоров не особо; а у лидов упала (надеюсь, те кто выбыл из выборки, просто стали тех. директорами🙂)
• забавно, что у удалёнщиков не-джунов ЗП больше, чем у работающих в офисе! подтверждение на последнем скрине 😎
• на графике динамики ЗП производная >0, правда уже не такая большая по модулю относительно прошлого года 👋

По другому свежему исследованию HH.ru мы всё ещё сохраняем позиции в ТОПе самых высокооплачиваемых профессий: DS занял 2-е место с медианной ЗП 250k после... сварщика с ЗП 267k

Пишите ваши варианты, что случилось с лидами и почему удалёнщики больше ценятся:)

Всем хорошей недели и много 💸

#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍137❤‍🔥2🕊1🫡1
Привет, друзья!
LLM хоть до сих пор и выглядят как «хайповая новинка», за последние пару лет вокруг них уже успело накопиться достаточно знаний, разборов и практических гайдов. Собрала несколько самых свежих/интересных материалов от статей до видеокурсов 😔

📝Hugging Face Smol Training Playbook
Компактный и прикладной гайд по обучению небольших и средних LLM: здесь всё про инфраструктуру, рецепты стабилизации и повышения качества в формате чек-листа.
Язык: english
Ссылка:
тык

📝 Alex Wa's Blog, Frontier model training methodologies
Более глубокий инженерный разбор того, как тренируют SOTA-модели. Можно освежить базу (трансформеры, лоссы, оптимизаторы), а затем погрузиться в современные архитектуры, этапы обучения и реальные инженерные приёмы - по сути, это мини-книга с множеством практических инсайтов.
Язык: english
Ссылка:
тык

📝 Курсы APXML
Тут найдёте огромную подборку мини-курсов: от базового Python до полного цикла работы с LLM. Есть как вводные материалы, так и про детали обучения, продакшен-аспекты и так называемый LLMOps. Всё в формате статей с указанием примерного времени прохождения - удобно планировать.
Язык: english
Ссылка:
тык

📝 GPT Week от Яндекса
Это относительно не новый плейлист лекций и демо по GPT-технологиям 2023 года. Но материалы остаются весьма актуальными - особенно для новичков или тех, кто хочет системно освежить фундамент.
Язык: русский
Ссылка:
тык

📝 LLM Scaling Week от Яндекса
А это свежий интенсив ноября 2025 с очень насыщенной программой: сначала теория, затем глубокое погружение в инфраструктурные вопросы, оптимизацию и инференс LLM. В описаниях к видео найдёте презентации и код - так что можно не просто слушать, а попробовать всё руками.
Язык: русский
Ссылка:
тык (видео доступны по ссылкам, список внизу страницы)

Стабильного обучения и быстрого инференса!

#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥208👍3🍓3🙏1
Привет, друзья!
Сегодня вместо туториалов несколько реальных кейсов из жизни ML-щика. Попробуйте предположить, в чём могут быть проблемы 🧐

😔 Кейс 1 (про ранжирование)
Команда построила улучшенную модель (относительно текущей), которая ранжирует статьи на портале по вероятности клика.

Модель обучается как обычный бинарный классификатор: предсказывает вероятность клика для каждой статьи.

Offline-показатели (в т.ч. на валидации) выглядят отлично:
• ROC-AUC выше, чем у предыдущей версии модели
• LogLoss падает, переобучения нет

Но в онлайн-эксперименте CTR почти не вырос:(

👉 В чем проблема этой модели и как её улучшить?


😔 Кейс 2 (про калибровку вероятностей)
Есть модель бинарной классификации (например, обнаружение мошеннических операций). Команда решила откалибровать вероятности.

❤️Напомним: то что предсказывает классификатор - это "степень уверенности модели", а процедура калибровки переводит предсказания в интерпретируемые вероятности в математическом смысле.

После калибровки, на отложенной выборке:
• ROC-AUC почти не изменился
• Recall заметно упал...

👉 Почему это могло произойти и как исправить?


😔 Кейс 3 (прогноз возврата товара)
Модель предсказывает, вернёт ли пользователь товар после покупки. Таргет простой: returned = 1, если пользователь оформил возврат, и 0 - иначе.

Команда разработала улучшенную версию модели, метрики на offline-валидации получились отличными. Чтобы получить как можно лучшие результаты и в A/B-тесте, команда переобучила модель для тестовой группы на самых свежих данных за последнюю неделю.

Однако после запуска A/B-теста онлайн-метрики новой модели стали заметно проигрывать в первую неделю эксперимента...

👉 Где команда просчиталась?


Пишите ваши варианты в комментариях или в блокноте - в пятницу выложу ответы 😏
А если хотите кейсы из NLP или CV - ставьте 🐳

#карьера@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳26👍73🔥2
Привет, друзья!
Время разбирать кейсы из прошлого поста 😔
Ниже скрыты разгадки…

🙂 Кейс 1 (про ранжирование)
Самая главная проблема: задача была про ранжирование, а модель обучалась как обычный классификатор.
Хоть такой подход и имеет место быть, стоит помнить, что ROC-AUC и LogLoss оценивают качество вероятностей - но не обязательно отражают качество порядка объектов. В ранжировании важно, какие статьи окажутся выше других, а не только насколько хорошо модель предсказывает вероятность клика в среднем.
Поэтому в первую очередь необходимо попробовать ранжирующие функции потерь (например, pairwise и listwise подходы), и на валидации оценить метрики ранжирования (NDCG, MAP, Precision@k).
Идеи взять более сложный алгоритм, учитывать популярность, временные факторы и т.п. также могут дополнительно улучшить модель:)


🙂 Кейс 2 (про калибровку вероятностей)
Почему так произошло? Идейно калибровка не меняет порядок объектов, а лишь монотонно преобразует вероятности, изменяя их распределение.
ROC-AUC как раз зависит только от порядка предсказаний и не зависит от порога - поэтому он почти не изменился. А вот Recall напрямую связан с порогом - и видимо, его старое значение перестало быть оптимальным.
Чтобы это исправить, достаточно просто переподобрать порог классификатора.


🙂 Кейс 3 (прогноз возврата товара)
Проблема кроется во фразе: “Команда обучила модель на данных за последнюю неделю…” Если таргет - возврат товара, то он, как правило, происходит через некоторое время после покупки. Поэтому если обучаться только на “самых свежих” данных, то для многих заказов возврат ещё просто не успел произойти - соответственно, такие покупки помечаются как returned = 0.
В качестве решения необходимо по историческим данным рассчитать типичную задержку между событием и таргетом и на её основе выбрать подходящий диапазон данных - чтобы обучаться только на заказах, для которых уже прошло достаточно времени, чтобы возврат мог произойти.


🐳 В следующий раз разбираем NLP и CV 🐳
Хороших выходных!


#карьера@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥128🎉2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья!
Сегодня разберём громкую новинку уходящей недели - Gemini Embedding 2. Это первая омнимодальная модель от Google: она умеет мапить текст, изображения, видео, аудио и документы в единое векторное пространство.

👍 Технические детали:
- Длина вектора 3072, модель может принимать сразу несколько типов данных (но может и один).
- Есть ограничения по входу для каждой модальности:
• текст - до 8192 входных токенов
• изображения - до 6 файлов PNG или JPEG в одном запросе
• видео - до 120 секунд в формате MP4 или MOV
• аудио - принимается без транскрибации (обычно лимит ~80 сек, но здесь явно не пишут)
• документы - PDF до 6 страниц

- Доступ сейчас через Gemini API / Vertex (Public Preview) - а значит нужно учитывать квоты, биллинг, приватность данных и потенциальные задержки API.
- Благодаря MRL (Matryoshka Representation Learning) размерность эмбеддингов можно уменьшать без повторного вычисления.
- Отлично подходит для семантического поиска и мультимодального RAG.

👍 Но не спешите выбрасывать multi-vector архитектуры в окно!
Объединённый эмбеддинг удобен для общей семантики, но в реальных системах один объект всё равно часто представляют несколькими векторами - это помогает лучше решать разноплановые задачи и экономит время/место для простых задач (кстати, хранилища вроде Milvus тоже рекомендуют гибридные схемы).

Так что, Gemini Embedding 2 - важный шаг вперёд: единое пространство эмбеддингов для разных типов данных упрощает кросс-модальный поиск и RAG + позволяет быстрее собрать MVP.
Но в проде всё равно часто используют гибридные схемы - с доп. векторами, фильтрацией по атрибутам, а также ищут решения, которые можно запускать локально.

👍 Полезные ссылки:
Официальный анонс
Документация, Vertex и спецификации
Ещё раз статейка от milvus


#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥133👍2
Привет, друзья!
Ближайшие пару недель обещают быть насыщенными на мероприятия ML и Data Science - держите небольшую подборку ближайших бесплатных конференций и митапов:

🚀 Data Fusion - уже ставшая известной конференция про данные, ML и AI с уклоном в индустриальные кейсы, в программе есть доклады и дискуссии на любой вкус
Когда: 8-9 апреля, офлайн + онлайн
Ссылка на регистрацию: тык

🚀 Data Summit - более "бизнесовая" конференция про работу с данными, data platform и AI в крупных компаниях: здесь про тренды, перспективы и насущные проблемы ИИ
Когда: 2 апреля, онлайн/офлайн
Ссылка на регистрацию: тык

🚀 ZVUK Research Meetup - небольшой, но любопытный митап с кейсами про рекомендательные системы, аналитику и исследования, в программе спикеры из Авито, 2ГИС и Звука
Когда: 2 апреля, Москва + онлайн.
Ссылка на регистрацию: тык

🚀 Dream Teamlead от Yandex - конференция про лидерство в IT-контексте: здесь доклады про эффективное управление + несколько интересных лекций про софты и полезные советы тимлидам
Когда: вчера, 28 марта:)
Посмотреть запись трансляции: тут

🚀 NVIDIA GTC - нельзя не упомянуть про ещё одну прошедшую конференцию по ИИ и ускоренным вычислениям от NVIDIA. В 2026 году она посвящена "физическому" ИИ - роботам, интеграциям в автомобили и производство + также агентным системам
Когда: 16-19 марта
Посмотреть записи трансляций: тут (видеозаписи доступны после регистрации, работает с любого email)

Приятного просмотра!

#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
11❤‍🔥5👍5🔥2
Привет, друзья!
В дополнение к прошлому посту с мероприятиями держите ещё одну пометку в календарь на 15–16 апреля:
ФКН ВШЭ проводит онлайн-лекторий «Горячие клавиши в мир ИТ-возможностей»
🕸
Программа обещает быть насыщенной (посмотреть полностью можно тут), если коротко - за 2 дня пробегаемся по разным IT-направлениям с уклоном в data-профессии:
🧑‍🏫 про ИИ-агентов: от теории до прототипа собственного помощника
🤴 как внедряют ИИ в ритейле
🤴 технические секции про дашборды в DataLens
🧑‍🏫 роль аналитика на маркетплейсах и работа с данными в рекламе
🤴 no-code подходы и генерация приложений с ИИ
🤴 про карьеру в бигтехе и панельная дискуссия с экспертами

Я тоже выступлю с небольшим практическим мастер-классом про уже знакомый нам PyGWalker 🙂
Разберём:
🧑‍🏫 как уменьшить рутину в EDA и не писать десятки строк кода ради одного графика
🤴 когда классический стек pandas + matplotlib начинает тормозить
🤴 как превратить DataFrame в интерактивный BI-инструмент прямо в Jupyter

И покажу, как получить доступ к PRO-версии, если ещё не 😏

🧑‍🏫 15–16 апреля с 16:00 (мск)
🤴 Формат: онлайн
🤴 Ссылка на регистрацию: тык

До скорых встреч! 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥13👍10🔥82🐳1
Sebastyan_Rashka_Stroim_LLM_s_nulya.pdf
8.4 MB
Привет, друзья!
Наткнулась на книгу, которую давно хотелось увидеть в таком виде - «Строим LLM с нуля» от Себастьяна Рашки 😔

В ней не про то, "как вызвать API и прикрутить RAG", а про честное устройство LLM изнутри. Вот что пишет сам автор:
Отличие этой книги от других состоит в том, что в ней подробно описан весь процесс создания большой языковой модели: от работы с наборами данных до реализации архитектуры модели, предварительного обучения на неразмеченных данных и тонкой настройки для конкретных задач. На момент написания книги ни один другой ресурс не предлагает такого полного и практического подхода к созданию LLM с нуля.

Материал по главам идёт довольно последовательно: сначала разбирают базу обработки текстов, трансформеры, вводят в PyTorch, а потом шаг за шагом собирают свою GPT-подобную модель - с кодом и описанием, что происходит внутри.

Отдельно понравилось, что в книге не ограничиваются обучением с нуля, а показывают, как работать и с предобученными весами, как адаптировать модель под задачи и даже как из генеративной модели сделать что-то более прикладное.

Для комфортного изучения авторы рекомендуют смотреть материалы тем, кто уже базово знаком с нейросетями и ML.

Вообще очень классный тренд на такие книги! Сейчас очень легко застрять на уровне "обернул всё в пайплайн и работает", но часто хочется более осознанно влиять на решение.

Pdf во вложении - полная версия книги.
Кто прочитает - пишите, как впечатления 🙂
С Праздником!

#dl@data_easy
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥19🔥125👍3🤩1
Привет, друзья!
Держите обещанные кейсы по NLP и CV - попробуйте догадаться, в чём здесь может быть подвох 🧐

😔 Кейс 1 (NLP, RAG)
Компания сделала внутреннего помощника для ответов на вопросы по базе знаний. Пайплайн - типичный RAG:
• сначала по запросу пользователя находятся 10 наиболее релевантных документов,
• а затем LLM формирует финальный ответ на их основе.

По оффлайн-оценкам всё выглядит весьма достойно: нужные документы в 99% случаях попадают в топ-10 при отборе, Recall@k радует.

Но в реальности оказалось:
• около 25% финальных ответов содержат фактические неточности (согласно оценкам пользователей)
• в ~15% случаев модель делает уверенные, но неверные утверждения

👉 Почему же оффлайн-метрики не гарантируют хороший финальный ответ? И что здесь можно улучшить - как в валидации, так и во всём пайплайне?


😔 Кейс 2 (NLP, классификация)
С небольшого форума собрали тексты сообщений. Из особенностей - пользователей не очень много, при этом часть из них довольно активна и пишет много ответов.

Решили обучить на этих данных модель классификации тональности: взяли предобученный BERT и дообучили его на сообщениях с форума. Примеров было достаточно, разметка корректная, дисбаланса нет - в плане данных всё чисто. Далее датасет случайно поделили на train/test, ну и обучили модель.

Результаты на оффлайне как всегда хороши:
• Accuracy около 0.95
• F1 высокий
• кросс-валидация тоже выглядит стабильно

Но после запуска качество стало заметно проседать.

👉 Почему же оффлайн-оценка оказалась такой оптимистичной и какой важный момент был упущен?


😔 Кейс 3 (CV, детекция)
Команда обучает модель для поиска дефектов на производстве. Модель выдаёт bounding boxes, на оффлайне всё неплохо:
• mAP высокий
• precision и recall тоже выглядят хорошо

Но в проде выясняется, что:
• мелкие дефекты модель часто пропускает
• иногда вместо точной локализации она рисует слишком большие области

👉 Почему метрики снова не отражают реальную эффективность модели? Что бы вы поменяли в постановке задачи или в оценке качества?


😔 Кейс 4 (CV, классификация)
Решаем обычную задачу классификации изображений: сначала датасет немного расширили с помощью аугментаций, дисбаланса не было -> затем набор случайно разделили на train/test -> взяли предобученную модель и дообучили её.

По оффлайн-оценкам всё выглядит почти идеально: accuracy около 99% и ошибок очень мало. Но в онлайне качество почему-то заметно хуже.

👉 Что здесь могло пойти не так?


Ответы придут в пятницу 😏

#dl@data_easy
#nlp@data_easy
#cv@data_easy
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥104👍4❤‍🔥1
Привет, друзья!
Ответы немного задержались в пробке, но доехали 💨

Если обобщить, то во всех кейсах проблема не только в модели, но и в данных, постановке задачи и в том, как именно мы оцениваем качество.

❤️ Кейс 1 (NLP, RAG)
Основная мысль: одного хорошего retrieval’а недостаточно.

Recall@10 говорит лишь о том, что нужный документ где-то попал в десятку - но это вовсе не значит, что:
• он оказался достаточно высоко в выдаче и не потерялся среди других кандидатов,
• в контексте не было лишнего шума, и LLM действительно опиралась именно на нужный фрагмент (может, ТОП-10 вообще слишком много),
• финальный ответ получился фактически корректным - ведь в условии есть только метрики retrieval, но ничего не сказано про качество генерации.

То есть оффлайн метрика поиска и качество ответа - это разные уровни пайплайна.

Как исправить: смотреть не только на retrieval, но и на качество финального ответа, уменьшать шум в контексте и проверять, насколько модель реально опирается на источники. В чувствительных задачах ещё помогают цитирование и факт-чекинг.


❤️ Кейс 2 (NLP, классификация)
Тут тоже проблема не в самом BERT, а в валидации - из-за этого метрики были слишком оптимистичными и не соответствовали реальности.

Если случайно делить форумные тексты на train/test, легко получить утечку по пользователям - их стилю, повторяющимся формулировкам, темам или даже похожим сообщениям. Тем более раз часть авторов очень активная.

В таком случае модель на оффлайне может запоминать не только задачу, но и особенности конкретных людей. А в проде она может столкнуться с более реалистичным распределением, и качество на новых пользователях просядет.

Как исправить: строить сплит так, как модель будет работать в реальности - например, делить по пользователям, тредам или времени. И проверять, нет ли скрытых утечек или пересечений между train и test.


❤️ Кейс 3 (CV, детекция)
Здесь правда могли сыграть роль данные и разметка + команда могла не заметить проблему из-за неподходящей метрики.

Высокий mAP не всегда означает, что модель хорошо решает бизнес-задачу:
• мелкие дефекты часто детектируются хуже и теряются в общей метрике + усреднённая оценка может скрывать провалы на отдельных типах дефектов
• не самая точная локализация всё ещё может считаться "достаточно хорошей" - особенно по mAP@0.5

И вообще в производстве пропуск дефекта часто гораздо критичнее лишнего срабатывания - поэтому пороги и IoU-метрики важно подобрать под бизнес-ограничения.

Как исправить: конечно, перепроверить датасет, отдельно смотреть качество на выборке с мелкими дефектами и проверять, соответствуют ли IoU и метрики реальной задаче. Если нужна более точная локализация, можно вообще попробовать решать как сегментацию.


❤️ Кейс 4 (CV, классификация)
А тут подвох действительно очень классический: если сначала сделать аугментации, а потом случайный split - то в итоге одна и та же исходная картинка (пусть даже в разных версиях) может оказаться и в train, и в test.

Это даёт очень красивые метрики в оффлайне, но по сути модель уже подглядела часть теста во время обучения.

Как исправить: важно сначала разделять данные на train/test, и только потом уже делать аугментации(!) И вообще полезно следить, чтобы разные версии одного и того же исходного изображения не попадали в обе выборки - в таких случаях можно группировать данные по объекту/сцене/источнику.


Легкой рабочей недели! 🌱

#dl@data_easy
#nlp@data_easy
#cv@data_easy
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥103❤‍🔥2
Привет, друзья!
Давно хотелось обсудить что-то ближе к реальным продуктам - и вот наконец вместе с коллегами из Wildberries & Russ и Томского государственного университета собрали вебинар про рекомендательные системы в e-commerce💜 первый слайд презентации на картинке🙃

Встречаемся уже завтра, 30 апреля в 13:00 (мск).

План такой:
📱 обсудим, какие существуют типы рексистем и почему нет одной универсальной
📱 на простых примерах разберём основные подходы - что выбрать в зависимости от сценария и имеющихся данных
📱 посмотрим на типичные проблемы в рекомендациях и как с ними можно бороться на практике

В этот раз без кода - больше про логику и идеи, связь продукта и техники, как всё это реально применяется и с какими вызовами приходится сталкиваться 😎

Кстати, RWB и ТГУ запускают совместную онлайн-магистратуру по Data Science! Если задумываетесь про системное обучение с уклоном в практику - приёмная кампания на грядующий учебный год стартует 20 июня.

📱 Ссылка на регистрацию на вебинар: тык
📱 Подробнее про магистратуру RWB x ТГУ: тык
📱 UPD: запись будет в канале ТГУ


До скорых встреч! 🤗
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥10🔥742
Привет, друзья!
Неделя как никогда насыщенная😁 Совместно с МФТИ выпустили статью на Хабре "ТОП-7 графиков для вашей презентации" - про оригинальные и нестандартные визуализации, которые упрощают понимание (а не наоборот).

В ТОП-7 вошли следующие графики:
• Bubble chart
• Treemap
• Heatmap
• Sankey
• Sunburst
• Radar chart
• Choropleth


А что они из себя представляют - подробно рассказываем в статье! Всё легко строится в Plotly, полную версию кода можете взять в ноутбуке.

Главное в построении графиков - не переборщить🙃

👉 Полный разбор тут
Хороших выходных!🌼

#аналитика@data_easy
14🔥9❤‍🔥5🤩3👀1
Привет, друзья!
Коллеги из НИ ТГУ проводят день открытых дверей онлайн-магистратур по ИТ-направлениям. В том числе расскажут про направление «Науки о данных и ИИ», где я участвую как эксперт.

Если вам интересны Data Science/ML/AI и хотите посмотреть, как устроено обучение - обязательно заглядывайте😊
5👍2
🗣 Как поступить в онлайн-магистратуру в 2026 году?

Расскажем на Дне открытых дверей онлайн-магистратур ИДО ТГУ 👀

13 мая в 18:00 по московскому времени разберём:
🟦 как устроено обучение в онлайн-магистратуре;
🟦 чем магистратура отличается от курсов;
🟦 какие навыки нужны для поступления;
🟦 какие карьерные возможности открываются после выпуска;
🟦 как проходит приёмная кампания в 2026 году.


Отдельно расскажем о программах:
🔵 «Науки о данных и искусственный интеллект»
🔵 «Компьютерное зрение и искусственный интеллект»
🔵 «Искусственный интеллект и обработка естественного языка»


Также на встрече выступят руководители программ, и команда приёмной кампании ответит на вопросы о поступлении, сроках и формате обучения.

Если давно присматриваетесь к магистратуре, хотите сменить направление или разобраться, как войти в сферу искусственного интеллекта — приходите!

Регистрация по ссылке: https://clck.ru/3TbwDP
Please open Telegram to view this post
VIEW IN TELEGRAM
5🐳3🤝2
LLM Interview Questions.pdf
72 KB
И ещё накопилась очередная подборка вопросов к собеседованиям по NLP и отдельно по LLM 🦸‍♂️

👉 ТУТ 100 вопросов по самым разным темам, начиная с TF-IDF. Неплохой ресурс, чтобы освежить в памяти всё-всё с основ.

👉 А в PDF 50 вопросов уже чисто по LLM. Там повторяются базовые вещи про трансформеры, но гораздо больше прикладных тем: RAG, alignment, CoT, fine-tuning, типичные проблемы и прочее.

Больших успехов в больших моделях!🤗

#nlp@data_easy
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
1🔥148🙏5
Привет, друзья!🤚
Последнее время снова активно заговорили про роль ИИ в разработке и "заменят ли нас модели". Решила покопаться в более-менее официальной статистике и исследованиях - и наткнулась на несколько очень любопытных вещей.

Если коротко: ИИ уже массово вошёл в разработку, но эффект оказался совсем не таким, как многие ожидали.

🙂 Код правда стали писать быстрее - а вот всё остальное стало "бутылочным горлышком"
В крупном метаисследовании от Т-банка (45 исследований + опросы инженеров из разных компаний) 58% разработчиков сказали, что регулярно используют ИИ для генерации кода и автодополнения.

Но дальше интересное: для code review ИИ используют только ~24% разработчиков, а для работы с legacy-кодом - вообще <20%. Видимо, чем больше нужно контекста, тем меньше доверия к модели.

При этом ощущение продуктивности реально есть: 64% разработчиков говорят, что стали работать быстрее - но вот скорость доставки фич до прода почти не изменилась😄 ИИ не только ускорил этап написания кода, но и ярко подсветил старые добрые проблемы с тестированием, ревью, интеграцией и инфраструктурой.

Так что получается забавный парадокс: кода стало производиться больше, а способность компаний безопасно проверять этот код почти не выросла. Именно поэтому сейчас так резко выросла ценность хорошей документации, понятных процессов и платформенной инженерии.
ИИ, похоже, не упрощает хаос: он либо усиливает зрелые процессы, либо делает незрелые ещё более шумными.

🙂 А что с рынком труда?
Тут тоже всё интереснее, чем заголовки в духе "программисты больше не нужны". Андрей Карпаты недавно сделал интерактивную визуализацию по 342 профессиям в США и оценил их "AI exposure" - насколько разные профессии подвержены влиянию ИИ.
Сразу спойлер: у разработчиков показатель высокий. Но вот что пишет об этом Карпаты:
Разработчики программного обеспечения получают 9/10 баллов, потому что ИИ трансформирует их работу, но спрос на программное обеспечение может легко вырасти по мере повышения производительности каждого разработчика. Оценка не учитывает эластичность спроса, скрытый спрос, нормативные барьеры или социальные предпочтения в отношении работников-людей. Многие профессии с высоким уровнем воздействия будут изменены, а не заменены.

Как видим по предыдущему исследованию, тенденция такая: меньше времени уходит на рутину, но больше на архитектуру, диагностику, валидацию, понимание продукта и работу с контекстом. Так что можно будет больше заняться творчеством, а скучное делегировать ИИ.

🙂 И самое неожиданное - экономика пока почти не видит эффекта от ИИ...
Есть большое исследование NBER, где опросили почти 6000 CEO и CFO из США, Великобритании, Германии и Австралии.
Выяснилось, что 70% компаний уже используют ИИ, но:
• 89% не видят заметного роста производительности,
• более 90% не заметили влияния на занятость.

При этом сами руководители уверены, что изменения всё же придут в ближайшие 3 года: ожидают роста производительности и сокращения части рутинных ролей, в первую очередь в поддержке, продажах и административных функциях (про программеров не вспомнили фух).

Так что, кажется, пока мы находимся в точке перестройки процессов. И главный навык для нас - не уметь кодить с ИИ, а уметь проверять, структурировать и эффективно поддерживать сложные системы, в которых он участвует.

🔗Ссылки на оригиналы:
AI4SDLC Research 2025
визуализация Карпаты по AI Exposure
исследование NBER про влияние ИИ на экономику

Хорошего завершения весны!🌸

#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥137👍4🕊2
Привет, друзья!🤚
В прошлый раз говорили про то, как ИИ меняет саму разработку - а сегодня про то, чем эту разработку вооружать.
Держите подборку материалов для тех, кто строит агентов (или собирается) - от готовых наборов до фундаментальных гайдов 😌

👍 Everything Claude Code (ECC)
Огромный репозиторий всего и сразу для агентных сред от победителя хакатона Anthropic: готовые агенты, навыки, хуки, правила и конфиги, отточенные за 10+ месяцев ежедневного использования.
Внутри ~50 агентов, 185 навыков и куча совместимых заглушек команд. Работает не только с Claude Code, но и с Cursor, Codex, OpenCode и др. По сути - это готовая оболочка, которую можно ставить плагином и подключать только нужные куски. Сейчас у репозитория уже 210k🌟.
➡️ Ссылка: тык

👍 Awesome AI Agents 2026
А этот репозиторий - навигатор по экосистеме агентов: в readme собран список из 300+ инструментов, разбитых по 20+ категориям (coding-агенты, фреймворки, браузерные агенты, research, протоколы и т.д.), обновляется ежемесячно. Этот гайд - отличная отправная точка, чтобы понять, что вообще есть на рынке и не утонуть.
➡️ Ссылка: тык

👍 AI Agents for Beginners (Microsoft)
Фаворит для старта: здесь 12 уроков от Microsoft, которые по шагам проводят от "что такое агент" до рабочих примеров, включая Agentic RAG. Идеально, если хочется системный мини-курс с базой.
➡️ Ссылка: тык

👍 Гайды от Anthropic
Материалов у них ооочень много, вот несколько самых топовых по теме агентов:

➡️ Building Effective Agents - тот самый фундаментальный текст, на который все ссылаются (включая академические работы).
Ссылка: тык

➡️ Equipping agents with Agent Skills - про то, как оснащать агентов навыками через папки с инструкциями и скриптами. Anthropic представили Agent Skills в конце 2025 и открыли формат как общий стандарт в марте 2026 - так что концепция уже не экзотика.
Ссылка: тык

➡️ How we built our multi-agent research system - как у них устроен мультиагентный research-пайплайн. Забавный инсайт про то, что ведущий агент должен давать субагентам чёткие задачи с целью, форматом вывода и границами - иначе они дублируют работу или оставляют пробелы.
Ссылка: тык

P.S. Прошло больше недели с момента выхода Claude Opus 4.8 - первые отзывы в целом положительные...
Главный акцент Anthropic сделали на честности и надёжности: модель заметно чаще признаёт собственные ошибки, сама обращает внимание на проблемы во входных данных и лучше справляется с большими многошаговыми агентными задачами. Многие отмечают, что Claude стал больше похож на внимательного коллегу по ревью, чем на "генератор ответов".
Но есть и минусы: новый токенизатор расходует больше токенов на те же запросы, модель стала осторожнее и иногда отказывается выполнять вполне легитимные задачи:) А любителям вайб-кодинга может показаться менее удобной из-за более строгого отношения к расплывчатым инструкциям.
В целом сообщество сходится во мнении, что Opus 4.8 усилил сильные стороны Claude - код, математику и агентные сценарии, хотя местами пожертвовал удобством и креативностью.


Продуктивных агентов и рабочей недели! 🤖🌿

#полезный_ии@data_easy
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
18❤‍🔥5👍4🔥4🙏2
Привет, друзья!
Лучше один раз увидеть, чем сто раз услышать... Некоторые вещи бывает сложно объяснить словами, а если к ним ещё добавить формул - иногда вообще становится страшно🙈
На этот случай держите подборку интерактивных эксплейнеров по самым актуальным темам - где-то это просто гифки, а где-то можно покрутить руками гиперпараметры и данные:

📉 Градиентный спуск
ТОП-1 штука, чтобы прочувствовать алгоритм. Можете покрутить шаг обучения, моментум, начальное приближение - и увидеть, как меняется ситуация: аккуратно сходится или лосс скачет. Там же краткое описание происходящего с формулами.
Ссылка: тык (на соседних страницах найдёте ещё несколько других алгоритмов оптимизации)

🌳 EDA, дерево решений, bias-variance tradeoff
От этих авторов есть два шедевра:
• История решения любимой задачи по предсказанию стоимости домов.
• Рассказ про bias-variance tradeoff.
Просто листайте страничку вниз и сами всё увидите. В настройках можно выбрать русский язык.
Ссылка: тык

🧠 Нейросети
Чтобы детально понять, что происходит внутри полносвязной сети:
• В TensorFlow Playground можно покрутить архитектуру сети, активации, данные - и увидеть, как в зависимости от настроек модель определяет границу между классами.
Ссылка: тык
Заметки от deeplearning.ai помогут разобраться с проблемами обучения - затухающие и взрывающиеся градиенты, плохая начальная инициализация, влияние функции активации...
Ссылка: тык

🤖 Трансформеры
Transformer Explainer гоняет GPT-2 у вас на глазах: просто введите любой текст, и "черный ящик" в реальном времени покажет, как модель предсказывает следующие токены.
Ссылка: тык
exBERT - похожая идея для моделей из Hugging Face, можно покопаться во внутренней логике механизма внимания.
Ссылка: тык
• А если вдруг захочется сделать такую визуализацию, как exBERT, самому - есть библиотека BertViz.
Ссылка: тык

Пусть сложное становится наглядным, а непонятное очевидным

#classic_ml@data_easy
#dl@data_easy
🔥2115👍3
Привет, друзья!
Сегодняшний рассказ про marimo - реактивный блокнот для Python, который многие уже называют заменой Jupyter 👀

🤔 Что это вообще такое?
Если коротко - как Jupyter, только лучше.
Помните, этот вечный ужас, когда прогнали ячейки не по порядку, а потом непонятно, в каком состоянии сейчас ноутбук?
Здесь такого точно не случится - и это главная фишка marimo, которую называют реактивность: когда вы меняете переменную в одной ячейке, он сам автоматически пересчитывает все остальные ячейки, которые от неё зависят.

🤔 Какие ещё плюсы?
Зацепило ещё несколько моментов:
• Ноутбук хранится как обычный .py файл, а не как огромный json - а значит, git наконец-то будет нормально показывать различия.
• Никакого скрытого состояния - удаляете ячейку, и marimo вычищает её переменные из памяти автоматически.
• Встроенные интерактивные элементы управления - ползунки, выпадающие списки, таблицы. Например, двигаете ползунок прямо в ноутбуке - и связанные с ним вычисления пересчитываются.
• Тот же ноутбук можно развернуть как полноценное веб-приложение или запустить как обычный скрипт из командной строки.
• Есть нативная поддержка SQL - можно гонять запросы прямо по датафреймам и csv (под капотом DuckDB).
• Отлично дружит с ИИ-агентами - можно подключиться в пару кликов.


🤔 Как поставить?
Если по-минимуму:
pip install marimo

А если хотите сразу со всеми наворотами (SQL-ячейки, ИИ-автодополнение, серверный рендеринг графиков), то:
pip install "marimo[recommended]"

Дальше можете запустить обучающий ноутбук-туториал:
marimo tutorial intro

Создать свой новый ноутбук:
marimo edit notebook.py

Превратить его в веб-приложение:
marimo run notebook.py

Ставить можно куда угодно - локально, на сервер, в любое окружение (отлично дружит с pip, uv, conda). А если совсем не хочется - есть molab, облачная версия в духе Google Colab, достаточно просто зарегистрироваться.

Кстати, переезжать со всем нажитым добром не придётся - старые Jupyter-ноутбуки конвертируются одной командой:
marimo convert your_notebook.ipynb > your_notebook.py


🤔 Но было замечено и несколько минусов:
• Та самая реактивность поначалу непривычна - нельзя дважды определить одну переменную в разных ячейках, и переменные не должны ссылаться на то, что ещё не определено. Это сделано специально, но в первое время немного ломает мозг после Jupyter.
• Горячие клавиши и автодополнение работают иначе - придётся переучиваться.
• На GitHub ноутбук показывается как обычный .py, а не как красивый рендер с графиками. Удобно для код-ревью, но если вы привыкли делиться готовым ноутбуком "с картинками" прямо в репозитории - имейте в виду.
• Если ячейки тяжёлые и считаются долго, та самая реактивность может стать врагом... Но на этот случай есть ленивый режим - в нем marimo не пересчитывает всё сразу, а просто помечает ячейки как устаревшие.


🤔 Полезные ссылки:
• официальная документация: тык
• проект на GitHub: тык
• облачный molab: тык

В общем, штука и правда отличная, но надо привыкнуть. Кто уже пробовал marimo - делитесь впечатлениями


#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥13❤‍🔥6🙏43