Анализ данных (Data analysis) – Telegram

Анализ данных (Data analysis)

@data_analysis_ml

50.2K subscribers

3.22K photos

406 videos

1 file

2.67K links

Data science, наука о данных.

@haarrp - админ

РКН: clck.ru/3FmyAp

Download Telegram

About

Blog

Apps

Platform

Анализ данных (Data analysis)

50.2K subscribers

Анализ данных (Data analysis)

США хотят смотреть самые мощные AI-модели до релиза

Трамп подписал executive order, который вводит добровольную проверку frontier-моделей перед выпуском. Речь не про все новые LLM подряд, а про системы, которые могут перейти порог по продвинутым киберспособностям.

Если модель уже умеет находить уязвимости, автоматизировать кибероперации или подсвечивать слабые места в критической инфраструктуре, государство хочет получить короткое окно до публичного релиза. Не чтобы «разрешить или запретить» модель, а чтобы защитники успели подготовить патчи, процедуры и ограничения.

По новой рамке AI-лаборатории смогут добровольно давать федеральным агентствам доступ к таким моделям максимум на 30 дней до релиза для других доверенных партнёров. К оценке должны подключаться NSA, CISA, NIST и другие структуры, а сам порог для covered frontier model будет определяться через закрытый benchmarking-процесс.

covered frontier model - это не любая новая модель, не очередной апдейт чат-бота и не open-source релиз на Hugging Face. Это модель, которая по правительственным критериям показывает продвинутые возможности именно в кибердомене.

Отдельно в EO прописано, что документ не создаёт обязательное лицензирование, preclearance или разрешительный режим для разработки, публикации и распространения AI-моделей, включая frontier-модели. То есть формально это не «гослицензия на LLM», а попытка встроить ранний кибер-аудит в релизный цикл самых опасных систем.

Пока это добровольная опция.

http://whitehouse.gov/presidential-actions/2026/06/promoting-advanced-artificial-intelligence-innovation-and-security/

👍7❤3🔥3🤣3

3.91K views10:26

Анализ данных (Data analysis)

Недавно вышло интервью с выпускником ШАДа Степаном Платинским. Он сейчас работает в международном поиске Яндекса и параллельно занимается экстремальной статистикой.

В прошлом году Степан ездил на стажировку в Саудовскую Аравию — в университет KAUST — как приглашённый исследователь. И вот какие советы он даёт тем, кто хочет развиваться в ML и науке.

1. Начинайте исследования как можно раньше. Степан жалеет, что вплотную занялся наукой только на старших курсах. Совет: ищите экспертов, участвуйте в их проектах, публикуйтесь. Это даёт опыт, связи и строчку в резюме, которая открывает двери в PhD за границей.
2. Идеальный английский не нужен. Гораздо важнее иметь реальные результаты. На зарубежные стажировки берут тех, у кого за плечами есть наработки и исследования, а не тех, кто красиво говорит.
3. Главный навык для ML — любознательность. «Заставить себя невозможно, важно искренне хотеть разбираться».

Ну и база — фундаментальное образование, сочетающее теорию и практику.

❤11👍9🔥4💯1

3.93K viewsedited 12:41

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

Кремниевая долина в шоке: Сандерс хочет забрать половину AI-капитала

Берни Сандерс (главный социал-демократ американской политики) готовит законопроект American A.I. Sovereign Wealth Fund Act. Идея звучит максимально жёстко для Кремниевой долины: крупнейшие AI-компании должны передать 50% акций в пользу общества через разовый налог не на прибыль, а именно на stock.

По замыслу Сандерса, эти доли попадут в суверенный фонд. Дальше доходы от роста AI-индустрии должны идти не только основателям, фондам и ранним инвесторам, а обычным гражданам США: через выплаты, медицину, образование и жильё.

Аргумент у него простой и политически очень заряженный. Генеративный ИИ обучался на книгах, коде, статьях, музыке, изображениях, видео и идеях миллионов людей. Значит, если новые триллионы создаются на базе «коллективного знания человечества», то и часть богатства должна возвращаться обществу.

Для AI-компаний это, конечно, выглядит как кошмарный сценарий. Не штраф, не новый налог на прибыль, не регулирование API, а фактическое размывание собственности в пользу государства и граждан.

Что предлагает Сандерс:

- 50% ownership stake для общества в крупнейших AI-компаниях США
- разовый налог акциями, а не деньгами
- создание американского AI sovereign wealth fund
- участие государства в управлении через голосующие акции
- распределение будущих доходов между гражданами

Полный текст закона он обещает раскрыть позже, поэтому пока это скорее политическая рамка, чем готовый юридический механизм. Но сама постановка вопроса уже важна.

Политики начали смотреть на ИИ модели не как на обычный софт, а как на новую нефтяную скважину. Только вместо нефти - данные, код, культура, научные тексты и человеческое внимание.

❤47👍19🤯13🤣10🔥6😁4

4.77K views14:00

Анализ данных (Data analysis)

⚡️

OpenAI раздаёт ChatGPT Pro на 6 месяцев владельцам open-source проектов.

В рамках программы Codex for Open Source можно получить:

• 6 месяцев ChatGPT Pro
• доступ к Codex и GPT-5.5 Pro
• API-кредиты
• Codex Security

Заявка простая: нужно отправить ссылку на свой репозиторий и коротко объяснить, зачем проект важен и как Codex поможет его улучшить.

Больше шансов у тех, у кого есть:

• активный GitHub-профиль
• несколько публичных репозиториев
• звёзды на проектах
• нормальная история коммитов

Если у вас есть живой open-source проект, это один из самых простых способов получить ChatGPT Pro на полгода бесплатно.

https://openai.com/ru-RU/form/codex-for-oss/

@data_analysis_ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍18❤9🔥8😐1

9.34K viewsedited 22:55

Анализ данных (Data analysis)

Там, где не должно быть сбоев, нужны вы

Т-Банк запускает наем сотрудников в новые дата-центры в Серпухове и Доброграде.

Компания ищет инженеров и ИТ-специалистов, которые готовы обеспечить стабильную работу инфраструктуры и развивать современные ЦОД по последним стандартам.

А еще предлагает:

— работу в современных офисах;
— ДМС со стоматологией, спортзал, консультации психологов, юристов и финансовых специалистов;
— компенсацию питания и спорта;
— специальные тарифы на продукты банка и скидки от партнеров;
— возможность переезда.

Вакансии подойдут и опытным, и начинающим специалистам.

Откликнуться можно прямо сейчас

❤6👍4🔥4

3.41K views10:58

Анализ данных (Data analysis)

У агентов снова нашли слабое место: память может портиться прямо во время «самоулучшения».

В новой работе Useful Memories Become Faulty When Continuously Updated by LLMs исследователи из University of Illinois, Tsinghua University и других лабораторий проверили, что происходит, когда агент постоянно переписывает свой опыт в аккуратные заметки.

Идея выглядит логично: агент решил задачу, сжал опыт в короткий урок, сохранил его в память и в следующий раз должен работать лучше. Но на практике такие пересказы постепенно ломают исходный смысл.

LLM часто превращает конкретный успешный эпизод в слишком общий совет. Потом эти советы группируются, обновляются, переписываются и начинают смешивать разные типы задач. В итоге память выглядит красиво, но работает хуже, чем сырые попытки с реальным контекстом.

Авторы тестировали это на веб-шопинге, симулированных средах, работе с приложениями и ARC-подобных задачах. Самый жёсткий результат: GPT-5.4 решала 100% небольшого набора ARC-AGI без памяти, но после построения памяти из правильных решений качество падало примерно до 54%.

Что ломалось:

- разные задачи склеивались в одну группу
- частные правила становились «универсальными»
- важные детали терялись при пересказе
- память переобучалась на узкие примеры
- новые обновления затирали полезные старые факты

Для агентных систем это неприятная проблема. Долгая память сама по себе не делает агента умнее. Если каждое действие автоматически превращать в саммари, агент может звучать увереннее, но действовать хуже.

Более рабочая схема - хранить сырые эпизоды как доказательства: реальные попытки, ошибки, решения и контекст. А обобщения делать осторожно, не превращая память в бесконечно переписываемый конспект.

Paper: https://arxiv.org/abs/2605.12978

❤15🔥7🥰4😁4

3.28K views11:20

Анализ данных (Data analysis)

ИИ-ассистенты уже умеют писать код, предлагать исправления и ускорять разработку.

Но в реальных проектах вайб-кодинг заканчивается нестабильным результатом, неожиданными ошибками и хаосом в промптах.

На открытом уроке:
• Почему хаотичные промпты дают нестабильный результат и перестают работать в реальной разработке;
• Ошибки, возникающие при использовании ИИ-ассистента в рабочих задачах;
• Как перейти от «вайб-кодинга» к системному подходу при работе с ИИ в разработке;
• Как применять готовые шаблоны и практики, чтобы получать предсказуемый и полезный результат;
• Как эти подходы работают на практике — в формате живой демонстрации на реальном open-source проекте.

После занятия вы поймёте, как выстраивать управляемую работу с ИИ, как переносить рабочие подходы в свои проекты.

🗓 Открытый урок пройдёт 16 июня в 20:00 МСК в преддверии старта курса «ИИ для разработчиков».

Регистрация: https://tglink.io/75fcbcb0984f60?erid=2W5zFGqSCUH

Реклама. ООО "ОТУС ОНЛАЙН-ОБРАЗОВАНИЕ". ИНН 9705100963.

❤4

3.06K views13:16

Анализ данных (Data analysis)

Forwarded from Machinelearning

✔️

DeepSeek привлекает около $7,4 млрд инвестиций

Китайская компания проводит первый в своей истории раунд привлечения внешнего капитала около 50 млрд юаней ($7,4 млрд).

По данным агентства Reuters, после вложений компанию оценят в 350–400 млрд юаней ($52–59 млрд).

Крупнейшими внешними инвесторами могут стать интернет-холдинг Tencent и производитель аккумуляторов CATL: первый рассматривает вложение 10 млрд юаней, второй - 5 млрд.

Основатель DeepSeek Liang Wenfeng, по словам источников, внесёт 20 млрд юаней собственных средств (это самый крупный частный взнос в раунде).

Переговоры также ведутся с государственным фондом поддержки ИИ КНР, а также с NetEase и JD.com. Общее число инвесторов, как ожидается, не превысит десяти. Среди возможных участников называют гонконгские IDG Capital и Monolith Management.

На фоне западных сделок раунд выглядит скромно: Anthropic в прошлом месяце привлёк $65 млрд, OpenAI в марте - $122 млрд.

О планах выхода на биржу DeepSeek пока не заявлял.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍4😍2🤣1

2.1K views14:20

Анализ данных (Data analysis)

Анализ данных (Data analysis) pinned a photo

14:20

Анализ данных (Data analysis)

Как сделать ранжирование с нуля

💫

В Авито совсем недавно появился новый продукт — Подработка. Здесь исполнители ищут удобную работу на пару часов с быстрыми выплатами, а заказчики — толковых работников. В отличие от классической задачи что-то продать тут мы решали проблему мэтчинга: важно, чтобы и исполнителю, и заказчику понравилось работать друг с другом.

Задача большая и интересная, поэтому мы сняли новый выпуск «Диванной аналитики» с Владиславом Урихом, архитектором системы алгоритмов мэтчинга для GIG-платформы.
Вот что он рассказал:

➡️ Как начинали строить мэтчинг и почему вначале не использовали ML.
➡️ Почему первый ML-подход не сработал и какую альтернативу придумали.
➡️ Какие инсайты и уроки вынесли, чтобы построить эффективную алгоритмическую систему.

Видео о том, как разрабатывали новые подходы к мэтчингу, смотрите где удобно:

📱

📱

Please open Telegram to view this post

VIEW IN TELEGRAM

2❤6👍6🔥5😐2🤣1

2.84K views14:37

Анализ данных (Data analysis)

This media is not supported in your browser

VIEW IN TELEGRAM

NVIDIA выкатила Nemotron 3 Ultra - открытую frontier-модель для агентов, которые работают долго, а не просто отвечают на один промпт и забывают контекст.

Ставка здесь не на красивые бенчмарки общего рассуждения, а на длинные агентные цепочки: планирование, вызов инструментов, работа с кодом, исследование документов и enterprise-сценарии, где задача тянется через десятки шагов.

Именно там обычно ломается экономика агентов. Каждый шаг - новый инференс. Чем длиннее траектория, тем выше задержка и итоговая стоимость. В демо это почти не видно, а в проде быстро превращается в главный счёт.

Поэтому самые интересные цифры у Nemotron 3 Ultra связаны с эффективностью:

- до 5x быстрее инференс
- до 30% дешевле на агентных задачах
- фокус на длинных рабочих сессиях
- открытая модель для команд, которым важен контроль над весами

Для продакшен-агентов это бьёт в больное место. Важен не только красивый ответ на одном запросе, а цена завершённой задачи: сколько стоила вся цепочка, сколько времени заняла и сколько раз агенту пришлось дергать модель.

Открытость тоже важна. Команды с собственной инфраструктурой получают больше контроля: можно дообучать под домен, гонять модель внутри периметра и не держать критичный агентный пайплайн полностью на чужом API.

«До 5x» и «до 30%» почти всегда означают лучший сценарий на удобном профиле нагрузки. Реальный прирост зависит от ваших трасс, инструментов, длины контекста и количества шагов.

Проверять такую модель нужно не по latency одного запроса, а по cost-per-completed-task: сколько стоит агенту реально закрыть задачу от начала до конца.

https://blogs.nvidia.com/blog/nvidia-gtc-taipei-computex-2026-news/

👍10🔥5👏2🤯2❤1

2.99K viewsedited 15:40

Анализ данных (Data analysis)

DeepSeek всё чаще появляется в статьях расходах американских компаний.

По данным Ramp, DeepSeek занял первое место в июньском списке trending software vendors. Компании реально начинают платить за более дешёвые альтернативы OpenAI и Anthropic.

Когда ИИ переходит из пилотов в ежедневные процессы, цена токена внезапно становится не мелочью, а строкой бюджета.

Особенно в агентных задачах, где один пользовательский запрос превращается в десятки вызовов модели, поиск, инструменты, повторные проверки и длинный контекст.

С одной стороны, есть привычные OpenAI и Anthropic с сильным брендом, экосистемой и комплаенсом. С другой - DeepSeek и похожие игроки, которые давят ценой и заставляют пересчитывать экономику внедрения.

Самое смешное, что рынок снова ведёт себя без идеологии. Если модель достаточно хороша, API доступен, а счёт в конце месяца заметно ниже, часть компаний начнёт тестировать её независимо от того, кто что говорит про геополитику.

Nothing to see here.

👍27❤8🔥5🐳1🌭1🤣1

4.36K views17:10

Анализ данных (Data analysis)

Tencent Hunyuan вместе с Gaoling School of Artificial Intelligence при Renmin University of China открыли PlanningBench - фреймворк для оценки и обучения навыков планирования у LLM.

Внутри:

- 30+ задач планирования из реальных сценариев
- автоматическая проверка решений
- поддержка не только оценки, но и обучения моделей

Ресурсы:

arXiv: https://arxiv.org/abs/2605.20873
GitHub: https://github.com/Tencent-Hunyuan/PlanningBench
Hugging Face: https://huggingface.co/datasets/tencent/PlanningBench

❤10🔥6👍4

3.67K views10:39

Анализ данных (Data analysis)

🖥 На stepik обновили курс Python в 2026 - рабочий инструмент для автоматизации, ботов, парсинга, API, данных и разработки с ИИ.

Проблема новичков в том, что они учат Python кусками: синтаксис, пару задач, немного теории - и потом не понимают, как собрать из этого реальный проект.

Этот курс закрывает именно этот разрыв. Здесь вы не просто смотрите уроки, а учитесь писать код, разбирать ошибки и собирать рабочие решения на практике.

Внутри:

- Python с нуля
- много практики без сухой теории
- реальные задачи и проекты
- автоматизация рутины
- работа с файлами, данными и API
- понятная логика программирования
- современная разработка с ИИ
- отдельный блок по вайбкодингу

Вайбкодинг это нормальный навык 2026 года и вас научат- правильно ставить задачу, проверять код, понимать результат и быстрее доводить проект до рабочего состояния.

48 часов скидка 60%: https://stepik.org/course/288218/

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥5👍3🤣2

3.45K viewsedited 13:52

Анализ данных (Data analysis)

Глобальной паузы в развитии ИИ не будет — и причина простая.

США открыто называют ИИ стратегической технологией, от которой зависит их мировое лидерство.

Остановиться - значит дать Китаю шанс обогнать, тем более что китайские open-source модели отстают всего на 4–6 месяцев.

Поэтому призывы к паузе - это скорее PR, жест доброй воли, а не реальная стратегия.

Ставки слишком высоки, и никто добровольно не отдаст преимущество сопернику.

🔥10💯4👍3🥱3

3.09K views15:30

Анализ данных (Data analysis)

Forwarded from Machinelearning

📌

ИИ уже ускоряет разработку новых моделей

Anthropic опубликовала аналитический материал, в котором утверждает, что системы искусственного интеллекта всё активнее участвуют в создании следующих поколений ИИ.

Материал подготовлен исследовательским подразделением Anthropic Institute. Его авторы - Марина Фаваро и сооснователь компании, глава отдела политики Джек Кларк.

Отрасль приближается к рекурсивному самоулучшению

Это состояние, когда ИИ способен самостоятельно проектировать и совершенствовать собственного преемника быстрее, чем к этому будут готовы правительства и институты.

При этом Anthropic оговаривается, что до полностью автономной разработки ещё далеко и что такой сценарий не является неизбежным, люди по-прежнему нужны. Они ставят цели, оценивают результаты и решают, какие направления важны.

🟡

Внутренние данные

На май 2026 года Claude написал более 80% кода, добавляемого в кодовую базу Anthropic.

До запуска Claude Code этот показатель измерялся единицами процентов.

Во втором квартале 2026 года типичный инженер вносил в проекты примерно в 8 раз больше кода в день, чем в 2024-м.

🟡

Публичные тесты

Время выполнения задач, которые модели способны надёжно решать без участия человека, удваивается примерно каждые 4 месяца.

В начале 2024 года Opus 3 справлялся с задачами длиной в несколько минут, годом позже Sonnet 3.7 примерно за полтора часа, а Opus 4.6 - до 12 часов.

На SWE-bench, проверяющем исправление реальных ошибок в коде, передовые модели за два года прошли путь от низких результатов до почти предельных.

Джек Кларк говорит, что компания хочет, чтобы законодатели и институты понимали, что может произойти дальше.

По его словам, цель Anthropic - "заранее обозначить концепцию и дать людям представление о том, что приближается".

Прогресс ИИ, по его оценке, скорее ускоряется, чем замедляется, и может принести значительные результаты в медицине и науке, но требует инструментов для проверки и подтверждения работы, выполненной ИИ.

Anthropic выступает за то, чтобы у мира оставалась возможность при необходимости замедлить или временно приостановить разработку передовых моделей, но понимает, что это потребует согласованных всех игроков индустрии в разных странах и механизмов взаимной проверки.

В ближайшие месяцы компания обсудит эти вопросы с законодателями, исследователями и другими участниками отрасли.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7🥱5🔥2😱2👍1

2.38K views17:15

Анализ данных (Data analysis)

Claude догнал профессиональный химический софт в анализе ЯМР - без дообучения под химию.

Anthropic проверили Claude на ЯМР-спектрах - это метод, по которому химики понимают, какую молекулу они синтезировали. Взяли 20 соединений из свежих препринтов, вышедших уже после даты обучения моделей, и сравнили Claude с ChemDraw и MestReNova.

Что получилось:

- в задаче «предсказать спектр по структуре» Opus 4.7 оказался точнее всех по водороду
- по углероду вышел примерно на уровень специализированного софта
- по форме пиков заметно обошёл классические инструменты
- расщепление пиков угадывал примерно в 80% случаев против 26–35% у обычных тулов

Обратная задача ещё интереснее: восстановить структуру молекулы по спектру.

Специализированный софт такое умеет, но обычно требует 2D-ЯМР, лицензий и человека, который понимает, как с этим работать. Claude же справляется по обычному списку пиков и масс-спектру - по сути, по данным, которые химик мог бы просто скинуть в чат.

Результат:

- 8 из 8 простых молекул восстановлены правильно
- 4 из 7 сложных молекул восстановлены идеально

Выборка пока маленькая, и авторы честно подают это как ориентир, а не финальный приговор химикам.

🔗 anthropic.com/research/making-claude-a-chemist

👍19🔥10❤8🥱3🌭2

3.88K views00:03

Анализ данных (Data analysis)

«Claude-Mythos-5» ненадолго засветился в API. Похоже, скоро релиз.

Интересно, пойдут ли они с ценами из поста про Glasswing: $25 за миллион входных токенов и $125 за миллион выходных.

Если да, это сделает Mythos примерно в 5 раз дороже Opus 4.8.

https://x.com/Machinelearrn/status/2063246572914160053

❤15🔥10👍6🌚2👏1

3.67K views13:08