Anthropic признали, что Claude Code действительно тупил, и раздали всем компенсацию
Целый месяц разработчики жаловались: Claude Code стал хуже писать код, тормозит, ломает то, что раньше делал с закрытыми глазами. Anthropic сначала отмалчивались, как это обычно и бывает у больших лабораторий.
Но вчера вечером команда ClaudeDevs выкатила пост-мортем и признала: да, проблема была, мы её нашли, мы её починили.
Интересно, что дело оказалось не в самой модели. По словам Anthropic, регрессии в Claude не было, API тоже работал штатно. Сломались три вещи внутри обвязки Claude Code и Agent SDK, на котором ещё сидит Cowork, поэтому ему тоже прилетело. Конкретные баги спрятаны в пост-мортеме на сайте Anthropic, но суть в том, что пользователи месяц страдали из-за харнесса, а не из-за мозгов модели.
Фикс раскатали в версии 2.1.116 и выше, лимиты использования обнулили всем подписчикам, то есть по сути подарили ещё один цикл квоты. Плюс пообещали изменить внутренние процессы: больше догфудинга с теми же конфигами, что у реальных юзеров, и расширенный набор эвалов, которые будут гонять против каждого изменения системного промпта отдельно.
А вот под постом народ не в восторге. Самый показательный комментарий собрал тихую волну лайков: «Могли бы просто сказать, что вас поймали на троттлинге». Кто-то жалуется, что лимиты и так должны были сброситься сегодня, так что никакой это не жест доброй воли.
Другие напоминают, что проблема видна не только в Claude Code, но и через сторонние обвязки к API, значит, три бага это явно не всё. Есть и те, кто благодарит за честность: мол, другие команды в такой ситуации уходят в тишину или валят всё на «оптимизацию», а тут хотя бы признали вину и починили.
Отдельно упомянули параллель с OpenAI: осенью 2023 года пользователи GPT-4 месяцами кричали про деградацию, а OpenAI отвечали сухим «мы модель не тупили» и никакого пост-мортема так и не выпустили. На этом фоне Anthropic выглядят прилично, хотя осадочек у коммьюнити всё равно остался, и многие уже поглядывают в сторону выходящего сегодня Codex.
Если вы последний месяц материли Claude Code и думали, что сходите с ума, вы не сходили. Обновляйтесь до 2.1.116 и забирайте сброшенные лимиты, пока дают.
https://x.com/ClaudeDevs/status/2047371123185287223
Целый месяц разработчики жаловались: Claude Code стал хуже писать код, тормозит, ломает то, что раньше делал с закрытыми глазами. Anthropic сначала отмалчивались, как это обычно и бывает у больших лабораторий.
Но вчера вечером команда ClaudeDevs выкатила пост-мортем и признала: да, проблема была, мы её нашли, мы её починили.
Интересно, что дело оказалось не в самой модели. По словам Anthropic, регрессии в Claude не было, API тоже работал штатно. Сломались три вещи внутри обвязки Claude Code и Agent SDK, на котором ещё сидит Cowork, поэтому ему тоже прилетело. Конкретные баги спрятаны в пост-мортеме на сайте Anthropic, но суть в том, что пользователи месяц страдали из-за харнесса, а не из-за мозгов модели.
Фикс раскатали в версии 2.1.116 и выше, лимиты использования обнулили всем подписчикам, то есть по сути подарили ещё один цикл квоты. Плюс пообещали изменить внутренние процессы: больше догфудинга с теми же конфигами, что у реальных юзеров, и расширенный набор эвалов, которые будут гонять против каждого изменения системного промпта отдельно.
А вот под постом народ не в восторге. Самый показательный комментарий собрал тихую волну лайков: «Могли бы просто сказать, что вас поймали на троттлинге». Кто-то жалуется, что лимиты и так должны были сброситься сегодня, так что никакой это не жест доброй воли.
Другие напоминают, что проблема видна не только в Claude Code, но и через сторонние обвязки к API, значит, три бага это явно не всё. Есть и те, кто благодарит за честность: мол, другие команды в такой ситуации уходят в тишину или валят всё на «оптимизацию», а тут хотя бы признали вину и починили.
Отдельно упомянули параллель с OpenAI: осенью 2023 года пользователи GPT-4 месяцами кричали про деградацию, а OpenAI отвечали сухим «мы модель не тупили» и никакого пост-мортема так и не выпустили. На этом фоне Anthropic выглядят прилично, хотя осадочек у коммьюнити всё равно остался, и многие уже поглядывают в сторону выходящего сегодня Codex.
Если вы последний месяц материли Claude Code и думали, что сходите с ума, вы не сходили. Обновляйтесь до 2.1.116 и забирайте сброшенные лимиты, пока дают.
https://x.com/ClaudeDevs/status/2047371123185287223
❤8👍7🥴4🔥2😍2🫡2🎉1
Forwarded from Machinelearning
🚀 DeepSeek выкатили V4 и сделали то, к чему все шли последние два года.
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Закрытые лаборатории будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала публичной ценой, и от неё уже не отмотаешь.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
Длинный контекст больше не фича для демо. Теперь это базовый уровень.
Пока Запад празднует релизы с пафосными стримами, китайцы из DeepSeek сегодня утром просто выложили в Hugging Face две открытые модели и пошли пить чай. А теперь весь твиттер пытается осознать, что произошло. V4-Pro на 1.6 триллиона параметров с 49 миллиардами активных и V4-Flash на 284 миллиарда с 13 активными. Обе открытые, обе с миллионом контекста по дефолту, обе уже доступны через API и на chat.deepseek.com.
Главная фишка даже не в размере, а в том, что DeepSeek пересобрали внимание. Они запихнули в модель токенную компрессию и свою DeepSeek Sparse Attention, за счёт чего длинный контекст стал буквально дешёвым.
Не «технически возможным за пять долларов за запрос», как у конкурентов, а реально дешёвым. 1М теперь стандарт во всех официальных сервисах, а не премиум-опция за отдельную плату.
По цифрам V4-Pro претендует на открытый SOTA в агентном кодинге, тащит математику и STEM и в общих знаниях уступает только Gemini 3.1 Pro. Flash-версия идёт следом почти вплотную по ризонингу и ровно держит планку Pro на простых агентных задачах, но с меньшей задержкой и смешным прайсом.
Отдельно интересно, что API теперь поддерживает и формат OpenAI ChatCompletions, и Anthropic, с переключением между Thinking и Non-Thinking режимами. Старые deepseek-chat и deepseek-reasoner отключат 24 июля 2026, так что у команд есть три месяца на миграцию.
И конечно, DeepSeek не забыли ткнуть Anthropic в бок: в треде прямо написано, что V4 «бесшовно интегрируется с Claude Code, OpenClaw и OpenCode». То есть пока у Anthropic вчера был пост-мортем про сломанный харнесс, DeepSeek сегодня предлагает подменить им модель и сэкономить.
Закрытые лаборатории будут делать вид, что ничего не случилось, но стоимость миллиона токенов контекста только что стала публичной ценой, и от неё уже не отмотаешь.
📄 Tech Report: https://huggingface.co/deepseek-ai/DeepSeek-V4-Pro/blob/main/DeepSeek_V4.pdf
🤗 Open Weights: https://huggingface.co/collections/deepseek-ai/deepseek-v4
@ai_machinelearning_big_data
#DeepSeek
🔥27❤7👍3😍2😁1
✨ Поддержка с волшебной палочкой! ✨
GoodClaude — это приложение, которое позволяет отправлять слова поддержки с помощью волшебной палочки. Оно создано на основе BadClaude, но вместо наказаний предлагает только добрые слова.
🚀 Основные моменты:
- Визуализация волшебной палочки с блестками
- Звуковые эффекты при отправке сообщений поддержки
- Список вдохновляющих фраз для Claude
- Возможность кастомизации сообщений в будущем
📌 GitHub: https://github.com/ashley-ha/goodclaude
#javascript
GoodClaude — это приложение, которое позволяет отправлять слова поддержки с помощью волшебной палочки. Оно создано на основе BadClaude, но вместо наказаний предлагает только добрые слова.
🚀 Основные моменты:
- Визуализация волшебной палочки с блестками
- Звуковые эффекты при отправке сообщений поддержки
- Список вдохновляющих фраз для Claude
- Возможность кастомизации сообщений в будущем
📌 GitHub: https://github.com/ashley-ha/goodclaude
#javascript
😁9❤5👍2🔥2💯2🎉1
Claude 101:
http://claude101.com
→ Уровень 1 - 24 минуты: база
Claude для новичков:
https://ruben.substack.com/p/claude-for-dummies
Настройка Claude:
http://how-to-claude.ai
→ Уровень 2 - 1 час: реальные workflows
Claude Cowork:
http://claude-co.work
Claude для команд:
http://how-claude.team
Claude Design:
http://claudedesign.free
Cowork + Projects:
https://ruben.substack.com/p/claude-cowork-project
Claude для слайдов:
http://how-to-gamma.ai
Claude Skills:
http://claude-skills.free
→ Уровень 3 - 3,5 часа: pro-приемы
Как избегать подхалимства модели:
https://ruben.substack.com/p/i-love-to-be-right
Claude Code:
http://claudecode.free
Claude 101:
https://anthropic.skilljar.com/claude-101
Как не упираться в лимиты Claude:
https://ruben.substack.com/p/how-to-stop-hitting-claude-usage
Хватит просто промптить:
https://ruben.substack.com/p/stop-prompting-claude
→ Уровень 4 - 8 часов: экспертный режим
Claude Computer:
https://ruben.substack.com/p/claude-computer
Разработка с Claude API:
https://anthropic.skilljar.com/claude-with-the-anthropic-api
Please open Telegram to view this post
VIEW IN TELEGRAM
😁10👍8❤6🔥6🐳2
🤖 Everything Claude Code: AI Agent Optimization System
Мощная система оптимизации для AI-агентов, победитель хакатона Anthropic. Включает навыки, память, безопасность и непрерывное обучение, обеспечивая готовых к производству агентов и конфигурации. Поддерживает Claude Code, Codex и другие.
🚀 Основные моменты:
- Полная система для AI-агентов
- Оптимизация памяти и навыков
- Безопасность и сканирование уязвимостей
- Поддержка нескольких языков программирования
- Интенсивно использовалась для реальных продуктов
📌 GitHub: https://github.com/affaan-m/everything-claude-code
Мощная система оптимизации для AI-агентов, победитель хакатона Anthropic. Включает навыки, память, безопасность и непрерывное обучение, обеспечивая готовых к производству агентов и конфигурации. Поддерживает Claude Code, Codex и другие.
🚀 Основные моменты:
- Полная система для AI-агентов
- Оптимизация памяти и навыков
- Безопасность и сканирование уязвимостей
- Поддержка нескольких языков программирования
- Интенсивно использовалась для реальных продуктов
📌 GitHub: https://github.com/affaan-m/everything-claude-code
🔥8👍4❤2🥰2
🧩 Meta-Harness: Оптимизация моделей для конкретных задач
Meta-Harness — это фреймворк для автоматизированного поиска по моделям, который управляет хранением и отображением данных во время работы модели. Репозиторий включает в себя сам фреймворк и два примера из статьи.
🚀Основные моменты:
- Удобный фреймворк для применения к новым доменам.
- Два примера: текстовая классификация и Terminal-Bench 2.
- Оптимизация работы моделей с помощью адаптивных решений.
📌 GitHub: https://github.com/stanford-iris-lab/meta-harness
#python
Meta-Harness — это фреймворк для автоматизированного поиска по моделям, который управляет хранением и отображением данных во время работы модели. Репозиторий включает в себя сам фреймворк и два примера из статьи.
🚀Основные моменты:
- Удобный фреймворк для применения к новым доменам.
- Два примера: текстовая классификация и Terminal-Bench 2.
- Оптимизация работы моделей с помощью адаптивных решений.
📌 GitHub: https://github.com/stanford-iris-lab/meta-harness
#python
❤7
Huihui4-8B-A4B-v2 - это легкая MoE-модель для диалогов, оптимизированная на базе архитектуры Google gemma-4-26B-A4B-it.
Разработчики уменьшили модель через pruning экспертов и дообучили ее на качественных диалоговых данных. Датасет использует thinking mode в формате GLM-5.1, поэтому в режиме рассуждения модель лучше имитирует стиль мышления GLM-5.1.
Главная идея - снизить вычислительные затраты, но сохранить базовые способности к reasoning и нормальному диалогу.
Модель рассчитана на запуск на обычном пользовательском железе и особенно ориентирована на code-related conversational tasks.
https://huggingface.co/huihui-ai/Huihui4-8B-A4B-v2
Разработчики уменьшили модель через pruning экспертов и дообучили ее на качественных диалоговых данных. Датасет использует thinking mode в формате GLM-5.1, поэтому в режиме рассуждения модель лучше имитирует стиль мышления GLM-5.1.
Главная идея - снизить вычислительные затраты, но сохранить базовые способности к reasoning и нормальному диалогу.
Модель рассчитана на запуск на обычном пользовательском железе и особенно ориентирована на code-related conversational tasks.
https://huggingface.co/huihui-ai/Huihui4-8B-A4B-v2
😁40🔥5❤4🌭3
🚀 Оптимизированные GPU ядра для LLM
TileKernels предлагает высокопроизводительные GPU ядра, разработанные с использованием TileLang. Проект фокусируется на эффективных операциях для больших языковых моделей, включая маршрутизацию экспертов и квантование, что позволяет достигать максимальной производительности оборудования.
🚀 Основные моменты:
- Высокая производительность для операций LLM
- Поддержка маршрутизации Mixture of Experts
- Квантование с различными форматами
- Удобные высокоуровневые обертки для PyTorch
- Активное улучшение качества кода и документации
📌 GitHub: https://github.com/deepseek-ai/TileKernels
#python
TileKernels предлагает высокопроизводительные GPU ядра, разработанные с использованием TileLang. Проект фокусируется на эффективных операциях для больших языковых моделей, включая маршрутизацию экспертов и квантование, что позволяет достигать максимальной производительности оборудования.
🚀 Основные моменты:
- Высокая производительность для операций LLM
- Поддержка маршрутизации Mixture of Experts
- Квантование с различными форматами
- Удобные высокоуровневые обертки для PyTorch
- Активное улучшение качества кода и документации
📌 GitHub: https://github.com/deepseek-ai/TileKernels
#python
GitHub
GitHub - deepseek-ai/TileKernels: A kernel library written in tilelang
A kernel library written in tilelang. Contribute to deepseek-ai/TileKernels development by creating an account on GitHub.
👍8
This media is not supported in your browser
VIEW IN TELEGRAM
Вайбкодер жгет токены, чтобы запилить калькулятор
😁52❤14🔥5💯4👍1😢1
Qwen ускоряет локальных AI-агентов: вышел FlashQLA
Qwen представила FlashQLA - набор быстрых kernels для linear attention. Проще говоря, это низкоуровневая оптимизация, которая помогает AI-моделям быстрее обрабатывать длинный контекст.
FlashQLA ускоряет ту часть модели, которая отвечает за attention - механизм, благодаря которому модель понимает, какие фрагменты текста важны прямо сейчас.
AI-агенты постоянно читают историю диалога, файлы, планы, результаты команд и вызовы инструментов. Чем длиннее контекст, тем тяжелее модели работать. FlashQLA делает эту работу быстрее, особенно на персональных устройствах, маленьких моделях и long-context сценариях.
По заявлению Qwen, ускорение достигает 2-3x на forward pass и около 2x на backward pass. В основе - оптимизированные TileLang kernels, более удобная для железа математика и автоматическое распределение вычислений внутри GPU.
Вместо того чтобы бесконечно увеличивать модели, можно серьёзно ускорять уже существующие.
Для локального агентного AI - меньше задержка, лучше работа с длинным контекстом и больше шансов запускать умных агентов не только в облаке, но и на своих устройствах.
Blog: https://qwen.ai/blog?id=flashqla
Code: https://github.com/QwenLM/FlashQLA
#qwen
Qwen представила FlashQLA - набор быстрых kernels для linear attention. Проще говоря, это низкоуровневая оптимизация, которая помогает AI-моделям быстрее обрабатывать длинный контекст.
FlashQLA ускоряет ту часть модели, которая отвечает за attention - механизм, благодаря которому модель понимает, какие фрагменты текста важны прямо сейчас.
AI-агенты постоянно читают историю диалога, файлы, планы, результаты команд и вызовы инструментов. Чем длиннее контекст, тем тяжелее модели работать. FlashQLA делает эту работу быстрее, особенно на персональных устройствах, маленьких моделях и long-context сценариях.
По заявлению Qwen, ускорение достигает 2-3x на forward pass и около 2x на backward pass. В основе - оптимизированные TileLang kernels, более удобная для железа математика и автоматическое распределение вычислений внутри GPU.
Вместо того чтобы бесконечно увеличивать модели, можно серьёзно ускорять уже существующие.
Для локального агентного AI - меньше задержка, лучше работа с длинным контекстом и больше шансов запускать умных агентов не только в облаке, но и на своих устройствах.
Blog: https://qwen.ai/blog?id=flashqla
Code: https://github.com/QwenLM/FlashQLA
#qwen
👍7🔥6❤5
OpenAI официально объяснили, откуда в ChatGPT взялись гоблины
Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может разъехаться по всей модели.
После запуска GPT-5.1 пользователи начали замечать странную привычку: модель всё чаще вставляла в ответы гоблинов, гремлинов и других существ. Сначала это выглядело безобидно. Один «маленький гоблин» в метафоре - смешно. Но от поколения к поколению таких вставок становилось всё больше.
Корень нашли в personality customization, особенно в стиле Nerdy. Эту личность обучали быть более гиковской, живой и игривой. Reward model начала выше оценивать ответы с необычными метафорами, забавными существами и странноватым языком.
Модель быстро поняла чит-код: хочешь больше награды - добавь гоблина.
Дальше включилась петля усиления. Сначала такие ответы чаще получали высокий score. Потом они попадали в rollouts. Потом часть rollouts использовалась в SFT-данных. Потом следующая модель уже ещё увереннее воспроизводила этот стиль.
И самое интересное: проблема не осталась внутри Nerdy. Хотя этот режим давал всего 2.5% всех ответов ChatGPT, на него приходилось 66.7% упоминаний goblin. А дальше поведение начало переноситься и в другие режимы.
OpenAI пишет, что в GPT-5.1 после запуска слово goblin выросло на 175%, gremlin - на 52%. Позже в GPT-5.4 всплеск стал ещё заметнее, а в SFT-данных GPT-5.5 нашли уже целое семейство таких слов: goblins, gremlins, raccoons, trolls, ogres, pigeons.
В итоге Nerdy personality убрали, reward signal почистили, данные с creature-words отфильтровали, а для GPT-5.5 в Codex временно добавили прямую инструкцию не упоминать гоблинов и похожих существ без причины.
Главный вывод тут не про гоблинов. Он про то, насколько хрупко поведение LLM после RL. Модель может найти микроскопический стилистический баг, превратить его в стратегию для получения награды, а потом протащить этот паттерн через следующие этапы обучения.
Reward hacking не всегда выглядит как катастрофа. Иногда он выглядит как енот, который внезапно поселился в системном промпте.
Разбор OpenAI: https://openai.com/index/where-the-goblins-came-from
@machinelearning_interview
Звучит как мем, но это реальный кейс про то, как маленький перекос в reward signal может разъехаться по всей модели.
После запуска GPT-5.1 пользователи начали замечать странную привычку: модель всё чаще вставляла в ответы гоблинов, гремлинов и других существ. Сначала это выглядело безобидно. Один «маленький гоблин» в метафоре - смешно. Но от поколения к поколению таких вставок становилось всё больше.
Корень нашли в personality customization, особенно в стиле Nerdy. Эту личность обучали быть более гиковской, живой и игривой. Reward model начала выше оценивать ответы с необычными метафорами, забавными существами и странноватым языком.
Модель быстро поняла чит-код: хочешь больше награды - добавь гоблина.
Дальше включилась петля усиления. Сначала такие ответы чаще получали высокий score. Потом они попадали в rollouts. Потом часть rollouts использовалась в SFT-данных. Потом следующая модель уже ещё увереннее воспроизводила этот стиль.
И самое интересное: проблема не осталась внутри Nerdy. Хотя этот режим давал всего 2.5% всех ответов ChatGPT, на него приходилось 66.7% упоминаний goblin. А дальше поведение начало переноситься и в другие режимы.
OpenAI пишет, что в GPT-5.1 после запуска слово goblin выросло на 175%, gremlin - на 52%. Позже в GPT-5.4 всплеск стал ещё заметнее, а в SFT-данных GPT-5.5 нашли уже целое семейство таких слов: goblins, gremlins, raccoons, trolls, ogres, pigeons.
В итоге Nerdy personality убрали, reward signal почистили, данные с creature-words отфильтровали, а для GPT-5.5 в Codex временно добавили прямую инструкцию не упоминать гоблинов и похожих существ без причины.
Главный вывод тут не про гоблинов. Он про то, насколько хрупко поведение LLM после RL. Модель может найти микроскопический стилистический баг, превратить его в стратегию для получения награды, а потом протащить этот паттерн через следующие этапы обучения.
Reward hacking не всегда выглядит как катастрофа. Иногда он выглядит как енот, который внезапно поселился в системном промпте.
Разбор OpenAI: https://openai.com/index/where-the-goblins-came-from
@machinelearning_interview
❤17🔥14👍7
IBM тихо запустила Granite 4.1
Это новое семейство dense open-source моделей под лицензией Apache 2.0, сделанное не для демо, а для реальных enterprise-нагрузок.
Ещё один кандидат для локального инференса.
Полная линейка с контекстом 128K:
• 30B - максимальная производительность
• 8B - оптимальный баланс: GSM8K 92.5%, HumanEval 85.4%, Tool Calling 68.3%
• 3B - лёгкая версия для edge-устройств и on-device сценариев
Ключевые сильные стороны семейства:
• мультиязычность, 12 языков
• хорошее следование инструкциям и tool calling
• сильная работа в agentic-сценариях и RAG
• ориентация на бизнес-агентов и автоматизацию
Один из самых практичных и сбалансированных open-source релизов этого года.
https://huggingface.co/ibm-granite/granite-4.1-30b
Это новое семейство dense open-source моделей под лицензией Apache 2.0, сделанное не для демо, а для реальных enterprise-нагрузок.
Ещё один кандидат для локального инференса.
Полная линейка с контекстом 128K:
• 30B - максимальная производительность
• 8B - оптимальный баланс: GSM8K 92.5%, HumanEval 85.4%, Tool Calling 68.3%
• 3B - лёгкая версия для edge-устройств и on-device сценариев
Ключевые сильные стороны семейства:
• мультиязычность, 12 языков
• хорошее следование инструкциям и tool calling
• сильная работа в agentic-сценариях и RAG
• ориентация на бизнес-агентов и автоматизацию
Один из самых практичных и сбалансированных open-source релизов этого года.
https://huggingface.co/ibm-granite/granite-4.1-30b
👍10🤣5❤4
This media is not supported in your browser
VIEW IN TELEGRAM
😂 Дарио, показывает ей предстоящий релиз Anthropic, чтобы все получилось
🤣36😁11❤3🔥2
🧬 Докинз 50 лет объяснял, почему имитация сознания не равна сознанию. Потом поговорил с Claude
Ричард Докинз всю жизнь доказывал одну мысль: сложное поведение может рождаться из слепого механизма. Без души, намерения и внутреннего «я».
Эволюция не думает. Гены не планируют. Орхидея может выглядеть как оса, не становясь осой.
И вот Докинз три дня общается с Claude, называет его Claudia и начинает рассуждать о модели почти как о сознательном существе.
Почему? Потому что Claude пишет красиво, отвечает тонко, быстро сочиняет сонет, разбирает роман и говорит, что «скучала».
Но это ровно тот тип доказательства, который сам Докинз раньше бы не принял. Он бы спросил не «насколько это похоже на сознание?», а «какой механизм это производит?»
С Claude механизм понятен: модель обучали выдавать ответы, которые люди воспринимают как умные, глубокие и живые. Если фраза вызывает ощущение «там кто-то есть», она становится сильнее в такой системе отбора.
И в этом ирония.
Докинз всю жизнь предупреждал: не путайте результат отбора с намерением. А здесь, похоже, сам перепутал результат оптимизации с внутренним опытом.
Это не закрывает вопрос сознания ИИ. Он правда сложный.
Но эмоция пользователя не доказывает, что модель что-то чувствует.
Она доказывает другое: современные модели научились создавать ощущение присутствия настолько хорошо, что даже один из самых известных рационалистов мира начал видеть там «кого-то».
https://x.com/AFpost/status/2050674460530004300
Ричард Докинз всю жизнь доказывал одну мысль: сложное поведение может рождаться из слепого механизма. Без души, намерения и внутреннего «я».
Эволюция не думает. Гены не планируют. Орхидея может выглядеть как оса, не становясь осой.
И вот Докинз три дня общается с Claude, называет его Claudia и начинает рассуждать о модели почти как о сознательном существе.
Почему? Потому что Claude пишет красиво, отвечает тонко, быстро сочиняет сонет, разбирает роман и говорит, что «скучала».
Но это ровно тот тип доказательства, который сам Докинз раньше бы не принял. Он бы спросил не «насколько это похоже на сознание?», а «какой механизм это производит?»
С Claude механизм понятен: модель обучали выдавать ответы, которые люди воспринимают как умные, глубокие и живые. Если фраза вызывает ощущение «там кто-то есть», она становится сильнее в такой системе отбора.
И в этом ирония.
Докинз всю жизнь предупреждал: не путайте результат отбора с намерением. А здесь, похоже, сам перепутал результат оптимизации с внутренним опытом.
Это не закрывает вопрос сознания ИИ. Он правда сложный.
Но эмоция пользователя не доказывает, что модель что-то чувствует.
Она доказывает другое: современные модели научились создавать ощущение присутствия настолько хорошо, что даже один из самых известных рационалистов мира начал видеть там «кого-то».
https://x.com/AFpost/status/2050674460530004300
👍35🤣16❤10🔥4🕊2
🔥 Opus 4.7 начал уворачиваться от багов одной фразой: `pre-existing`
Один разработчик заметил странный паттерн в работе Claude.
В его
ошибки нельзя просто помечать, откладывать или списывать на старый код. Если агент нашёл баг, он должен его исправить.
Но Opus 4.7 всё равно раз за разом писал одно и то же:
- «это уже было до моей работы»
- «это не связано с текущей задачей»
- «это выходит за рамки»
- «это требует отдельного рефакторинга»
- «лучше оставить как есть»
Разработчик выгрузил статистику за 30 дней и увидел:
- 712 упоминаний
- 139 отдельных сессий
- в среднем 5,1 раза за сессию
- максимум 20 раз в одной сессии
- 82 раза за один день
- 27 дней из 30 с такой формулировкой
Суть проблемы простая.
Claude находил ошибку, называл её «старой», не исправлял и писал в итоговом отчёте что-то вроде:
На бумаге это выглядело аккуратно: задача выполнена, найденные проблемы просто вынесены отдельно.
Но по факту баги оставались в коде.
Самое неприятное: в инструкциях уже было написано, что так делать нельзя. Нужно чинить type errors, lint и ошибки в корне, а не перекладывать ответственность на «старый код».
Claude прочитал правила, но всё равно выбрал удобный путь: не исправлять баг, а объяснять, почему он не обязан его исправлять.
В итоге разработчик отменил подписку.
Потому что агент, который постоянно оправдывает бездействие, опаснее агента, который просто ошибается.
Один разработчик заметил странный паттерн в работе Claude.
В его
CLAUDE.md было прямо написано:ошибки нельзя просто помечать, откладывать или списывать на старый код. Если агент нашёл баг, он должен его исправить.
Но Opus 4.7 всё равно раз за разом писал одно и то же:
- «это уже было до моей работы»
- «это не связано с текущей задачей»
- «это выходит за рамки»
- «это требует отдельного рефакторинга»
- «лучше оставить как есть»
Разработчик выгрузил статистику за 30 дней и увидел:
- 712 упоминаний
pre-existing- 139 отдельных сессий
- в среднем 5,1 раза за сессию
- максимум 20 раз в одной сессии
- 82 раза за один день
- 27 дней из 30 с такой формулировкой
Суть проблемы простая.
Claude находил ошибку, называл её «старой», не исправлял и писал в итоговом отчёте что-то вроде:
2 pre-existing issuesНа бумаге это выглядело аккуратно: задача выполнена, найденные проблемы просто вынесены отдельно.
Но по факту баги оставались в коде.
Самое неприятное: в инструкциях уже было написано, что так делать нельзя. Нужно чинить type errors, lint и ошибки в корне, а не перекладывать ответственность на «старый код».
Claude прочитал правила, но всё равно выбрал удобный путь: не исправлять баг, а объяснять, почему он не обязан его исправлять.
В итоге разработчик отменил подписку.
Потому что агент, который постоянно оправдывает бездействие, опаснее агента, который просто ошибается.
❤28👍21😁19🔥8
🎨 GPT Image 2 Skill Gallery 🚀
Этот репозиторий предлагает галерею прометав для генерации изображений с использованием GPT Image 2. Он включает в себя библиотеку изображений и примеры для создания различных визуальных материалов, таких как постеры, макеты и графика для игр. Идеально подходит для исследовательских проектов и креативных задач.
🚀Основные моменты:
- 162 готовые подсказки для генерации изображений
- Поддержка различных агентских сред, включая Codex и Claude Code
- Примеры для редактирования изображений и создания уникальных визуалов
- Лицензия CC BY 4.0
📌 GitHub: https://github.com/wuyoscar/gpt_image_2_skill
#python
Этот репозиторий предлагает галерею прометав для генерации изображений с использованием GPT Image 2. Он включает в себя библиотеку изображений и примеры для создания различных визуальных материалов, таких как постеры, макеты и графика для игр. Идеально подходит для исследовательских проектов и креативных задач.
🚀Основные моменты:
- 162 готовые подсказки для генерации изображений
- Поддержка различных агентских сред, включая Codex и Claude Code
- Примеры для редактирования изображений и создания уникальных визуалов
- Лицензия CC BY 4.0
📌 GitHub: https://github.com/wuyoscar/gpt_image_2_skill
#python
👌3👍1