Microservices Thoughts

Где может потеряться "exactly-once"

Представим классическую схему — два сервиса интегрированы через брокер:

producer → broker → consumer → side effect

Хочется обеспечить exactly-once обработку на всей цепочке

Что может пойти не так?

producer → broker

Продюсер записал сообщение в брокер → брокер отправляет ack → сеть сбойнула → продюсер ретраит → в брокере дубликат

Как обычно решается: зачастую общий механизм выглядит так, что каждый продюсер отправляет сообщения с монотонно-возрастающим sequenceNumber (в рамках данного продюсера), а брокер дедуплицирует по (producerId, sequenceNumber). Т.е. если от данного producerId пришло сообщение с sequenceNumber меньшим или равным, чем уже записано, то брокер его дискардит

Конкретная реализация зависит от брокера: например у кафки и нашего яндексового logbroker механизмы чуть разные

broker → consumer → side effect

Консюмер обработал сообщение → не успел закомитить offset → упал → после восстановления обрабатывает то же самое сообщение

Как обычно решается: у каждого сообщения есть уникальный идентификатор + обработка внутри консюмера идемпотентна по уникальному идентификатору сообщения

Например, консюмер может хранить идентификаторы обработанных сообщений в своей БД и выполнять дедупликацию перед применением бизнес-логики (например, через insert ... on conflict do nothing в транзакции с бизнес логикой). Если сообщение уже было обработано, повторная обработка пропускается, и применение сообщения к системе становится идемпотентным

Однако если обработка включает side effect во внешнюю систему, то для сохранения exactly-once внешняя система тоже должна поддерживать идемпотентность

—

Поэтому важно понимать: в большинстве случаев под капотом “exactly-once” — это at-least-once доставка + идемпотентная обработка на каждом стыке. Физически сообщения могут обрабатываться несколько раз, но система спроектирована так, что итоговое состояние меняется ровно один раз

👍71🔥18🤔4💅33

7.74K viewsedited 11:34

Microservices Thoughts

Почему загрузить разработчиков на 100% — плохая идея

Иногда в управлении командой есть очень соблазнительная мысль — давайте полностью загрузим каждого разраба, и тогда команда будет работать эффективно. На практике это часто дает обратный эффект

Занятость людей ≠ движение работы

Цель команды — протолкнуть фичу до прода. Проталкивание обычно включает в себя разработку → кодревью → тестирование → выкатку на прод

Пример, что происходит, когда все загружены на 100%. Начало спринта:

• Разработчик 1 делает фичу А
• Разработчик 2 делает фичу B
• QA тестирует предыдущую фичу C

Разработка фичи A завершена, требуется ревью. Но разработчик 2 загружен. Чтобы не просиживать, разработчик 1 берет следующую фичу D:

• разработчик 1 делает фичу А (ждет ревью)
• разработчик 1 делает фичу D
• разработчик 2 делает фичу B
• QA тестирует предыдущую фичу C

На следующий день аналогичная ситуация случается со вторым разработчиком. При этом QA до сих пор тестирует фичу С, так как фича оказалась большой и сложной

• разработчик 1 делает фичу А (поревьюено, ждет QA)
• разработчик 1 делает фичу D
• разработчик 2 делает фичу B (ждет ревью)
• разработчик 2 делает фичу E
• QA тестирует предыдущую фичу С

Спустя несколько дней получаем:
• растущую очередь перед кодревью
• растущую очередь перед QA
• кучу незавершенной работы

Незавершенная работа ⇒ раздутый WIP ⇒ огромный Cycle Time ⇒ фичи в проде появляются очень медленно

Ситуация выше описывается Теорией Ограничений — нет смысла усиливать ту часть производства, которая не является узким местом. Потому что это будет приводить к раздуванию очереди перед узким местом, и как следствие, повышению времени цикла

Что с AI?

Может возникнуть мысль что с AI-ассистентами проблема выше неактуальна, так как
• бэкендер может написать немного фронта
• фронт может сам поправить контракт апишки
• разрабы могут сильно помогать QA

Пункты выше действительно ослабляют проблему 100% загрузки, потому что люди становятся более "кросс-функциональными". Но тут есть важный нюанс — AI не отменяет закон очередей. Он просто делает границы между ролями чуть более размытыми

Поэтому очень важно использовать AI правильно — не генерить кучу незавершенки, а помогать разгружать узкое место. Об этом писал в одном из предыдущих постов

—

Пишите в комментах, если сталкивались с желанием загрузить всех на 100%, и что из этого вышло:)

P.S.: те 10% девушек, которые читают этот канал, с праздником вас!

👍49💅18🔥9🙏11

8.97K views10:12

Microservices Thoughts

random thought

Привычные аргументы насчет гексагоналки/clean arch выглядят так:
+: высокая тестируемость
+: понятная структура проекта
-: много бойлерплейта
-: много абстракций
-: высокий порог входа

Но если вспомнить, что сейчас большинство кода пишется агентами, которым как раз нужна
• высокая тестируемость
• понятная структура проекта

При этом для агентов не проблема
• написать бойлерплейт
• осознать абстракции

мэтч?

👍67🤔9💅5😁2

6.34K views07:01

Microservices Thoughts

Про Стратоплан и менеджмент (итог)

Я уже как ~месяц назад закончил обучение в Стратоплане на руководителя отдела https://stratoplan-school.com/head/

Обучение весьма удачно совпало с новой зоной ответственностью на работе, поэтому многое удалось попробовать на практике. Если меня попросить топ выводов/мыслей, в которых убедился на собственном опыте, я бы ответил так:

• Не хочешь внезапных разочарований (в т.ч. от себя) — явно проговаривай ожидания

• Регулярное обеспечение прозрачности таки действительно рождает доверие (как и наоборот)

• Эффективность каждого конкретного человека по отдельности ≠ эффективность команды

• Если проблемы со всеми людьми одновременно, то скорее всего проблемы не с людьми)

—

Еще на первом занятии упоминалось, что задача рук-ля отдела — строить систему, и в целом курс действительно направлен на то, чтобы абстрагироваться от решения локальных проблем, и решать их на уровне всей системы

Поэтому я думаю, обучение точно будет полезно:
• тимлидам, у которых начала разрастаться команда, и "уследить за всеми" уже стало как-то нереально
• M2 руководителям, которые не понимают, что происходит

Если у вас только-только появилась команда, то скорее всего будет полезнее тимлидское обучение

Подробности про обучение писал в постах
• раз
• два
• три
• четыре
• пять

Если интересно пообщаться лично и поспрашивать подробности, можно писать в личку, всем отвечу!

stratoplan-school

Руководитель отдела. Управление подразделениями без компромиссов

Фундаментальная трансформация. Глубокое погружение, формирование управленческого стиля и интеграция AI в каждый процесс.

1🔥33👍24

6.79K views07:50

Microservices Thoughts

Какой у вас Cycle Time в команде?

Время от взятия в работу до выкатки в прод типичной продуктовой задачи

Anonymous Poll

985 voters7.15K views09:56

Microservices Thoughts

yet another random thought

Внезапное место, где хорошо раскрылись принципы функционального программирования — LLM агенты

Агенты в большинстве своем устроены так:

• LLM — функция без сайд эффектов (string -> string)

• Все сайд-эффекты инкапсулированы в тулах

• LLM сама ничего не вызывает. А просто возвращает агенту, какие тулы нужно вызвать

А это и есть реализация паттерна
• functional core (LLM)
• imperative shell (Агент)

И в целом никто не запрещает перенять эти принципы для продакшн кода. Чистая бизнес логика — это супер-простое юнит тестирование и простота поддержки

💅28👍18✍32🙏1

6.26K views11:01

Microservices Thoughts

Хотел написать пост не про эйай но получилось как обычно

Обзор на книжечку Agentic design patterns, которая оказалась скачана на телефон во время 8ми часового полета

Несмотря на многословность и не очень прикрытую рекламу гугловых инструментов (книга от инженера из гугла), она дает хорошее понимание, как из ллмки - функции, которая просто предсказывает следующий токен, набором инженерных решений получаются крутые инструменты типа claude code

Рассказываются основные паттерны, которые устоялись за последние пару лет разработки агентских систем

Базовые:
• prompt chaining — пайплайн из вызова ллмок, где результаты передаются по цепочке
• rouing — ллмка решает, куда дальше идти в воркфлоу
• parallelization — кусочки, которые можно распаралеллить, параллелим. Например, сбор данных из разных систем
• reflection — первая ллмка отвечает, вторая оценивает ответ, дает фидбек первой, первая корректирует ответ
• planning — вместо "реши сложную задачу" сначала просим ллмку сформулировать план. Далее выполняем набор более простых задачек
• reasoning techniques — chain-of-thoughts, tree-of-thoughts, ReAct и несколько других

Как достучаться до внешнего мира:
• tool use — обычный тул колинг: ллмке даются спеки тулов, а она отвечает, что и с какими аргументами нужно вызвать для продолжения работы
• mcp — простой небольшой рассказ что это, что такое mcp client, mcp server
• rag — ретривим релевантную информацию из базы знаний перед ответом

Память:
• memory management — про short term memory (на уровне одного чата) и long term memory (глобальная память)
• learning and adaptations — прикольная глава про то, как сделать так, чтобы агент автономно (или полуавтономно) обучался и не повторял тех же ошибок

Как не допустить говна:
• exception handling and recovery — просто глава-напоминание о том, что внешние системы могут лежать/агент можно не справляться с задачей, и это надо как-то уметь обрабатывать
• human in the loop — зовем человека, когда делаем рисковое действие
• guardrails — ллмке как на вход, так и на выход поступает примерно что угодно, поэтому хорошо бы добавлять явные проверки/валидации, что запрос/ответ приемлем

Системы из нескольких агентов:
• multi-agent — есть несколько агентов, заточенных под свои узкие области, которые друг другу дают задачи. Зачастую есть отдельный агент-оркестратор
• A2A — гугловый протокол взаимодействия между агентами в распределенных системах

Всякое разное около самих агентов:
• evaluation and monitoring — какие есть способы мониторить агентов и их качество

Примеров оч много (даже слишком), поэтому читается легко

7/10

🔥36😁3👍2💅2

5.33K views12:34

Microservices Thoughts

Хочешь долгого выполнения задач — нагрузи всех подзавязку

В теории массового обслуживания есть очень простая и удобная модель M/M/1:

Есть бесконечный поток задач, один узел обслуживания и очередь перед ним


поток задач -> очередь -> узел обслуживания

Где:
• поток задач описывается Пуассоновским процессом
• время обслуживания описывается экспоненциальным распределением

Интересно вот что: если взять
• λ — скорость прихода задач
• μ — скорость обработки
• ρ = λ / μ — утилизация
• W — среднее время в системе

То получается, что
• W = 1 / (μ - λ)
(proof)

И если переписать через утилизацию:
• W = 1 / μ(1 - ρ)

То есть среднее время нахождения задачи в системе растет гиперболически относительно утилизации. Возьмем простой пример: μ = 1 задача / день

И по формуле выше получаем такое среднее время нахождения задачи в системе W:


50% utilization  ->  2 дня 
80% utilization  ->  5 дней
90% utilization  ->  10 дней
95% utilization  ->  20 дней
99% utilization  ->  100 дней

Такое происходит из-за того, что задачи поступают в систему неравномерно. Поэтому если обработчик загружен под 100%, то любая неравномерность приводит к скоплению очереди, и как следствие, взрыву времени ожидания

Например, при переходе 95% -> 99% утилизация выросла всего на 4п.п., при этом среднее время ожидания скакнуло с 20 дней до 100 дней

На произвольные распределения этот эффект обобщается формулой Кингмана

—

Какой из этого можно сделать практичный вывод? Не хочешь внезапных задержек — оставляй исполнителям задач некоторый запас капасити

Например, разработчик загружен на 100%, он сидит, работает себе, а потом ему прилетают 3 пулреквеста на ревью. И 3 задачи встанут, потому что у разработчика нет капасити на то, чтобы их поревьюить. Ну и в такой ситуации обычно начинают браться в работу новые задачи, начинает раздуваться WIP, и проявляться прочие спецэффекты, описанные в этом посте

👍59😁3🤔2

5.06K viewsedited 12:45

Microservices Thoughts

Как сделать карьерный рост чуть приятнее

Чем выше роль, тем меньше работа про сами задачи и тем больше — про людей. Всегда кто-то что-то требует, кто-то не согласен, кто-то аккуратно тянет одеяло на себя. Кто-то заходит в разговор так, что выходишь после него с ощущением, будто из тебя высосали всю энергию

Но, на самом деле, в таких сложных разговорах у разных людей одни и те же паттерны — тебя уводят от сути разговора, тебя пытаются ставить в оправдывающуюся позицию, разговор о предмете обсуждения подменяется разговором о личности и так далее

Нормально это осознать помог курс от ребят из SSL, который я проходил аж в 2024 (и до сих пор считаю одним из лучших вложений)

Один из тренеров курса — Миша Ромашов, который параллельно преподает переговоры в ВШЭ и лидит одно из направлений в Сбере. Миша ведет свой тг канал, где рассказывает интересные кейсы из практики:
• Про эмоции
• Про чужую картину мира
• Про конфликты без права сепарации

Если у вас в работе много сложных коммуникаций — рекомендую

Осознанные коммуникации | Ромашов Михаил

Канал про осознанную коммуникацию от тренера по переговорам Soft Skills Lab, преподавателя НИУ ВШЭ и Сколково на программе MOOVE.

👉🏻 По вопросам: @Mikhail_Romashov
👉🏻 Клуб по переговорам: @sslpractice

💅9😁5👍2

5.59K views15:02

Microservices Thoughts

Разработка фичей без достаточной экспертизы в системе зачастую превращается в набор "локально-оптимальных" решений: здесь добавили ифчик, здесь протянули новую зависимость, здесь скопипастили похожий код, здесь обошли существующую точку расширения

Каждое такое решение обычно выглядит норм в моменте — оно закрывает задачу, проходит тесты, не выглядит совсем плохо на ревью

Проблема начинается, когда такие решения последовательно наслаиваются друг на друга. Это приводит к architecture drift: фактическая архитектура системы постепенно отклоняется от той, которая была задумана

С агентской разработкой принципы те же — если у агента нет достаточного контекста о системе, он будет стараться делать минимальные локальные изменения, которые приведут к решению задачи. Только с агентами это все происходит быстрее

Главная проблема в том, что самая полезная архитектурная экспертиза обычно живет не в документации, а в головах людей, которые годами работали с системой. Они держат огромный набор фактов о том, почему сделано так, как это развивать, как точно делать не надо и т.д.

И честно говоря, я пока не видел чтобы такая экспертиза была в достаточной степени оцифрована — всегда остается много вещей, которые живут только в чьей-то голове. В таком сетапе агенты всегда будут медленно тянуть архитектуру куда-то в сторону (зачастую не самую хорошую)

А как вы боретесь с этим явлением?

👍36💅2

4.12K viewsedited 14:11

Microservices Thoughts

Очень грубо инженеров можно классифицировать на два типа:

1. Те, кто работает с техническими проблемами проактивно:
• Увидел плавное повышение cpu usage на БД => раздебажил из-за чего, добавил нужных индексов, предотвратил инцидент
• Увидел, что новая функциональность в модуль добавляется очень странным образом => инициировал и довел до конца рефакторинг, благодаря этому крупный проект сошелся в срок
• Сделал удобные алерты, что позволило видеть проблему раньше пользователей и предотвращать инциденты

2. Те, кто работает с техническими проблемами реактивно:
• TTM фичей вырос в два раза, постоянные баги => только тогда начинаем рефакторинг
• Количество инцидентов стало совсем неприемлемым => только тогда инициируем проект по стабилизации

(да, не существует чистых типов 1 и 2, это всегда спектр, и всегда нужно уметь работать в обоих режимах)

Но в чем неприятный парадокс — признание за технический вклад в основном получают люди, работающие во втором режиме

Почему так происходит? Потому что для наблюдателей есть прозрачная логическая цепочка: что-то сломалось, конкретный человек это починил, он молодец

Если же чинить проблемы проактивно, то со стороны может показаться, мол ничего особенного, все так и должно работать — фичи делаются быстро, система работает стабильно

Поэтому очень важно для всех опрозрачивать эту логическую цепочку: "что бы произошло, если бы мы не сделали эту техническую доработку". Да, это сложно. Но оно того стоит

Хороший руководитель безумно ценит людей, которые самостоятельно предупреждают проблемы. И задача руководителя — помочь опрозрачить такой вклад сотрудника для остальных

👍85🔥12🤔5

2.58K views12:29

About

Blog

Apps

Platform