Архитектор Данных
1.79K subscribers
271 photos
21 videos
3 files
203 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Кстати, а где сейчас все промпт-инженеры?

Куда они делись?
💯10😁7🤨2
Архитектор Данных
Кстати, а где сейчас все промпт-инженеры? Куда они делись?
Раньше были Мамонт-Инженеры.

Теперь их называют Полеонтолог Опсы

#пятничное
😁8
Рано или поздно это должно было случиться: регулярно появляющиеся в медиа истории о том, как так называемый «искусственный интеллект» может успешно заменить живых юристов, привели поверившим в эти сказки коммерсантов к вполне реальному провалу.

14 мая в Арбитражном суде Западно-Сибирского округа вынесено показательное определение по делу № А27-7831/2025: суд наложил на кемеровское ООО «ЦСС» штраф в 50 тысяч рублей. Поводом стала кассационная жалоба, подготовленная с помощью нейросети.

Ранее с компании взыскали 58 тысяч рублей за неоказание бухгалтерских услуг. Оспаривая это решение, «ЦСС» приложила к жалобе подборку судебной практики с цитатами, якобы подтверждающими её позицию. В документе были приведены реквизиты судебных актов Верховного Суда РФ, ВАС РФ и окружных судов, а также прямые цитаты из них. При проверке оказалось, что часть актов в действительности не принималась, часть имела иные реквизиты и относилась к другим спорам, а приведенные цитаты в реальных актах отсутствовали.

Кассационная инстанция отклонила жалобу и указала, что добросовестный участник процесса «не должен допускать и мысли о возможности искажения обстоятельств действительности», а использование ложных сведений «свидетельствует о явном пренебрежении к установленным правилам поведения». В определении суда говорится:

ООО „ЦСС“ предоставило суду заведомо ложные сведения, сфальсифицировав источники и стремясь воздействовать на суд округа непререкаемым авторитетом высшей судебной инстанции. Надеясь на поверхностное изучение судом округа аргументов кассационной жалобы и принятие желаемого для заявителя постановления, что является прямым обманом суда и грубейшим проявлением неуважения к правосудию.


Отдельно суд отметил тот факт, что жалоба готовилась с применением ИИ: «В таком случае ответственность за достоверность сгенерированного текста несет лицо, использовавшее указанную технологию».
👍7💯3🔥1
Улиточный бизнес - зарабатывает хорошо

Был с джунами на улиточной ферме. Экстракт вещества, которым улитки себя лечат, стоит 1 млн+ за 1 кг. Препараты на его основе 2-3 тыс за баночку.

Вареные и паренные улитки - большой деликатес в руках хорошего повара. Десятки тысяч за кило в живом весе. Хотел пельмени с улитками взять, да не довез бы 🫢

Сюрреальная картина лотков с живыми ползающими в своем темпе улиток, уходящими, насколько хватает глаз. Их там сотни тысяч.
3😱86🙏1👾11
Легенды рынка

Однажды в одном нефтегазовом ВИНКе внедрили Дата Гавернанс прямо в KPI.

Через год директор средней дочки (скважины, НПЗ, нефтетрейдеры, резервуары-трубы, розница-заправки) цитировал DMBOK близко к наизусть.

Эффект на бизнес - ?
😁13👌21
Архитектор Данных
Легенды рынка Однажды в одном нефтегазовом ВИНКе внедрили Дата Гавернанс прямо в KPI. Через год директор средней дочки (скважины, НПЗ, нефтетрейдеры, резервуары-трубы, розница-заправки) цитировал DMBOK близко к наизусть. Эффект на бизнес - ?
Как CDO я не могу допустить чтобы директор знал что такое Clickhouse, Airflow, DBT, OpenMetaData, Jupyter.

Ну максимум Визиологию и Суперсет, и то их лучше переименовать в «Интеллектуальный помощник принятия управленческих решений» и разместить на
i.companyname.ru (не superset.companyname.ru)

Нечего ему об этом всем знать, у него другие дела.

А лучший Дата Гавернанс - невидимый дата гавернанс.
💯22😁5🔥31👍1😎1
Бигтехи тратят на капекс 1 трлн в год

Это сумма, которую они потратили за всю свою историю от начала времен до 2022 года. Каждый год.

А вы говорите память дорогая. Будет еще дороже и сильно дороже. Пока этот пузырь не схлопнется.

Ссылка
😁7👍3😭32
Философское кадровое

Иногда для успеха надо не исполнять как Паганини, а просто подняться над средним уровнем в своей индустрии.

Как Михаил наш Круг
🔥52👍1
Грузовик с пряниками перевернулся на улице российского ИТ
🎉10👍32
Друзья, все же понимают, что всевозможные ИИ сейчас на пике хайпа. Более того, этот хайп пытаются всеми силами затянуть, изобретая новые суб-технологии и называя их новыми модными словами.

А тем временем выходит все больше статей о том, что крупные компании в целом сушат весла на тему ИИ.

Единственное, что осталось впереди из серьезного - это залп главного калибра техгигантов на тему специализированных чипов, которые разрабатывают как минимум Amazon и Google. У которых до 1 ТБайта VRAM на чип и х20 контекста к текущим моделям. По этой причине все современные гига-дата-центры для ИИ уже устарели на этапе проектирования.

Пружина неизбежно разожмется и больно щелкнет по тем, кто был недостаточно осторожен и сделал слишком большие ставки на ИИ в своих компаниях и в своих карьерах.

Ну а мы с командой тем временем пилим платформу ИИшечки, которая будет агностична к моделям, их провайдерам и типам агентов. Цель - сервисный слой для прикладного ИИ в семействе продуктов в масштабе небольшого холдинга-конгломерата компаний. Не забывая про классический МЛ(опс), который приносит конкретные деньги.

Пропуская хайпы и идя сразу на плато эффективности.
10👍6🔥3
Смотрю на штатку и понимаю, что безумно хайпящий еще 5 лет назад Дата-Саенс почти превратился в что-то вроде фронта и бека.

5 лет назад ДСы были командой прорыва, которых сгоняли в режимы специального регулирования, возлагали особые надежды, отдельно отчитывались на специальных слайдах об их работе и успехах.

Сейчас - просто еще один юнит функция в кросс функциональной команде там где она нужна. Как выделенный дизайнер или DevOps. Или еще одна сервисная функция там, где держать выделенного узкого специалиста экономически невыгодно.

Такова судьба любого хайпа. К счастью и к сожалению.
🤝11💯5😁4💊32💔1
Ловите методологию оценки платформы данных, а равно и любого другого ИТ мероприятия.

Реальная стоимость. (РС) Сколько стоит реально что-то сделать при неких благоприятных условиях. Вот эти ребята за одну минуту наговорили миллионов на 30-50. У них ХД с реалтайм обновлением и развитой системой отчетности. Посильно, но дороговато.

Коэффициент зрелости. (Кз) Берем для примера DevOps - быстро они поймут что от них хотят? Или мы уйдем на проработку «а чо это нельзя с гитхаба скачать хелм и быстро запустить?» А что это вам одного кликхауса мало? В плохой ситуации уйдем на круг: сначала сделать так, как привыкли, как всегда все делаем, а потом когда развалится, получив по шапке, сделать как нормально. Сюда же зрелость любых смежников, заказчиков, в случае данных - хозяев источников.

Коэффициент от 1(идеально) до 5-10 (оч плохо).

Коэффициент корп маразма. (ККМ) В наших палестинах проявляется главным образом в закидонах на тему ИБ. Докажи, что Кликхаус удовлетворяет требованиям 117 приказа ФСТЭК! Сюда же идут различные архитектурные советы и другие танцы, чтобы уважаемые люди не дай Б-г не стали ни за что ответственными.

В нормальных местах 1-2 (взять и сделать), в особых доходит до 20 и больше.

Потом эти числа умножаются.

Пример - Строим платформу в нормальном месте.

РС = 30 млн
КЗ = 1,5 (неидеально но неплохо)
ККМ = 1,5

Итоговый ценник 30 * 1.5 * 1.5 = 67,5 млн.


Строим в рашн энтерпрайзе

РС = 30 млн
КЗ = 4
ККМ = 15

Итоговый ценник 1,8 млрд.

Не падайте в обморок, у этих ребят линия по синтезу каучука или газовоз ледового класса стоит 200-300 млрд.

Это и спасает.

А разницу между 70 и 1800 заберет себе кто-то, обычно вендора и интеграторы, которые и будут спрямлять КЗ и ККМ куда-то ближе к единице за счет своего пота и нервов. И брать за это деньги.

И это мы еще не трогали госзаказ и оборонку.
💯12👍6😁42💩1
Открытый вебинар!

Есть такая примечательная технология как Кликхаус.

С одной стороны, почти 100% мира данных о ней слышали, большая часть ей уже пользовались.

С другой стороны, по моим наблюдениям (из облака и в целом по рынку) очень мало кто пользуется ей правильно. Ничто я не переделывал так часто, как проекты, собранные на кликхаусах. Как много там как маленьких неочевидных фишечек, так и здоровенных архитектурных мин, тем более неприятных, что понимаешь их не сразу, а только с ростом своего проекта.

В четверг 4 июня вечером - приглашаю на бесплатный вебинар, где мы обсудим, как со всем этим жить. Какие фишечки упрощают жизнь, какие разблокируют новые возможности, а за чем надо просто следить и понимать.

П.С. Выложенной записи не будет, таковы правила нашего заведения.
1👍843👏1😭1
UPD - бот устал и попал под раздачу блокировок

Вступаем в группу вебинара напрямую по ссылке
🔥53👀31
Человек-оркестр это не мем это диагноз

Люблю этот летний утренний хайп сегодня
"накидал агентов они сами всё сделали ты только оркестрируешь, кодинг умер инженеры не нужны!!!"

Так вот скажу как человек который завёл первый MVP хаба за вечер на клоде (11 контейнеров, 15к строк), а потом полтора месяца и 693 коммита доводил его до того что он реально держит прод и принимает деньги

Демка взлетает за сутки, а продукт это месяцы?
Чет не так как продают на ютубе, но возможно я смотрю неправильный ютуб


Скиллы, саб-агенты для ревью, оркестраторы, спеки на 1000 строк, workflow
каждый новый слой не убирал баги а добавлял новые места где они прячутся и добалял мне чертов СДВГ что бы я за всем этим следил!

Регресс ловил раз 10 на ровном месте фича зелёная локально, катишь на прод и оно отваливается на эндпоинте про который агент «забыл»
ни один скилл / плагин / MCP не дал мне гарантии что после раскатки будет ок
ни один =(


Что реально спасло
Реально спасло что у тебя тут армия тестировщиков преданных! @nyxandro
Четкий пайплайн тестов/дел/задач перед выкаткой (он описан скриптом)
А дальше
тесты, логи, тесты, логи, ещё раз логи, потом снова тесты 💀
smoke перед каждым пушем, полный прогон перед продом
читать логи всех сторон системы (vllm, litellm, гейт, вебхук) там вся соль, а не в "агент сказал готово"
деплой не когда модель написала done, а когда зелёный гейт сказал done и я глазами дернул метод и увидел ответ
единственная «фича» которая ни разу не подвела это дисциплина смотреть в логи да через агента но смотреть каждый раз ждать по 5/10/20 минут у терминала и смотреть логи создавать события самому или ждать юзеров


А за счёт чего это вообще едет?

За счёт своей базы, не агентской О_о
тащит то что накоплено за 6 лет карьеры
девопс, сети, линукс, докер
поднять, изолировать, разрулить роутинг, не уронить прод или уронить и поднять!
vllm и модели изнутри
чат-темплейты, constrained decoding, harmony, парсеры тулов, я лазил в кишки и переписывал
железо, нагрузка, температуры: знаю что мои 4090 48гб или rtx6000 держат и когда кипят, а не гадаю
питон, бекенд, фронтенд: что б прочитать что нагенерил агент и понять где он наврал
агент без этой базы это джун с уверенным тоном
на проде опасная штука


Человек-AI-оркестр не миф, но сделали меня им не агенты и уж точно не супер скилл или md файл

я стал им за 6 лет, пока руками поднимал инфру, ронял и чинил прод, лез в инференс, считал нагрузку и температуры
агент это рычаг, а опора это те самые 6 лет в голове
поэтому всё что нужно что б хаб не просто крутился а начал приносить деньги и принимать платежи я настроил сам
роутинг, sticky-кеш, биллинг через юкассу, лимиты, грейсы, рефанды, изоляция песочниц, бекапы, мониторинг
агент писал код, а что куда и зачем решал я


И тут небольшая ремарка про психику

По ощущениям на сегодня у меня либо раздвоение личности, либо продуктивность на уровне целой команды
пока сам не разобрал что именно
но визит к специалисту чувствую точно не помешает 🙂


Моё решение чутка сложнее мобильного приложения с бекендом и прокси к облачным ллмкам
тут свой инференс на своём железе, мультисервис, изоляция, биллинг, b2b по токенам, агент со своей песочницей, часть живет в k8s
поэтому это и не делается за сутки
поэтому мне и интересно
поэтому я и вкладываю столько времени
будь это тонкий клиент к api gpt мне стало бы скучно через день



Агенты замена инженера сегодня?
Нет
Они дают рычаг тому у кого есть на что опереться
думать, резать на куски, проверять, читать логи и нести ответственность за прод всё ещё ты
и тянет это твоя база по всему стеку собранная годами, а не очередной плагин
чем проще обвязка тем надёжнее едет: пара промптов в рукаве, context7, web search, playwright и железная дисциплина тестов
остальное лестницы из спичек, проще сжечь чем поддерживать

Так что когда вам в сотый раз скажут «оркестратор агентов всех заменил»
покажите мой пост и мой хаб
попросите показать логи
и тесты
и что было когда он раскатил это на прод
и что было когда у него было 200 рпс
и спросите сколько лет он до этого собирал свою базу 😈
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13💯5👌2