Ссылка на выступление: https://www.youtube.com/watch?v=iNgsyboLpb0
or
https://vk.com/video-147464741_456239346
Сложность: 1/3 Легко и понятно
Кому будет интересно: всем, кто строит или собирается строить платформу данных.
✨ Краткий пересказ и выводы по докладу Максима Стаценко ✨
На конференции Максим Стаценко предложил революционный взгляд на хранение и обработку данных. Он начал с исторической параллели, сравнив эволюцию физики (от Ньютона до Эйнштейна) с необходимостью менять подходы к данным сегодня.
🔍 Основные проблемы:
1️⃣ Устаревшие методы хранения данных — мозг и древние системы уже не справляются с современными объемами.
2️⃣ Сложности в аналитике — задержки в данных, ручные процессы и отсутствие единой культуры аналитики создают хаос.
3️⃣ Проблемы бизнеса — например, в рекламе: клики с задержкой, антифрод-системы, меняющие данные, и отсутствие актуальности для топ-менеджеров.
🚀 Предложенные решения:
- 4 типа API для работы с данными:
- Первое состояние события.
- Последнее состояние.
- Дельта (изменения).
- Актуальное состояние для запросов.
- Автоматизация процессов — минимизация ручного труда и человеческого фактора.
- Идемпотентность — корректная работа с изменениями данных.
- Культура тестирования — написание тестов для данных и покрытие финансовых расчетов мониторингами.
💡 Выводы:
1️⃣ Данные — это живой организм. Они меняются, и нужно уметь с этим работать.
2️⃣ Технологии — это только половина успеха. Важно менять культуру разработки: писать тесты, автоматизировать процессы и договариваться о новых подходах.
3️⃣ Эффективность = гибкость. Новые API и автоматизация позволяют быстрее реагировать на изменения и снижать задержки.
📌 Итог:
Доклад Максима — это не просто про данные, а про новый образ мышления. Чтобы оставаться в тренде, нужно не только внедрять современные технологии, но и менять подходы внутри команд.
or
https://vk.com/video-147464741_456239346
Сложность: 1/3 Легко и понятно
Кому будет интересно: всем, кто строит или собирается строить платформу данных.
✨ Краткий пересказ и выводы по докладу Максима Стаценко ✨
На конференции Максим Стаценко предложил революционный взгляд на хранение и обработку данных. Он начал с исторической параллели, сравнив эволюцию физики (от Ньютона до Эйнштейна) с необходимостью менять подходы к данным сегодня.
🔍 Основные проблемы:
1️⃣ Устаревшие методы хранения данных — мозг и древние системы уже не справляются с современными объемами.
2️⃣ Сложности в аналитике — задержки в данных, ручные процессы и отсутствие единой культуры аналитики создают хаос.
3️⃣ Проблемы бизнеса — например, в рекламе: клики с задержкой, антифрод-системы, меняющие данные, и отсутствие актуальности для топ-менеджеров.
🚀 Предложенные решения:
- 4 типа API для работы с данными:
- Первое состояние события.
- Последнее состояние.
- Дельта (изменения).
- Актуальное состояние для запросов.
- Автоматизация процессов — минимизация ручного труда и человеческого фактора.
- Идемпотентность — корректная работа с изменениями данных.
- Культура тестирования — написание тестов для данных и покрытие финансовых расчетов мониторингами.
💡 Выводы:
1️⃣ Данные — это живой организм. Они меняются, и нужно уметь с этим работать.
2️⃣ Технологии — это только половина успеха. Важно менять культуру разработки: писать тесты, автоматизировать процессы и договариваться о новых подходах.
3️⃣ Эффективность = гибкость. Новые API и автоматизация позволяют быстрее реагировать на изменения и снижать задержки.
📌 Итог:
Доклад Максима — это не просто про данные, а про новый образ мышления. Чтобы оставаться в тренде, нужно не только внедрять современные технологии, но и менять подходы внутри команд.
YouTube
Максим Стаценко — Я изменю ваш взгляд на хранилище данных за 30 минут
Подробнее о конференции SmartData: https://jrg.su/aTWU2K
— —
Во многих бизнесовых задачах мы делаем ставку на наши DWH, Data Lake, LakeHouse и т. д. По образу и подобию того, как это делалось в OLAP-таблицах много лет назад. Но бизнес-задачи и процессы обработки…
— —
Во многих бизнесовых задачах мы делаем ставку на наши DWH, Data Lake, LakeHouse и т. д. По образу и подобию того, как это делалось в OLAP-таблицах много лет назад. Но бизнес-задачи и процессы обработки…
🔥1
Ссылка на выступление: https://www.youtube.com/watch?v=Wi4-RJq5Q1w
Сложность: 2/3 (Есть технические моменты, но в целом понятно)
Кому будет интересно: администраторам баз данных, инженерам данных, архитекторам Data Platform и всем, кто работает с Greenplum. Если с Greenplum не работали, смотреть не рекомендую.
✨ Краткий пересказ и выводы по докладу Дмитрия Немчина (Tinkoff) — Greenplum Worst Practices ✨
Дмитрий Немчин, руководитель команды администраторов бэк-энда хранилища данных Тинькофф, поделился опытом работы с Greenplum и основными ошибками, которые могут возникнуть при его использовании. Greenplum — это мощная MPP-система, построенная на PostgreSQL, но даже у таких технологий есть свои подводные камни. 🌊
🔍 Основные проблемы:
1️⃣ Параллельность и нагрузка:
• Установка большого количества сегментов на мощных машинах приводит к перегрузке CPU и дисков.
• Система становится нестабильной при высокой нагрузке.
2️⃣ Синхронизация метаданных:
• Автосинхронизация через DataGrip создает лишнюю нагрузку на мастер-ноду.
• Это замедляет выполнение обычных запросов.
3️⃣ Распределение данных:
• Неравномерное распределение данных между сегментами вызывает перекосы.
• Это приводит к проблемам с производительностью.
4️⃣ Администрирование:
• Ошибки, такие как удаление данных всех сегментов, могут привести к падению всей базы.
• Важно учитывать особенности Greenplum при администрировании.
5️⃣ Воркфайлы:
• Маленькие воркфайлы занимают много места на диске.
• Требуется правильная настройка параметров для оптимизации.
🚀 Предложенные решения:
• Равномерное распределение данных:
Ключ к стабильной работе Greenplum.
• Отказ от автосинхронизации метаданных:
Снижает нагрузку на мастер-ноду и ускоряет выполнение запросов.
• Регулярная вакуумация:
Помогает избежать проблем с bloating (пустые места после удаления данных).
• Настройка параметров воркфайлов:
Оптимизация использования дискового пространства.
• Ресурсные группы в Greenplum 5:
Гибкое управление нагрузкой и производительностью.
💡 Выводы:
1️⃣ Greenplum — мощный инструмент, но требует внимательной настройки.
Ошибки в администрировании могут дорого обойтись.
2️⃣ Мониторинг и оптимизация — ключевые процессы.
Регулярная вакуумация, анализ статистики и настройка параметров помогают избежать проблем.
3️⃣ Используйте все возможности Greenplum.
Ресурсные группы и улучшенное управление нагрузкой делают систему более гибкой.
📌 Итог:
Доклад Дмитрия — это ценный опыт для всех, кто работает с Greenplum. Чтобы избежать проблем, важно не только знать особенности системы, но и регулярно оптимизировать процессы. А еще — учиться на чужих ошибках, чтобы не наступать на те же грабли. 😉
Сложность: 2/3 (Есть технические моменты, но в целом понятно)
Кому будет интересно: администраторам баз данных, инженерам данных, архитекторам Data Platform и всем, кто работает с Greenplum. Если с Greenplum не работали, смотреть не рекомендую.
✨ Краткий пересказ и выводы по докладу Дмитрия Немчина (Tinkoff) — Greenplum Worst Practices ✨
Дмитрий Немчин, руководитель команды администраторов бэк-энда хранилища данных Тинькофф, поделился опытом работы с Greenplum и основными ошибками, которые могут возникнуть при его использовании. Greenplum — это мощная MPP-система, построенная на PostgreSQL, но даже у таких технологий есть свои подводные камни. 🌊
🔍 Основные проблемы:
1️⃣ Параллельность и нагрузка:
• Установка большого количества сегментов на мощных машинах приводит к перегрузке CPU и дисков.
• Система становится нестабильной при высокой нагрузке.
2️⃣ Синхронизация метаданных:
• Автосинхронизация через DataGrip создает лишнюю нагрузку на мастер-ноду.
• Это замедляет выполнение обычных запросов.
3️⃣ Распределение данных:
• Неравномерное распределение данных между сегментами вызывает перекосы.
• Это приводит к проблемам с производительностью.
4️⃣ Администрирование:
• Ошибки, такие как удаление данных всех сегментов, могут привести к падению всей базы.
• Важно учитывать особенности Greenplum при администрировании.
5️⃣ Воркфайлы:
• Маленькие воркфайлы занимают много места на диске.
• Требуется правильная настройка параметров для оптимизации.
🚀 Предложенные решения:
• Равномерное распределение данных:
Ключ к стабильной работе Greenplum.
• Отказ от автосинхронизации метаданных:
Снижает нагрузку на мастер-ноду и ускоряет выполнение запросов.
• Регулярная вакуумация:
Помогает избежать проблем с bloating (пустые места после удаления данных).
• Настройка параметров воркфайлов:
Оптимизация использования дискового пространства.
• Ресурсные группы в Greenplum 5:
Гибкое управление нагрузкой и производительностью.
💡 Выводы:
1️⃣ Greenplum — мощный инструмент, но требует внимательной настройки.
Ошибки в администрировании могут дорого обойтись.
2️⃣ Мониторинг и оптимизация — ключевые процессы.
Регулярная вакуумация, анализ статистики и настройка параметров помогают избежать проблем.
3️⃣ Используйте все возможности Greenplum.
Ресурсные группы и улучшенное управление нагрузкой делают систему более гибкой.
📌 Итог:
Доклад Дмитрия — это ценный опыт для всех, кто работает с Greenplum. Чтобы избежать проблем, важно не только знать особенности системы, но и регулярно оптимизировать процессы. А еще — учиться на чужих ошибках, чтобы не наступать на те же грабли. 😉
YouTube
Дмитрий Немчин, Tinkoff - Greenplum worst practies
В докладе будет показано как не надо собирать Greenplum, какие запросы не стоит в нем запускать (и ждать что это будет быстро работать). В общем – все то, что не стоит делать с Greenplum, но о чем вы боялись спросить.
[GREENPLUM 20.09.2018]
[GREENPLUM 20.09.2018]
👍3