Data Engineering Digest
1.17K subscribers
11 photos
22 links
Краткие выжимки и обзоры лучших докладов с конференций по Data Engineering. Экономим ваше время, оставляя только полезное. Для тех, кто любит данные и хочет быть в курсе лучшего в индустрии. Присоединяйтесь! 📊

contact: @NickTselishchev
Download Telegram
Channel created
Ссылка на выступление: https://www.youtube.com/watch?v=iNgsyboLpb0
or
https://vk.com/video-147464741_456239346

Сложность: 1/3 Легко и понятно

Кому будет интересно: всем, кто строит или собирается строить платформу данных.

Краткий пересказ и выводы по докладу Максима Стаценко

На конференции Максим Стаценко предложил революционный взгляд на хранение и обработку данных. Он начал с исторической параллели, сравнив эволюцию физики (от Ньютона до Эйнштейна) с необходимостью менять подходы к данным сегодня.

🔍 Основные проблемы:
1️⃣ Устаревшие методы хранения данных — мозг и древние системы уже не справляются с современными объемами.
2️⃣ Сложности в аналитике — задержки в данных, ручные процессы и отсутствие единой культуры аналитики создают хаос.
3️⃣ Проблемы бизнеса — например, в рекламе: клики с задержкой, антифрод-системы, меняющие данные, и отсутствие актуальности для топ-менеджеров.

🚀 Предложенные решения:
- 4 типа API для работы с данными:
- Первое состояние события.
- Последнее состояние.
- Дельта (изменения).
- Актуальное состояние для запросов.
- Автоматизация процессов — минимизация ручного труда и человеческого фактора.
- Идемпотентность — корректная работа с изменениями данных.
- Культура тестирования — написание тестов для данных и покрытие финансовых расчетов мониторингами.

💡 Выводы:
1️⃣ Данные — это живой организм. Они меняются, и нужно уметь с этим работать.
2️⃣ Технологии — это только половина успеха. Важно менять культуру разработки: писать тесты, автоматизировать процессы и договариваться о новых подходах.
3️⃣ Эффективность = гибкость. Новые API и автоматизация позволяют быстрее реагировать на изменения и снижать задержки.

📌 Итог:
Доклад Максима — это не просто про данные, а про новый образ мышления. Чтобы оставаться в тренде, нужно не только внедрять современные технологии, но и менять подходы внутри команд.
🔥1
Ссылка на выступление: https://www.youtube.com/watch?v=Wi4-RJq5Q1w

Сложность: 2/3 (Есть технические моменты, но в целом понятно)
Кому будет интересно: администраторам баз данных, инженерам данных, архитекторам Data Platform и всем, кто работает с Greenplum. Если с Greenplum не работали, смотреть не рекомендую.

Краткий пересказ и выводы по докладу Дмитрия Немчина (Tinkoff) — Greenplum Worst Practices

Дмитрий Немчин, руководитель команды администраторов бэк-энда хранилища данных Тинькофф, поделился опытом работы с Greenplum и основными ошибками, которые могут возникнуть при его использовании. Greenplum — это мощная MPP-система, построенная на PostgreSQL, но даже у таких технологий есть свои подводные камни. 🌊

🔍 Основные проблемы:
1️⃣ Параллельность и нагрузка:
• Установка большого количества сегментов на мощных машинах приводит к перегрузке CPU и дисков.
• Система становится нестабильной при высокой нагрузке.
2️⃣ Синхронизация метаданных:
• Автосинхронизация через DataGrip создает лишнюю нагрузку на мастер-ноду.
• Это замедляет выполнение обычных запросов.
3️⃣ Распределение данных:
• Неравномерное распределение данных между сегментами вызывает перекосы.
• Это приводит к проблемам с производительностью.
4️⃣ Администрирование:
• Ошибки, такие как удаление данных всех сегментов, могут привести к падению всей базы.
• Важно учитывать особенности Greenplum при администрировании.
5️⃣ Воркфайлы:
• Маленькие воркфайлы занимают много места на диске.
• Требуется правильная настройка параметров для оптимизации.

🚀 Предложенные решения:
• Равномерное распределение данных:
Ключ к стабильной работе Greenplum.
• Отказ от автосинхронизации метаданных:
Снижает нагрузку на мастер-ноду и ускоряет выполнение запросов.
• Регулярная вакуумация:
Помогает избежать проблем с bloating (пустые места после удаления данных).
• Настройка параметров воркфайлов:
Оптимизация использования дискового пространства.
• Ресурсные группы в Greenplum 5:
Гибкое управление нагрузкой и производительностью.

💡 Выводы:
1️⃣ Greenplum — мощный инструмент, но требует внимательной настройки.
Ошибки в администрировании могут дорого обойтись.
2️⃣ Мониторинг и оптимизация — ключевые процессы.
Регулярная вакуумация, анализ статистики и настройка параметров помогают избежать проблем.
3️⃣ Используйте все возможности Greenplum.
Ресурсные группы и улучшенное управление нагрузкой делают систему более гибкой.

📌 Итог:
Доклад Дмитрия — это ценный опыт для всех, кто работает с Greenplum. Чтобы избежать проблем, важно не только знать особенности системы, но и регулярно оптимизировать процессы. А еще — учиться на чужих ошибках, чтобы не наступать на те же грабли. 😉
👍3
ORC и Parquet. О форматах и их использовании на базе HDFS / Александр Маркачев (билайн)

Ссылка на выступление:
https://www.youtube.com/watch?v=GM8vEhlBbF8
или
https://vkvideo.ru/video-152308462_456239403
Сложность: 2/3 (Есть технические моменты, но в целом понятно)

Кому будет интересно: Не рекомендую смотреть, если никогда не работали ни с одним их этих форматов.
Если при создании датасетов бездумно указывали parquet или ORC и хотите понять в чём же разница между этими двумя форматами, то must have.

Краткий пересказ и выводы по докладу Александра Маркачева (билайн) — ORC и Parquet: форматы и их использование на базе HDFS
Александр Маркачев рассказал о ключевых аспектах работы с форматами данных ORC и Parquet, их структуре, преимуществах и оптимизации для эффективного хранения и обработки данных на базе HDFS.

🔍 Основные тезисы:
1️⃣ Рост данных и задачи дата-инженеров:
• Объем данных растет экспоненциально: 97 зетабайт данных сейчас и 220 зетабайт ежедневно к 2025 году.
• Задача дата-инженеров — эффективно управлять данными, чтобы экономить место и обеспечивать быстрый доступ.
2️⃣ Основные форматы данных:
• Parquet и ORC — колончатые форматы, подходящие для хранения и быстрого доступа.
• Ключевые метрики качества: степень сжатия и скорость доступа.
3️⃣ Структура файлов:
• Parquet:
◦ Состоит из заголовка, групп строк, участков колонок и страниц.
◦ Заголовок содержит магическое число для идентификации.
◦ Группы строк и колонок позволяют читать данные по частям.
• ORC:
◦ Состоит из заголовка, страйпов, участков колонок, страниц и постскрипта.
◦ Постскрипт содержит метаданные в сжатом виде.
◦ Страйпы аналогичны группам строк в Parquet.
4️⃣ Сравнение форматов:
• Parquet:
◦ Лучше подходит для разработки, так как позволяет менять местами столбцы.
◦ Сжимает хуже, но работает быстрее благодаря более слабым алгоритмам сжатия.
• ORC:
◦ Поддерживает более мощные алгоритмы сжатия, что делает его предпочтительным для долгосрочной аналитики.
◦ Имеет поддержку ACID и спецсимволов.
5️⃣ Оптимизация данных:
• Маленькие таблицы:
◦ Оптимизация не имеет смысла, но отключение индексов и сортировка данных могут ускорить работу.
• Средние таблицы:
◦ Сортировка таблицы уменьшает нагрузку на кластер в три раза.
◦ Выбор меньшего блока данных ускоряет чтение.
• Большие таблицы:
◦ Требуют настройки индексов и использования блум-фильтров для уменьшения объема читаемых данных.

🚀 Рекомендации:
• ORC предпочтителен для долгосрочной аналитики благодаря мощным алгоритмам сжатия и поддержке ACID.
• Parquet лучше подходит для разработки и сценариев, где важна скорость доступа.
• Используйте сортировку данных и настройку индексов для оптимизации производительности.
• Для больших таблиц применяйте блум-фильтры и настраивайте размеры блоков.

💡 Выводы:
1️⃣ ORC vs Parquet:
• ORC лучше сжимает и подходит для аналитики, Parquet быстрее и гибче для разработки.
• Выбор формата зависит от задач: аналитика или разработка.
2️⃣ Оптимизация — ключ к эффективности:
• Сортировка данных, настройка индексов и использование блум-фильтров значительно улучшают производительность.
3️⃣ Spark 3.2 улучшил работу с ORC:
• Новые версии Spark оптимизировали работу с ORC, что увеличило скорость обработки данных.

📌 Итог:
Доклад Александра Маркачева — это отличный гайд по выбору и оптимизации форматов данных. ORC и Parquet — мощные инструменты, но их эффективное использование требует понимания их особенностей и правильной настройки.
👍2