📊 Из PDF в DataFrame за пару строк кода
Работаете с финансовыми отчётами или любыми табличными данными в PDF?
С библиотекой docling это становится максимально просто.
Большинство инструментов для работы с PDF заставляют собирать пайплайн вручную:
одна библиотека для извлечения текста, другая для парсинга, третья для чанкинга.
Docling закрывает весь процесс — от сырых PDF до структурированных и готовых к поиску данных — в одном решении.
📌 Преимущество Docling
🔹 Поддержка PDF, DOCX, PPTX, HTML и изображений
🔹 AI-модель TableFormer для понимания сложных таблиц
🔹 Vision-модели для OCR и image-to-text
🔹 Простой экспорт в pandas DataFrame, JSON и Markdown
Пример: конвертируем PDF с отчётом о доходах и сразу получаем pandas DataFrame 👇
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
result = converter.convert("financial_report.pdf")
for table in result.document.tables:
df = table.export_to_dataframe()
📌 Github (https://github.com/docling-project/docling)
#AI #RAG #Docling #DataEngineering #PDF
@Python_Community_ru
Работаете с финансовыми отчётами или любыми табличными данными в PDF?
С библиотекой docling это становится максимально просто.
Большинство инструментов для работы с PDF заставляют собирать пайплайн вручную:
одна библиотека для извлечения текста, другая для парсинга, третья для чанкинга.
Docling закрывает весь процесс — от сырых PDF до структурированных и готовых к поиску данных — в одном решении.
📌 Преимущество Docling
🔹 Поддержка PDF, DOCX, PPTX, HTML и изображений
🔹 AI-модель TableFormer для понимания сложных таблиц
🔹 Vision-модели для OCR и image-to-text
🔹 Простой экспорт в pandas DataFrame, JSON и Markdown
Пример: конвертируем PDF с отчётом о доходах и сразу получаем pandas DataFrame 👇
from docling.document_converter import DocumentConverter
converter = DocumentConverter()
result = converter.convert("financial_report.pdf")
for table in result.document.tables:
df = table.export_to_dataframe()
📌 Github (https://github.com/docling-project/docling)
#AI #RAG #Docling #DataEngineering #PDF
@Python_Community_ru
👎1
🆕 PDF Arranger — лёгкий и удобный инструмент для работы с PDF.
✨ Возможности:
- Объединение и разделение файлов
- Поворот и обрезка страниц
- Перестановка и удаление страниц
- Интуитивный drag-and-drop интерфейс
💻 Доступен для Linux, Windows (включая портативную версию) и BSD.
Полностью опенсорс (GPL-3.0).
Идеален, если нужно быстро подготовить PDF к печати или презентации — без сложных настроек.
📌 GitHub (https://github.com/pdfarranger/pdfarranger)
#PDF #opensource #Linux #devtools
@Python_Community_ru
✨ Возможности:
- Объединение и разделение файлов
- Поворот и обрезка страниц
- Перестановка и удаление страниц
- Интуитивный drag-and-drop интерфейс
💻 Доступен для Linux, Windows (включая портативную версию) и BSD.
Полностью опенсорс (GPL-3.0).
Идеален, если нужно быстро подготовить PDF к печати или презентации — без сложных настроек.
📌 GitHub (https://github.com/pdfarranger/pdfarranger)
#PDF #opensource #Linux #devtools
@Python_Community_ru