Camelot: При распознавании PDF документа из AutoCAD страница поворачивается на бок

Question

Есть PDF-документ, созданный в AutoCAD. Это фрагмент чертежа. Во время обработки, Camelot поворачивает страницу, и последующее распознавание теперь уже вертикального текста становится некорректным. Помогите разобраться, почему это происходит.

Мой код:

import pandas as pd
import camelot
# Так импортируется PyMuPDF 
import sys, fitz


class ConversionBackend(object):
    def convert(self, pdf_path, png_path):
        # Открываем документ
        doc = fitz.open(pdf_path) 
        for page in doc.pages():
            # Переводим страницу в картинку
            pix = page.get_pixmap()  
            # Сохраняем
            pix.save(png_path)

# Извлечение таблиц из PDF
file = 'e:/Python/Parser/PDF/1_1.pdf'
#tables = camelot.read_pdf('e:/Python/Parser/PDF/030.pdf', pages='all', strip_text='\n')

tables = camelot.read_pdf(file, 
                          backend=ConversionBackend(), 
                          strip_text='\n', 
                          line_scale=40, 
                          pages='all',
                          copy_text=['h'],
                          )

#tables[0].df
camelot.plot(tables[0], kind='grid').show()
print(tables[0].cells)
print(tables)

Результат работы:

Координаты обнаруженных ячеек:

Исходная страница:

БЛОГ НА HUSL

Camelot: При распознавании PDF документа из AutoCAD страница поворачивается на бок

Ответы (0 шт):