Camelot: При распознавании PDF документа из AutoCAD страница поворачивается на бок
Есть PDF-документ, созданный в AutoCAD. Это фрагмент чертежа. Во время обработки, Camelot поворачивает страницу, и последующее распознавание теперь уже вертикального текста становится некорректным. Помогите разобраться, почему это происходит.
Мой код:
import pandas as pd
import camelot
# Так импортируется PyMuPDF
import sys, fitz
class ConversionBackend(object):
def convert(self, pdf_path, png_path):
# Открываем документ
doc = fitz.open(pdf_path)
for page in doc.pages():
# Переводим страницу в картинку
pix = page.get_pixmap()
# Сохраняем
pix.save(png_path)
# Извлечение таблиц из PDF
file = 'e:/Python/Parser/PDF/1_1.pdf'
#tables = camelot.read_pdf('e:/Python/Parser/PDF/030.pdf', pages='all', strip_text='\n')
tables = camelot.read_pdf(file,
backend=ConversionBackend(),
strip_text='\n',
line_scale=40,
pages='all',
copy_text=['h'],
)
#tables[0].df
camelot.plot(tables[0], kind='grid').show()
print(tables[0].cells)
print(tables)
Результат работы:
Координаты обнаруженных ячеек:
Исходная страница:


