pix2text проблемы с кириллицей
Никто не работал с pix2text?
Не получается никак язык сменить. Формулы определяет неплохо, а вот буквы русские нет. В документации ничего не нашел. А конструкцию ниже нашел в ответах на гитхабе
from pix2text import Pix2Text
def extract_text_and_formulas(image_path):
total_config = {
'text formula': {'languages': ('ru',)}
}
p2t = Pix2Text.from_config(total_config=total_config)
outs = p2t.recognize(image_path, file_type='text_formula', return_text=True,
auto_line_break=False)
print("Результаты распознавания:")
print(outs)
if __name__ == "__main__":
image_path = "static/2.png"
extract_text_and_formulas(image_path)
Вывод мой
HecKOJbKO o6nX yTBepKAeHni $\circ$ KOJne6aHMAX. B 3D TBépAbIX TeJax BO3MOKHO TDW IOIADM3aunn (npononbHan $\boldsymbol{u}$ ABe nonepe4HblX), CKOpOCTW 3ByKa (CWJ1OBble 7OCTOAHHbIe) BOO6We TOBOpA He O6a3aHbl coBnanaTb. $\boxed{s_{l} > \frac{2} {\sqrt{3}} s_{t}}$ A19 n3oTponHoro Tena) (Teopns. ynpyrocT, 1 aTOM B npIMITWBHo 3neMeHTapHoi sueike: 3 Tnna (nonapn3aLnW) akyCTi4eCKMX Kone6aHii; $~ 2$ atoMa B TpMMMTMBHoM SIeMeHTapHo) syeike: 3 akycTw4ecKMx, 3 OnTI4eCKX $\mathsf{N}$ aTOMOB B NDIMMTWBHoM 3neMeHTapHoi asenke: 3 aKycTM4eCKnX, $3 ( \mathrm{N-1} )$ OnTh4eCKhX, BcerO 3N.
Ответы (1 шт):
total_config = {
"layout": {},
text_formula": {"languages": ("ru",)},
}
p2t = Pix2Text.from_config(total_configs=total_config)
outs = p2t.recognize(
img_fp, file_type="text_formula", return_text=True, auto_line_break=False
)
print(outs)