سلام
یه فایل با محتویات فارسی-عربی دارم که دارای تقریبا ۵۰۰ صفحه عکس هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه (ocr) و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
tesseract file.pdf out -l fas PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.