نویسنده موضوع: ocr برای فارسی (دفعات بازدید: 1689 بار)

🇮🇷 · « : 11 اسفند 1400، 01:53 ب‌ظ »

سلام
یه فایل با محتویات فارسی-عربی دارم که دارای تقریبا ۵۰۰ صفحه عکس هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه (ocr) و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:

کد: [انتخاب]

tesseract file.pdf out -l fas PDF

کد: [انتخاب]

read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.

سودو. · « **پاسخ #1 :** 11 اسفند 1400، 02:40 ب‌ظ »

نقل‌قول از: 🇮🇷 در 11 اسفند 1400، 01:53 ب‌ظ

سلام
یه فایل با محتویات فارسی-عربی دارم که تقریبا ۵۰۰ صفحه هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
کد: [انتخاب]
tesseract file.pdf out -l fas PDF
کد: [انتخاب]
read_params_file: Can't open PDF Tesseract Open Source OCR Engine v4.1.1 with Leptonica Error in pixReadStream: Pdf reading is not supported Error in pixRead: pix not read Error during processing.

من برای اینکار از سامسونگ نوتس استفاده میکنم ! صفحه هایی که نمیخوام رو حذف میکنم و بقیش رو ذخیره توی یک فایل جدید !

🇮🇷 · « **پاسخ #2 :** 11 اسفند 1400، 02:45 ب‌ظ »

نقل‌قول از: / sudo rm -rf در 11 اسفند 1400، 02:40 ب‌ظ

نقل‌قول از: 🇮🇷 در 11 اسفند 1400، 01:53 ب‌ظ
سلام
یه فایل با محتویات فارسی-عربی دارم که تقریبا ۵۰۰ صفحه هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
کد: [انتخاب]
tesseract file.pdf out -l fas PDF
کد: [انتخاب]
read_params_file: Can't open PDF Tesseract Open Source OCR Engine v4.1.1 with Leptonica Error in pixReadStream: Pdf reading is not supported Error in pixRead: pix not read Error during processing.
من برای اینکار از سامسونگ نوتس استفاده میکنم ! صفحه هایی که نمیخوام رو حذف میکنم و بقیش رو ذخیره توی یک فایل جدید !

فایل pdf، محتوی عکس هست و نه متن عادی. میخوام با ocr متن، استخراج بشه

Dragon- · « **پاسخ #3 :** 11 اسفند 1400، 05:27 ب‌ظ »

مطمئن هسنید این ابزار می‌تونه با فایل‌های pdf هم کار کنه؟

🇮🇷 · « **پاسخ #4 :** 11 اسفند 1400، 05:34 ب‌ظ »

نقل‌قول از: Dragon- در 11 اسفند 1400، 05:27 ب‌ظ

مطمئن هسنید این ابزار می‌تونه با فایل‌های pdf هم کار کنه؟

اگر کار نمیکنه لطفا ابزاری معرفی کنید که بتونه کار مدنظر من رو انجام بده

جعفر فرقانلوژ · « **پاسخ #5 :** 11 اسفند 1400، 05:40 ب‌ظ »

واسه اندروید کپی متن از روی تصویر بود که خوب کار می کرد البته واسه استفاده فندق شکن لازم داشت اگه نرم افزار کپی متن از روی تصویر رو جستجو کنی پیداش می کنی

🇮🇷 · « **پاسخ #6 :** 11 اسفند 1400، 06:04 ب‌ظ »

نقل‌قول از: Mehr32 در 11 اسفند 1400، 05:40 ب‌ظ

واسه اندروید کپی متن از روی تصویر بود که خوب کار می کرد البته واسه استفاده فندق شکن لازم داشت اگه نرم افزار کپی متن از روی تصویر رو جستجو کنی پیداش می کنی

بله میدونم. بهش میگن ocr. ولی یه نرم‌افزار آزاد موجود برای گنو میخوام که از pdf پشتیبانی کنه

انجمن‌های فارسی اوبونتو

نویسنده موضوع: ocr برای فارسی (دفعات بازدید: 1689 بار)

🇮🇷

ocr برای فارسی

سودو.

پاسخ : ocr برای فارسی

🇮🇷

پاسخ : ocr برای فارسی

Dragon-

پاسخ : ocr برای فارسی

🇮🇷

پاسخ : ocr برای فارسی

جعفر فرقانلوژ

پاسخ : ocr برای فارسی

🇮🇷

پاسخ : ocr برای فارسی