انجمن‌های فارسی اوبونتو

کمک و پشتیبانی => انجمن عمومی => نویسنده: 🇮🇷 در 11 اسفند 1400، 01:53 ب‌ظ

عنوان: ocr برای فارسی
ارسال شده توسط: 🇮🇷 در 11 اسفند 1400، 01:53 ب‌ظ
سلام
یه فایل با محتویات فارسی-عربی دارم که دارای تقریبا ۵۰۰ صفحه عکس هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه (ocr) و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
tesseract file.pdf out -l fas PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: سودو. در 11 اسفند 1400، 02:40 ب‌ظ
سلام
یه فایل با محتویات فارسی-عربی دارم که تقریبا ۵۰۰ صفحه هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
tesseract file.pdf out -l fas PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.
من برای اینکار از سامسونگ نوتس استفاده میکنم ! صفحه هایی که نمیخوام رو حذف میکنم و بقیش رو ذخیره توی یک فایل جدید !
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: 🇮🇷 در 11 اسفند 1400، 02:45 ب‌ظ
سلام
یه فایل با محتویات فارسی-عربی دارم که تقریبا ۵۰۰ صفحه هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
tesseract file.pdf out -l fas PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.
من برای اینکار از سامسونگ نوتس استفاده میکنم ! صفحه هایی که نمیخوام رو حذف میکنم و بقیش رو ذخیره توی یک فایل جدید !
فایل pdf، محتوی عکس هست و نه متن عادی. میخوام با ocr متن، استخراج بشه
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: Dragon- در 11 اسفند 1400، 05:27 ب‌ظ
مطمئن هسنید این ابزار می‌تونه با فایل‌های pdf هم کار کنه؟
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: 🇮🇷 در 11 اسفند 1400، 05:34 ب‌ظ
مطمئن هسنید این ابزار می‌تونه با فایل‌های pdf هم کار کنه؟
اگر کار نمیکنه لطفا ابزاری معرفی کنید که بتونه کار مدنظر من رو انجام بده
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: جعفر فرقانلوژ در 11 اسفند 1400، 05:40 ب‌ظ
واسه اندروید کپی متن از روی تصویر بود که خوب کار می کرد البته واسه استفاده فندق شکن لازم داشت  اگه نرم افزار کپی متن از روی تصویر رو جستجو کنی پیداش می کنی
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: 🇮🇷 در 11 اسفند 1400، 06:04 ب‌ظ
واسه اندروید کپی متن از روی تصویر بود که خوب کار می کرد البته واسه استفاده فندق شکن لازم داشت  اگه نرم افزار کپی متن از روی تصویر رو جستجو کنی پیداش می کنی
بله میدونم. بهش میگن ocr. ولی یه نرم‌افزار آزاد موجود برای گنو میخوام که از pdf پشتیبانی کنه