انجمن‌های فارسی اوبونتو

کمک و پشتیبانی => انجمن عمومی => نویسنده: 🇮🇷 در 11 اسفند 1400، 01:53 ب‌ظ

عنوان: ocr برای فارسی
ارسال شده توسط: 🇮🇷 در 11 اسفند 1400، 01:53 ب‌ظ: سلام
یه فایل با محتویات فارسی-عربی دارم که دارای تقریبا ۵۰۰ صفحه عکس هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه (ocr) و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
کد: [انتخاب]
tesseract file.pdf out -l fas PDF
کد: [انتخاب]
read_params_file: Can't open PDF Tesseract Open Source OCR Engine v4.1.1 with Leptonica Error in pixReadStream: Pdf reading is not supported Error in pixRead: pix not read Error during processing.
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: سودو. در 11 اسفند 1400، 02:40 ب‌ظ: نقل‌قول از: 🇮🇷 در 11 اسفند 1400، 01:53 ب‌ظ
سلام
یه فایل با محتویات فارسی-عربی دارم که تقریبا ۵۰۰ صفحه هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
کد: [انتخاب]
tesseract file.pdf out -l fas PDF
کد: [انتخاب]
read_params_file: Can't open PDF Tesseract Open Source OCR Engine v4.1.1 with Leptonica Error in pixReadStream: Pdf reading is not supported Error in pixRead: pix not read Error during processing.
من برای اینکار از سامسونگ نوتس استفاده میکنم ! صفحه هایی که نمیخوام رو حذف میکنم و بقیش رو ذخیره توی یک فایل جدید !
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: 🇮🇷 در 11 اسفند 1400، 02:45 ب‌ظ: نقل‌قول از: / sudo rm -rf در 11 اسفند 1400، 02:40 ب‌ظ
نقل‌قول از: 🇮🇷 در 11 اسفند 1400، 01:53 ب‌ظ
سلام
یه فایل با محتویات فارسی-عربی دارم که تقریبا ۵۰۰ صفحه هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
کد: [انتخاب]
tesseract file.pdf out -l fas PDF
کد: [انتخاب]
read_params_file: Can't open PDF Tesseract Open Source OCR Engine v4.1.1 with Leptonica Error in pixReadStream: Pdf reading is not supported Error in pixRead: pix not read Error during processing.
من برای اینکار از سامسونگ نوتس استفاده میکنم ! صفحه هایی که نمیخوام رو حذف میکنم و بقیش رو ذخیره توی یک فایل جدید !
فایل pdf، محتوی عکس هست و نه متن عادی. میخوام با ocr متن، استخراج بشه
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: Dragon- در 11 اسفند 1400، 05:27 ب‌ظ: مطمئن هسنید این ابزار می‌تونه با فایل‌های pdf هم کار کنه؟
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: 🇮🇷 در 11 اسفند 1400، 05:34 ب‌ظ: نقل‌قول از: Dragon- در 11 اسفند 1400، 05:27 ب‌ظ
مطمئن هسنید این ابزار می‌تونه با فایل‌های pdf هم کار کنه؟
اگر کار نمیکنه لطفا ابزاری معرفی کنید که بتونه کار مدنظر من رو انجام بده
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: جعفر فرقانلوژ در 11 اسفند 1400، 05:40 ب‌ظ: واسه اندروید کپی متن از روی تصویر بود که خوب کار می کرد البته واسه استفاده فندق شکن لازم داشت اگه نرم افزار کپی متن از روی تصویر رو جستجو کنی پیداش می کنی
عنوان: پاسخ : ocr برای فارسی
ارسال شده توسط: 🇮🇷 در 11 اسفند 1400، 06:04 ب‌ظ: نقل‌قول از: Mehr32 در 11 اسفند 1400، 05:40 ب‌ظ
واسه اندروید کپی متن از روی تصویر بود که خوب کار می کرد البته واسه استفاده فندق شکن لازم داشت اگه نرم افزار کپی متن از روی تصویر رو جستجو کنی پیداش می کنی
بله میدونم. بهش میگن ocr. ولی یه نرم‌افزار آزاد موجود برای گنو میخوام که از pdf پشتیبانی کنه