انجمن‌های فارسی اوبونتو

لطفاً به انجمن‌ها وارد شده و یا جهت ورود ثبت‌نام نمائید

لطفاً جهت ورود نام کاربری و رمز عبورتان را وارد نمائید




نویسنده موضوع: ocr برای فارسی  (دفعات بازدید: 379 بار)

0 کاربر و 1 مهمان درحال مشاهده موضوع.

آفلاین 🇮🇷

  • رضا حسین‌زاده
  • High Hero Member
  • *
  • ارسال: 1001
  • کنجکاو
    • Reza
ocr برای فارسی
« : 11 اسفند 1400، 01:53 ب‌ظ »
سلام
یه فایل با محتویات فارسی-عربی دارم که دارای تقریبا ۵۰۰ صفحه عکس هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه (ocr) و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
tesseract file.pdf out -l fas PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.
« آخرین ویرایش: 11 اسفند 1400، 03:43 ب‌ظ توسط 🇮🇷 »
جست و جو کنید و چیز های جدید بیابید

آفلاین سودو.

  • High Hero Member
  • *
  • ارسال: 3095
  • جنسیت : پسر
  • :(){ :|:& };:
پاسخ : ocr برای فارسی
« پاسخ #1 : 11 اسفند 1400، 02:40 ب‌ظ »
سلام
یه فایل با محتویات فارسی-عربی دارم که تقریبا ۵۰۰ صفحه هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
tesseract file.pdf out -l fas PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.
من برای اینکار از سامسونگ نوتس استفاده میکنم ! صفحه هایی که نمیخوام رو حذف میکنم و بقیش رو ذخیره توی یک فایل جدید !
آرچ و گنوم!

آفلاین 🇮🇷

  • رضا حسین‌زاده
  • High Hero Member
  • *
  • ارسال: 1001
  • کنجکاو
    • Reza
پاسخ : ocr برای فارسی
« پاسخ #2 : 11 اسفند 1400، 02:45 ب‌ظ »
سلام
یه فایل با محتویات فارسی-عربی دارم که تقریبا ۵۰۰ صفحه هست. از میخوام متن صفحه ۵ تا آخر استخراج بشه و در یک پرونده متنی ذخیره بشه. چطور میتونم این کار رو بکنم؟
با اجرای دستور زیر (البته با صرف نظر از مشخص کردن صفحات)، خطای زیرش رو دریافت میکنم:
tesseract file.pdf out -l fas PDF
read_params_file: Can't open PDF
Tesseract Open Source OCR Engine v4.1.1 with Leptonica
Error in pixReadStream: Pdf reading is not supported
Error in pixRead: pix not read
Error during processing.
من برای اینکار از سامسونگ نوتس استفاده میکنم ! صفحه هایی که نمیخوام رو حذف میکنم و بقیش رو ذخیره توی یک فایل جدید !
فایل pdf، محتوی عکس هست و نه متن عادی. میخوام با ocr متن، استخراج بشه
جست و جو کنید و چیز های جدید بیابید

آفلاین Dragon-

  • عضو کاربران ایرانی اوبونتو
  • *
  • ارسال: 5125
  • جنسیت : پسر
پاسخ : ocr برای فارسی
« پاسخ #3 : 11 اسفند 1400، 05:27 ب‌ظ »
مطمئن هسنید این ابزار می‌تونه با فایل‌های pdf هم کار کنه؟
میدونید که زکات علم نشر آن است

آفلاین 🇮🇷

  • رضا حسین‌زاده
  • High Hero Member
  • *
  • ارسال: 1001
  • کنجکاو
    • Reza
پاسخ : ocr برای فارسی
« پاسخ #4 : 11 اسفند 1400، 05:34 ب‌ظ »
مطمئن هسنید این ابزار می‌تونه با فایل‌های pdf هم کار کنه؟
اگر کار نمیکنه لطفا ابزاری معرفی کنید که بتونه کار مدنظر من رو انجام بده
جست و جو کنید و چیز های جدید بیابید

آفلاین جعفر فرقانلوژ

  • High Hero Member
  • *
  • ارسال: 5100
  • جنسیت : پسر
  • اممم . اره دیگه! mehr32
پاسخ : ocr برای فارسی
« پاسخ #5 : 11 اسفند 1400، 05:40 ب‌ظ »
واسه اندروید کپی متن از روی تصویر بود که خوب کار می کرد البته واسه استفاده فندق شکن لازم داشت  اگه نرم افزار کپی متن از روی تصویر رو جستجو کنی پیداش می کنی
دیگر به انجمن باز نخواهم گشت شاید جایی با این نام پیدام کنید اگه کاری با من دارید : qxc9966@protonmail.com

آفلاین 🇮🇷

  • رضا حسین‌زاده
  • High Hero Member
  • *
  • ارسال: 1001
  • کنجکاو
    • Reza
پاسخ : ocr برای فارسی
« پاسخ #6 : 11 اسفند 1400، 06:04 ب‌ظ »
واسه اندروید کپی متن از روی تصویر بود که خوب کار می کرد البته واسه استفاده فندق شکن لازم داشت  اگه نرم افزار کپی متن از روی تصویر رو جستجو کنی پیداش می کنی
بله میدونم. بهش میگن ocr. ولی یه نرم‌افزار آزاد موجود برای گنو میخوام که از pdf پشتیبانی کنه
جست و جو کنید و چیز های جدید بیابید