نویسنده موضوع: پروژه OCR فارسی آزاد (دفعات بازدید: 13938 بار)

محمدرضا حقیری · « **پاسخ #15 :** 13 تیر 1401، 06:25 ب‌ظ »

این پروژه فعلا به حالت Hold درآمده، تا بعدتر در موردش یه بازنگری بکنم.

محمدرضا حقیری

دوستان در این مطلب وبلاگم در مورد پروژه توضیح دادم که چی شد شروع شد و تا اینجا چه کاری پیش رفته و چرا هولد شد.

محمدرضا حقیری · « **پاسخ #17 :** 03 آذر 1401، 12:48 ق‌ظ »

سلام مجدد (:

با این که انجمن این هشدار رو داد:

نقل‌قول

هشدار: این موضوع طی 120 روز اخیر هیچ ارسالی نداشته است.
با این شرایط آیا از ارسال پاسخ اطمینان دارید؟.

و خب قبل‌تر هم گفته بودم:

نقل‌قول از: محمدرضا حقیری در 13 تیر 1401، 06:25 ب‌ظ

این پروژه فعلا به حالت Hold درآمده، تا بعدتر در موردش یه بازنگری بکنم.

حالا وقتشه که بگم بازنگری‌هایی که لازم بود رو تا حد زیادی در این قضیه انجام دادم. یکم بحث پیچیده‌تر از چیزی که فکر می‌کردم شد، ولی تا همینجایی که پیش رفته هم واقعا معجزه بوده برای خودش (:
حالا در بازنگری‌ها، یک سری مشکلاتی که خیلی می‌تونن موثر باشند رو جدا کردم که در موردش حرف بزنم:

۱. حروف فارسی، به هم می‌چسبند (حالا یا بدون هیچ فاصله‌ای یا با نیم‌فاصله) و این خودش یک مشکله در جداسازی حروف (در فارسی حروف با نقطه از هم جدا میشن. این خودش یکم باز قضیه رو پیچیده کرد ((

۲. حروف شبیه به هم خیلی داریم. مثلا ج چ ح خ و تمیز دادن بین این‌ها یکم سخته، مگر این که یک سری برنامه مکمل برای OCR هم ساخته بشه، که بتونه نزدیک‌ترین کلمات به کلمات حدس‌زده شده رو، پیشنهاد بده. البته این رو بگم که این مشکل خاص رو با OCR انگلیسی هم دیدم که افراد دارند و اگر از یه حدی بیشتر نباشه فکر نکنم خیلی مشکل بغرنج و حادی باشه. یعنی اگر «اکرم» رو «رامین» تشخیص نده، اوکیه. ولی خب ممکنه «اکرم» رو «اگرم» تشخیص بده، یا حتی «چنار» رو «حنار» و این‌ها با یک سری ویرایش ساده توسط خود کاربران، درست میشن.
۳. مدل پایه‌ای که براش انتخاب شده، یکم زیادی کار می‌بره، ولی خب بهترین مدل موجود تشخیص شیء از نظر منه (دوستان متخصص و استاد، نظر منه، نه یک فکت علمی

) و این خودش روند توسعه رو کمی کُند کرده.

همین دیگه، فعلا تا همینجای قضیه درآمده و امیدوارم بتونه بهتر هم بشه.
راستی برای تشخیص نسخه پزشک و تشخیص دست‌خط هم پیشنهاد‌هایی داشتم. شما هم اگر پیشنهادی دارید، ممنون میشم همینجا بگید.

saleh143 · « **پاسخ #18 :** 03 آذر 1401، 06:29 ب‌ظ »

نقل‌قول از: محمدرضا حقیری در 03 آذر 1401، 12:48 ق‌ظ

نقل‌قول
۲. حروف شبیه به هم خیلی داریم. مثلا ج چ ح خ و تمیز دادن بین این‌ها یکم سخته، مگر این که یک سری برنامه مکمل برای OCR هم ساخته بشه، که بتونه نزدیک‌ترین کلمات به کلمات حدس‌زده شده رو، پیشنهاد بده. البته این رو بگم که این مشکل خاص رو با OCR انگلیسی هم دیدم که افراد دارند و اگر از یه حدی بیشتر نباشه فکر نکنم خیلی مشکل بغرنج و حادی باشه. یعنی اگر «اکرم» رو «رامین» تشخیص نده، اوکیه. ولی خب ممکنه «اکرم» رو «اگرم» تشخیص بده، یا حتی «چنار» رو «حنار» و این‌ها با یک سری ویرایش ساده توسط خود کاربران، درست میشن.

یه سوال مثلا نمیشه خودش از دیتابیس کلمات رو حدس بزنه و اصلاح کنه که نیازی به ویرایش کاربر هم نباشه ؟ منظورم اینه که خب ما کلمه «حنار» و «اگرم» تو فارسی که نداریم

نقل‌قول
راستی برای تشخیص نسخه پزشک و تشخیص دست‌خط هم پیشنهاد‌هایی داشتم. شما هم اگر پیشنهادی دارید، ممنون میشم همینجا بگید.

OCR برای کتاب های چاپ قدیم برای استفاده در کتاب خوان ها

محمدرضا حقیری · « **پاسخ #19 :** 03 آذر 1401، 11:24 ب‌ظ »

نقل‌قول

یه سوال مثلا نمیشه خودش از دیتابیس کلمات رو حدس بزنه و اصلاح کنه که نیازی به ویرایش کاربر هم نباشه ؟ منظورم اینه که خب ما کلمه «حنار» و «اگرم» تو فارسی که نداریم

همین موضوع رو بهش اشاره کردم. خیلی خوبه که automate بشه.

نقل‌قول

OCR برای کتاب های چاپ قدیم برای استفاده در کتاب خوان ها

این تقریبا ویژنیه که همین پروژه باهاش شروع شده.

علی رزم دیده · « **پاسخ #20 :** 05 آذر 1401، 12:56 ب‌ظ »

سلام
اول از همه خیلی ممنون محمدرضا جان بابت به اشتراک‌گذاری تجربه‌ها و پروژه‌هات با دنیای نرم‌افزار آزاد

یکم کدها رو یه نگاه سریعی کردم و این سوال برام پیش اومد که چرا tesseract نه؟ tesseract برای زبان فارسی هم هست و کیفیتش هم عالیه و به همراه یه spell-checker کیفیت قابل‌قبولی حتی برای production داره. (البته برای تسک OCR ونه handwritten recognition)

چیزی که از نوت‌بوک متوجه شدم ظاهراً مدل پایهٔ yolov5 برای این تسک استفاده شده. yolov5 توی تشخیص bboxها و classification اونا می‌تونه مفید باشه و کمک کنه ولی خب تسک object detection با character detection/recognition یه domain shift قابل توجه داره و لزوماً مدلی که اونور توانمند ظاهراً شده، اینور تضمینی برای کیفیتش نیست

اخیراً مدل‌های خوبی برای handwritten recognition هم رلیز شده ولی متأسفانه از فارسی پشتیبانی نمی‌کنن. این مدل‌ها هم تو بخش encoder و هم decoder از معماری ترنسفورمری استفاده می‌کنن و در صورت جمع‌آوری دیتای مناسب و trainشون، می‌تونیم مدل با خروجی ارزشمندی داشته باشیم

محمدرضا حقیری · « **پاسخ #21 :** 06 آذر 1401، 12:30 ق‌ظ »

نقل‌قول

یکم کدها رو یه نگاه سریعی کردم و این سوال برام پیش اومد که چرا tesseract نه؟ tesseract برای زبان فارسی هم هست و کیفیتش هم عالیه و به همراه یه spell-checker کیفیت قابل‌قبولی حتی برای production داره. (البته برای تسک OCR ونه handwritten recognition)

هیچ روش درست و مطمئنی متاسفانه نیافتم که آموزش رو روی تسرکت انجام بدم، از پارسال که چنین پروژه‌هایی رو شروع کردم.

نقل‌قول

چیزی که از نوت‌بوک متوجه شدم ظاهراً مدل پایهٔ yolov5 برای این تسک استفاده شده. yolov5 توی تشخیص bboxها و classification اونا می‌تونه مفید باشه و کمک کنه ولی خب تسک object detection با character detection/recognition یه domain shift قابل توجه داره و لزوماً مدلی که اونور توانمند ظاهراً شده، اینور تضمینی برای کیفیتش نیست

درسته دقیقا همینطوره، بخصوص برای حروف پیوسته مثل حروف فارسی.

نقل‌قول

اخیراً مدل‌های خوبی برای handwritten recognition هم رلیز شده ولی متأسفانه از فارسی پشتیبانی نمی‌کنن. این مدل‌ها هم تو بخش encoder و هم decoder از معماری ترنسفورمری استفاده می‌کنن و در صورت جمع‌آوری دیتای مناسب و trainشون، می‌تونیم مدل با خروجی ارزشمندی داشته باشیم

میشه چند مدل از این‌ها رو معرفی کنید لطفا؟

علی رزم دیده · « **پاسخ #22 :** 06 آذر 1401، 10:21 ق‌ظ »

نقل‌قول از: محمدرضا حقیری در 06 آذر 1401، 12:30 ق‌ظ

هیچ روش درست و مطمئنی متاسفانه نیافتم که آموزش رو روی تسرکت انجام بدم، از پارسال که چنین پروژه‌هایی رو شروع کردم.

ببین قبل اینکه train مدل رو شروع کنی، یه تست بکن ببین آیا مدل فعلی، نیازت رو مرتفع می‌کنه یا نه. ممکنه نیاز بشه که پشتیبانی از فونت‌های جدید رو بهش اضافه کنی ولی توی اکثر مواقع همین tesseract فعلی خوبه و معمولاً چیزی که نیازه پیش‌پردازش تصویر ورودیه نه train خود tesseract. برای tesseract فارسی تو کامند لاین:

کد: [انتخاب]

sudo apt install -qq -y tesseract-ocr \
                    libtesseract-dev \
                    tesseract-ocr-eng \
                    tesseract-ocr-fas
tesseract ./myimage.png text_result -l fas --psm 6
cat text_result.txt

و برای tesseract تو پایتون:
اول نصب pytesseract

کد: [انتخاب]

!pip install -q -U pytesseractو بعد هم:

کد: [انتخاب]

import pytesseract
from PIL import Image

image = Image.open('./myimage.png')
custom_config = r'-l fas --oem 3 --psm 6'
text_result = pytesseract.image_to_string(image, config=custom_config)
print(text_result)

سعی کنین پارامتر psm رو هم یکم تغییر بدین و تأثیرش توی خروجی رو بررسی کنین. برای حریم segmentها توی تصویر صفحه استفاده می‌شه.

اگه تصویر ورودی کثیف بود، تار بود، متن خوانایی نداشت، لکه داشت، کج بود و ...، برای خروجی بهتر، نیاز به پیش‌پردازش داریم. برای شروع این داکیومنت خیلی خوبه:
https://tesseract-ocr.github.io/tessdoc/ImproveQuality.html

و در جواب سوال اصلی هم، برای train مدل‌های مختلف legacy و lstmای tesseract برای آموزش فونت‌های جدید و ...، این داکیومنت‌ها خوبن:
https://tesseract-ocr.github.io/tessdoc/tess4/TrainingTesseract-4.00.html
https://tesseract-ocr.github.io/tessdoc/tess5/TrainingTesseract-5.html
و این ریپو:
https://github.com/tesseract-ocr/tesstrain/wiki

نقل‌قول از: محمدرضا حقیری در 06 آذر 1401، 12:30 ق‌ظ

درسته دقیقا همینطوره، بخصوص برای حروف پیوسته مثل حروف فارسی.

برای رفع همچین مشکلاتی جای تشخیص دقیق bbox، برو سراغ روش‌های مبتنی بر CTC Loss. احتمالاً جواب چیزی که دنباش هستی، اونجا باشه.

نقل‌قول از: محمدرضا حقیری در 06 آذر 1401، 12:30 ق‌ظ

میشه چند مدل از این‌ها رو معرفی کنید لطفا؟

آره حتماً. مثلاً مدل TrOCR برای تشخیص دست‌خط انگلیسیش واقعاً عالی عمل می‌کنه. ولی خب برای فارسی باید دیتاستی مشابه دیتاست انگلیسی از دست‌خط‌ها و ... جمع‌آوری بشه:
https://huggingface.co/spaces/nielsr/TrOCR-handwritten

یه تصویر نمونه، به همراه خروجیش رو هم ضمیمه کردم. با یه spell-checker ساده و مبتنی بر unigram/bigram مثل symspell می‌شه یه متن بدون خطای تمیز داشت.

انجمن‌های فارسی اوبونتو

نویسنده موضوع: پروژه OCR فارسی آزاد (دفعات بازدید: 13938 بار)

محمدرضا حقیری

پاسخ : پروژه OCR فارسی آزاد

محمدرضا حقیری

پاسخ : پروژه OCR فارسی آزاد

محمدرضا حقیری

پاسخ : پروژه OCR فارسی آزاد

saleh143

پاسخ : پروژه OCR فارسی آزاد

محمدرضا حقیری

پاسخ : پروژه OCR فارسی آزاد

علی رزم دیده

پاسخ : پروژه OCR فارسی آزاد

محمدرضا حقیری

پاسخ : پروژه OCR فارسی آزاد

علی رزم دیده

پاسخ : پروژه OCR فارسی آزاد