نویسنده موضوع: نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی (دفعات بازدید: 16236 بار)

امیرمسعود · « : 27 تیر 1392، 12:32 ب‌ظ »

پیش از هر چیز بگم که در ویکی‌پدیای فارسی دیدم که جایگزین مصوب فرهنگستان برای OCR هست «نویسه‌خوانی نوری». هر چند که به نظر من جایگزین خیلی خیلی قشنگی نیست، ولی من شخصاً ترجیح می‌دم از این به بعد به جای «برنامهٔ OCR» بگم «برنامهٔ نویسه‌خوان نوری» یا کوتاه‌شده‌اش: «نویسه‌خوان». این فقط ترجیح منه؛ هر کسی هر چیز دیگه‌ای که می‌خواد می‌تونه صداش کنه! و اما اصل مطلب:

بعد از این که صفحهٔ پروژه‌های پیشنهادی برای برنامه‌نویسی و طراحی در ویکی نوشته شد، دوستمون احسان☺ پیشنهاد داد که برنامهٔ نویسه‌خوان فارسی رو هم به فهرست اون پروژه‌ها اضافه کنیم. همه‌مون می‌دونیم که نویسه‌خوان فارسی برنامهٔ خیلی خیلی مهمی برای هر زبانی هست و اگه چنین برنامه‌ای با مجوز آزاد و با کیفیت خوب وجود داشته باشه کاربردهای خیلی زیاد و مفیدی خواهد داشت. برای همین من دنبال تاپیک‌هایی در انجمن گشتم که پیش‌تر دربارهٔ این موضوع گفتگو کرده بودند تا بتونم خلاصه‌ای از اون‌ها رو یک جا بنویسم. این و این رو یافتم. فکر می‌کنم الان موقعیت خوبی باشه که با یه کار منظم و گروهی این پروژه رو پیش ببریم. من حاضرم برای هماهنگی این کار وقت بذارم.

کیان · « **پاسخ #1 :** 27 تیر 1392، 12:52 ب‌ظ »

قبلا کارهایی در این زمینه انجام شده: http://v.ganjoor.net
راهنما: http://www.gozir.com/1389/03/17/vganjoor/

بهتره همه فعالیت های قبلی در زمینه ocr فارسی و عربی گردآوری بشه تا بی دلیل کاری از صفر شروع نشه!

امیرمسعود · « **پاسخ #2 :** 27 تیر 1392، 12:57 ب‌ظ »

[پی نوشت: همون طور که کیان گفت...]

از اون‌جایی که نوشتن یه نویسه‌خوان نوری کار بزرگی هست که یک نفر به تنهایی نمی‌تونه انجامش بده، به نظر من راهی که می‌شه باهاش یه کار مثبت واقعی کرد اینه که پروژه رو تا جایی که می‌شه به بخش‌های کوچیک‌تر بشکنیم. نخستین بخش می‌تونه این باشه که همهٔ نرم‌افزارها و کتاب‌خانه‌های نویسه‌خوان آزاد رو که می‌شناسیم بررسی کنیم و برای هر کدوم یک صفحه در ویکی بگذاریم و مثلاً این جیزها رو درباره‌اش بنویسیم:

- نشونی سایت برنامه و گروه توسعه‌دهنده‌اش
- مجوز برنامه و این که از نظر قانونی چه خوبی‌ها و بدی‌هایی داره
- چه‌جوری می‌شه کد رو گرفت و کامپایل کرد
- رابط کاربری برنامه چه‌جوری کار می‌کنه
- خروجی برنامه روی چند نمونهٔ نوشته که خودمون درست کردیم چه‌طوره
- چه‌قدر با فارسی سازگاره و برای تبدیل‌شدن به یک نویسه‌خوان فارسی آرمانی چه چیزهایی کم داره

اگر این کار رو «تمیز» انجام بدیم، یه پایهٔ خوب می‌شه برای کسی که می‌خواد در آینده مرحله‌های بعدی رو انجام بده. مرحله‌های بعدی می‌تونه نوشتن یا بهبود کد باشه یا هر کار دیگه‌ای که پس از انجام مرحلهٔ اول می‌فهمیم که لازمه.

برای همین من از نخستین پروژه‌ای که در انجمن حرف زده شده آغاز می‌کنم، یعنی tesseract-ocr که نخستین بار reza1615 بهش اشاره کرد. من یه صفحه برای این نرم‌افزار در ویکی ساختم و بخش‌های مربوط رو براش نوشتم.

امیرمسعود · « **پاسخ #3 :** 27 تیر 1392، 12:59 ب‌ظ »

نقل‌قول از: کیان در 27 تیر 1392، 12:52 ب‌ظ

قبلا کارهایی در این زمینه انجام شده: http://v.ganjoor.net
راهنما: http://www.gozir.com/1389/03/17/vganjoor/

بهتره همه فعالیت های قبلی در زمینه ocr فارسی و عربی گردآوری بشه تا بی دلیل کاری از صفر شروع نشه!

ای ول از من سریع‌تر بودی! پس من گنجور رو هم در ویکی می‌نویسم. خیلی ممنون.

امیرمسعود · « **پاسخ #4 :** 27 تیر 1392، 01:31 ب‌ظ »

خب صفحه‌های ویکی آماده اند. صفحهٔ اصلی که این‌جاست. صفحه‌های ویژهٔ TesseractOCR و گنجور هم سر جاشون هستند.

امیرمسعود · « **پاسخ #5 :** 27 تیر 1392، 04:20 ب‌ظ »

راستی PersianOCR هم هست که برپایهٔ TesseractOCR گذاشته شده. منتها نمی‌دونم آیا نسبت به نرم‌افزار اصلی چیزی بهش اضافه شده یا نه؟

r_m1232002 · « **پاسخ #6 :** 27 تیر 1392، 09:06 ب‌ظ »

خب من یه نگاهی به پروژه های متن باز موجود انداختم و به نظر رسید Tesseract از اعتبار بهتری نسبت به سایرین برخوردار هست.

باید بسیار خوشحال بود که بدونیم موتور این پروژه به صورت Trainable هست و این به این معنی هست که اگه همه چی خوب پیش بره نیازی به تغییر کد یا گسترش اون نیست و ما می تونیم تنها با تهیه حدود 30-40 صفحه متن اسکن شده فارسی و آموزش دادن اونها به موتور امکان تشخیص زبان فارسی رو هم به این پروژه اضافه کنیم.

ظاهرا این پروژه از زبان عربی هم پشتیبانی می کنه که این یعنی احتمال موفقیت عملیات Training برای زبان فارسی در سطح مطلوبی هست. به این ترتیب این راحت ترین روش برای گسترش یک OCR فارسی متن باز هست و فکر می کنم قبل از هر اقدامی برای کد نویسی، حتما می بایست این راهکار مورد آزمایش قرار بگیره.

موفق باشید

B · « **پاسخ #7 :** 27 تیر 1392، 11:59 ب‌ظ »

اگه فقط به متن احتیاجه سایت زیر در احتیار میازه:
http://farsiocr.ir/

هم ارقام دست نویس و هم متن و . .

متونی تایپی به وسیله کامپیوتر هم اینطور که شما میگید فقط احتیاج به تایپشون داریم و خوراندنشون به برنامه!

امیرمسعود · « **پاسخ #8 :** 28 تیر 1392، 01:31 ق‌ظ »

نقل‌قول از: r_m1232002 در 27 تیر 1392، 09:06 ب‌ظ

خب من یه نگاهی به پروژه های متن باز موجود انداختم و به نظر رسید Tesseract از اعتبار بهتری نسبت به سایرین برخوردار هست.

باید بسیار خوشحال بود که بدونیم موتور این پروژه به صورت Trainable هست و این به این معنی هست که اگه همه چی خوب پیش بره نیازی به تغییر کد یا گسترش اون نیست و ما می تونیم تنها با تهیه حدود 30-40 صفحه متن اسکن شده فارسی و آموزش دادن اونها به موتور امکان تشخیص زبان فارسی رو هم به این پروژه اضافه کنیم.

ظاهرا این پروژه از زبان عربی هم پشتیبانی می کنه که این یعنی احتمال موفقیت عملیات Training برای زبان فارسی در سطح مطلوبی هست. به این ترتیب این راحت ترین روش برای گسترش یک OCR فارسی متن باز هست و فکر می کنم قبل از هر اقدامی برای کد نویسی، حتما می بایست این راهکار مورد آزمایش قرار بگیره.

موفق باشید

سلام. آیا ایده‌ای داری که این برنامه چه‌جوری روی اوبونتو نصب می‌شه؟ می‌شه اگر پیدا کردی، همین جا یا روی ویکی برامون بنویسی که بتونیم امتحانش کنیم؟

امیرمسعود · « **پاسخ #9 :** 28 تیر 1392، 01:36 ق‌ظ »

نقل‌قول از: B در 27 تیر 1392، 11:59 ب‌ظ

اگه فقط به متن احتیاجه سایت زیر در احتیار میازه:
http://farsiocr.ir/

هم ارقام دست نویس و هم متن و . .

متونی تایپی به وسیله کامپیوتر هم اینطور که شما میگید فقط احتیاج به تایپشون داریم و خوراندنشون به برنامه!

این عالیه. خیلی ممنون از معرفی! معلومه که کار تمیز آکادمیک روش انجام دادن و حتی مقاله‌هاش رو هم که در مجله‌های معتبر علمی چاپ شده گذاشتن. دستشون درد نکنه.

فکر کنم باید کم‌کم به فکر یک «مجموعهٔ آزمون نویسه‌خوانی» باشیم. یعنی یک مجموعه از تصاویر استاندارد که برای مقایسه به همهٔ نویسه‌خوان‌ها بدیم و دقت خروجی‌ها رو با هم مقایسه کنیم. می‌شه ببینی که در این سایتی که معرفی کردی چنین مجموعه‌ای که معیار سنجش دقت قرار بگیره دارن یا نه؟ یا این که خودمون باید چند تا تصویر نمونه رو دست‌چین کنیم برای چنین مقایسه‌ای؟

خیلی ممنون

امیرمسعود · « **پاسخ #10 :** 28 تیر 1392، 01:39 ق‌ظ »

نقل‌قول از: امیرمسعود در 27 تیر 1392، 04:20 ب‌ظ

راستی PersianOCR هم هست که برپایهٔ TesseractOCR گذاشته شده. منتها نمی‌دونم آیا نسبت به نرم‌افزار اصلی چیزی بهش اضافه شده یا نه؟

جدای از این که PersianOCR چه‌قدر کد تازه نسبت به TesseractOCR داره، باید بگم که مستندات خیلی زیادی به زبون فارسی داره که به نظر خیلی هم خوب میان. اگه به موضوع علاقه دارید خودتون برید به سایت PersianOCR و بخش Wiki رو ببینید. فکر کنم توش اطلاعات خوبی دربارهٔ OCR به طور کلی هم داشته باشه.

r_m1232002 · « **پاسخ #11 :** 28 تیر 1392، 03:06 ق‌ظ »

خوب ظاهرا آقای reza1615 در پروژه PersianOCR موتور Tesseract رو با فونت Arial فارسی Train کردن و در بعضی موارد به قدرت تشخیص 70% هم رسیدن.

به این ترتیب کاری که باقی می مونه اینه که موتور رو با بقیه فونت های معمول Train کرد و دید آیا با بهبود نمونه های اسکن شده به قدرت تشخیص بالاتر از 70% هم می شه رسید یا خیر.

فکر می کنم یک OCR با خطای 5% انتظار معقولی باشه. در صورتی که با بهبود نمونه های اسکن شده نشه به این عدد نزدیک شد اون وقته که مجبور می شیم شروع به کد نویسی کنیم.

در صورتی که این موتور انتخاب بشه همکاری با آقای reza1615 که ظاهرا در همین فروم هم عضو هستند قدم بعدی خواهد بود.

موفق باشید

امیرمسعود · « **پاسخ #12 :** 28 تیر 1392، 09:08 ق‌ظ »

نقل‌قول از: r_m1232002 در 28 تیر 1392، 03:06 ق‌ظ

خوب ظاهرا آقای reza1615 در پروژه PersianOCR موتور Tesseract رو با فونت Arial فارسی Train کردن و در بعضی موارد به قدرت تشخیص 70% هم رسیدن.

به این ترتیب کاری که باقی می مونه اینه که موتور رو با بقیه فونت های معمول Train کرد و دید آیا با بهبود نمونه های اسکن شده به قدرت تشخیص بالاتر از 70% هم می شه رسید یا خیر.

فکر می کنم یک OCR با خطای 5% انتظار معقولی باشه. در صورتی که با بهبود نمونه های اسکن شده نشه به این عدد نزدیک شد اون وقته که مجبور می شیم شروع به کد نویسی کنیم.

در صورتی که این موتور انتخاب بشه همکاری با آقای reza1615 که ظاهرا در همین فروم هم عضو هستند قدم بعدی خواهد بود.

خیلی ممنون از اطلاعات خوبتون

راستی شما تونستید نصبش کنید؟

علی هردان · « **پاسخ #13 :** 28 تیر 1392، 09:53 ق‌ظ »

از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویس‌های پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن

مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفه‌ای نیستم!

امیرمسعود · « **پاسخ #14 :** 28 تیر 1392، 10:05 ق‌ظ »

نقل‌قول از: علی هردان (ojZim) در 28 تیر 1392، 09:53 ق‌ظ

از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویس‌های پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفه‌ای نیستم!

سلام! نسبت به تاپیک لطف دارید و ممنون از نظر (و هشدار)تون.

خوشبختانه دست‌کم فاز اول این پروژه که «بررسی دقیق نرم‌افزارهای نویسه‌خوان موجود و مقایسهٔ بین‌شون» هست، نیازی به دانش برنامه‌نویسی نداره و هر کسی از کاربرهای این انجمن می‌تونه درموردش کمک کنه.

به نظر من همین فاز اول خودش یه قدم خیلی بزرگه، چون راه رو برای برنامه‌نویسی‌ها یا بهینه‌سازی‌های احتمالی در آینده باز می‌کنه. در واقع بدون این فاز اول مرحله‌های بعدی نمی‌تونن آغاز بشن.

همهٔ ما خوشحال می‌شیم که شما هم در بررسی نرم‌افزارهای موجود کمک کنید تا بتونیم صفحه‌هایی رو که در ویکی برای هرکدومشون ساختیم کامل کنیم.

انجمن‌های فارسی اوبونتو

نویسنده موضوع: نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی (دفعات بازدید: 16236 بار)

امیرمسعود

نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

کیان

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

r_m1232002

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

B

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

r_m1232002

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

علی هردان

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی

امیرمسعود

پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی