انجمن‌های فارسی اوبونتو

جامعه کاربران => پروژه‌ها => نویسنده: امیرمسعود در 27 تیر 1392، 12:32 ب‌ظ

عنوان: نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 27 تیر 1392، 12:32 ب‌ظ
پیش از هر چیز بگم که در ویکی‌پدیای فارسی دیدم که جایگزین مصوب فرهنگستان برای OCR هست «نویسه‌خوانی نوری». هر چند که به نظر من جایگزین خیلی خیلی قشنگی نیست، ولی من شخصاً ترجیح می‌دم از این به بعد به جای «برنامهٔ OCR» بگم «برنامهٔ نویسه‌خوان نوری» یا کوتاه‌شده‌اش: «نویسه‌خوان». این فقط ترجیح منه؛ هر کسی هر چیز دیگه‌ای که می‌خواد می‌تونه صداش کنه! و اما اصل مطلب:

بعد از این که صفحهٔ پروژه‌های پیشنهادی برای برنامه‌نویسی و طراحی (http://wiki.ubuntu-ir.org/HighPriorityProjects) در ویکی نوشته شد، دوستمون احسان☺ (http://forum.ubuntu.ir/index.php?action=profile;u=50642) پیشنهاد داد که برنامهٔ نویسه‌خوان فارسی رو هم به فهرست اون پروژه‌ها اضافه کنیم. همه‌مون می‌دونیم که نویسه‌خوان فارسی برنامهٔ خیلی خیلی مهمی برای هر زبانی هست و اگه چنین برنامه‌ای با مجوز آزاد و با کیفیت خوب وجود داشته باشه کاربردهای خیلی زیاد و مفیدی خواهد داشت. برای همین من دنبال تاپیک‌هایی در انجمن گشتم که پیش‌تر دربارهٔ این موضوع گفتگو کرده بودند تا بتونم خلاصه‌ای از اون‌ها رو یک جا بنویسم. این (http://forum.ubuntu.ir/index.php/topic,66172.15.html) و این (http://forum.ubuntu.ir/index.php/topic,47612.0.html) رو یافتم. فکر می‌کنم الان موقعیت خوبی باشه که با یه کار منظم و گروهی این پروژه رو پیش ببریم. من حاضرم برای هماهنگی این کار وقت بذارم.

عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: کیان در 27 تیر 1392، 12:52 ب‌ظ
قبلا کارهایی در این زمینه انجام شده: http://v.ganjoor.net
راهنما: http://www.gozir.com/1389/03/17/vganjoor/

بهتره همه فعالیت های قبلی در زمینه ocr فارسی و عربی گردآوری بشه تا بی دلیل کاری از صفر شروع نشه!
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 27 تیر 1392، 12:57 ب‌ظ
[پی نوشت: همون طور که کیان گفت...]

از اون‌جایی که نوشتن یه نویسه‌خوان نوری کار بزرگی هست که یک نفر به تنهایی نمی‌تونه انجامش بده، به نظر من راهی که می‌شه باهاش یه کار مثبت واقعی کرد اینه که پروژه رو تا جایی که می‌شه به بخش‌های کوچیک‌تر بشکنیم. نخستین بخش می‌تونه این باشه که همهٔ نرم‌افزارها و کتاب‌خانه‌های نویسه‌خوان آزاد رو که می‌شناسیم بررسی کنیم و برای هر کدوم یک صفحه در ویکی بگذاریم و مثلاً این جیزها رو درباره‌اش بنویسیم:

- نشونی سایت برنامه و گروه توسعه‌دهنده‌اش
- مجوز برنامه و این که از نظر قانونی چه خوبی‌ها و بدی‌هایی داره
- چه‌جوری می‌شه کد رو گرفت و کامپایل کرد
- رابط کاربری برنامه چه‌جوری کار می‌کنه
- خروجی برنامه روی چند نمونهٔ نوشته که خودمون درست کردیم چه‌طوره
- چه‌قدر با فارسی سازگاره و برای تبدیل‌شدن به یک نویسه‌خوان فارسی آرمانی چه چیزهایی کم داره

اگر این کار رو «تمیز» انجام بدیم، یه پایهٔ خوب می‌شه برای کسی که می‌خواد در آینده مرحله‌های بعدی رو انجام بده. مرحله‌های بعدی می‌تونه نوشتن یا بهبود کد باشه یا هر کار دیگه‌ای که پس از انجام مرحلهٔ اول می‌فهمیم که لازمه.

برای همین من از نخستین پروژه‌ای که در انجمن حرف زده شده آغاز می‌کنم، یعنی tesseract-ocr (https://code.google.com/p/tesseract-ocr/) که نخستین بار reza1615 (http://forum.ubuntu.ir/index.php?action=profile;u=10636) بهش اشاره کرد. من یه صفحه برای این نرم‌افزار در ویکی ساختم و بخش‌های مربوط رو براش نوشتم.

عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 27 تیر 1392، 12:59 ب‌ظ
قبلا کارهایی در این زمینه انجام شده: http://v.ganjoor.net
راهنما: http://www.gozir.com/1389/03/17/vganjoor/

بهتره همه فعالیت های قبلی در زمینه ocr فارسی و عربی گردآوری بشه تا بی دلیل کاری از صفر شروع نشه!

ای ول از من سریع‌تر بودی! پس من گنجور رو هم در ویکی می‌نویسم. خیلی ممنون. :)
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 27 تیر 1392، 01:31 ب‌ظ
خب صفحه‌های ویکی آماده اند. صفحهٔ اصلی که این‌جاست (http://wiki.ubuntu-ir.org/HighPriorityProjects). صفحه‌های ویژهٔ TesseractOCR (http://wiki.ubuntu-ir.org/TesseractOCR) و گنجور (http://wiki.ubuntu-ir.org/GanjoorOCR) هم سر جاشون هستند.
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 27 تیر 1392، 04:20 ب‌ظ
راستی PersianOCR (https://github.com/reza1615/PersianOcr) هم هست که برپایهٔ TesseractOCR گذاشته شده. منتها نمی‌دونم آیا نسبت به نرم‌افزار اصلی چیزی بهش اضافه شده یا نه؟
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: r_m1232002 در 27 تیر 1392، 09:06 ب‌ظ
خب من یه نگاهی به پروژه های متن باز موجود انداختم و به نظر رسید Tesseract از اعتبار بهتری نسبت به سایرین برخوردار هست.

باید بسیار خوشحال بود که بدونیم موتور این پروژه به صورت Trainable هست و این به این معنی هست که اگه همه چی خوب پیش بره نیازی به تغییر کد یا گسترش اون نیست و ما می تونیم تنها با تهیه حدود 30-40 صفحه متن اسکن شده فارسی و آموزش دادن اونها به موتور امکان تشخیص زبان فارسی رو هم به این پروژه اضافه کنیم.

ظاهرا این پروژه از زبان عربی هم پشتیبانی می کنه که این یعنی احتمال موفقیت عملیات Training برای زبان فارسی در سطح مطلوبی هست. به این ترتیب این راحت ترین روش برای گسترش یک OCR فارسی متن باز هست و فکر می کنم قبل از هر اقدامی برای کد نویسی، حتما می بایست این راهکار مورد آزمایش قرار بگیره.

موفق باشید
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: B در 27 تیر 1392، 11:59 ب‌ظ
اگه فقط به متن احتیاجه سایت زیر در احتیار میازه:
http://farsiocr.ir/

هم ارقام دست نویس و هم متن و . .

متونی تایپی به وسیله کامپیوتر هم اینطور که شما میگید فقط احتیاج به تایپشون داریم و خوراندنشون به برنامه!
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 01:31 ق‌ظ
خب من یه نگاهی به پروژه های متن باز موجود انداختم و به نظر رسید Tesseract از اعتبار بهتری نسبت به سایرین برخوردار هست.

باید بسیار خوشحال بود که بدونیم موتور این پروژه به صورت Trainable هست و این به این معنی هست که اگه همه چی خوب پیش بره نیازی به تغییر کد یا گسترش اون نیست و ما می تونیم تنها با تهیه حدود 30-40 صفحه متن اسکن شده فارسی و آموزش دادن اونها به موتور امکان تشخیص زبان فارسی رو هم به این پروژه اضافه کنیم.

ظاهرا این پروژه از زبان عربی هم پشتیبانی می کنه که این یعنی احتمال موفقیت عملیات Training برای زبان فارسی در سطح مطلوبی هست. به این ترتیب این راحت ترین روش برای گسترش یک OCR فارسی متن باز هست و فکر می کنم قبل از هر اقدامی برای کد نویسی، حتما می بایست این راهکار مورد آزمایش قرار بگیره.

موفق باشید
سلام. آیا ایده‌ای داری که این برنامه چه‌جوری روی اوبونتو نصب می‌شه؟ می‌شه اگر پیدا کردی، همین جا یا روی ویکی برامون بنویسی که بتونیم امتحانش کنیم؟
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 01:36 ق‌ظ
اگه فقط به متن احتیاجه سایت زیر در احتیار میازه:
http://farsiocr.ir/

هم ارقام دست نویس و هم متن و . .

متونی تایپی به وسیله کامپیوتر هم اینطور که شما میگید فقط احتیاج به تایپشون داریم و خوراندنشون به برنامه!

این عالیه. خیلی ممنون از معرفی! معلومه که کار تمیز آکادمیک روش انجام دادن و حتی مقاله‌هاش رو هم که در مجله‌های معتبر علمی چاپ شده گذاشتن. دستشون درد نکنه.

فکر کنم باید کم‌کم به فکر یک «مجموعهٔ آزمون نویسه‌خوانی» باشیم. یعنی یک مجموعه از تصاویر استاندارد که برای مقایسه به همهٔ نویسه‌خوان‌ها بدیم و دقت خروجی‌ها رو با هم مقایسه کنیم. می‌شه ببینی که در این سایتی که معرفی کردی چنین مجموعه‌ای که معیار سنجش دقت قرار بگیره دارن یا نه؟ یا این که خودمون باید چند تا تصویر نمونه رو دست‌چین کنیم برای چنین مقایسه‌ای؟

خیلی ممنون :)
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 01:39 ق‌ظ
راستی PersianOCR (https://github.com/reza1615/PersianOcr) هم هست که برپایهٔ TesseractOCR گذاشته شده. منتها نمی‌دونم آیا نسبت به نرم‌افزار اصلی چیزی بهش اضافه شده یا نه؟

جدای از این که PersianOCR چه‌قدر کد تازه نسبت به TesseractOCR داره، باید بگم که مستندات خیلی زیادی به زبون فارسی داره که به نظر خیلی هم خوب میان. اگه به موضوع علاقه دارید خودتون برید به سایت PersianOCR (https://github.com/reza1615/PersianOcr) و بخش Wiki رو ببینید. فکر کنم توش اطلاعات خوبی دربارهٔ OCR به طور کلی هم داشته باشه.
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: r_m1232002 در 28 تیر 1392، 03:06 ق‌ظ
خوب ظاهرا آقای reza1615 در پروژه PersianOCR موتور Tesseract رو با فونت Arial فارسی Train کردن و در بعضی موارد به قدرت تشخیص 70% هم رسیدن.

به این ترتیب کاری که باقی می مونه اینه که موتور رو با بقیه فونت های معمول Train کرد و دید آیا با بهبود نمونه های اسکن شده به قدرت تشخیص بالاتر از 70% هم می شه رسید یا خیر.

فکر می کنم یک OCR با خطای 5% انتظار معقولی باشه. در صورتی که با بهبود نمونه های اسکن شده نشه به این عدد نزدیک شد اون وقته که مجبور می شیم شروع به کد نویسی کنیم.

در صورتی که این موتور انتخاب بشه همکاری با آقای reza1615 که ظاهرا در همین فروم هم عضو هستند قدم بعدی خواهد بود.

موفق باشید
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 09:08 ق‌ظ
خوب ظاهرا آقای reza1615 در پروژه PersianOCR موتور Tesseract رو با فونت Arial فارسی Train کردن و در بعضی موارد به قدرت تشخیص 70% هم رسیدن.

به این ترتیب کاری که باقی می مونه اینه که موتور رو با بقیه فونت های معمول Train کرد و دید آیا با بهبود نمونه های اسکن شده به قدرت تشخیص بالاتر از 70% هم می شه رسید یا خیر.

فکر می کنم یک OCR با خطای 5% انتظار معقولی باشه. در صورتی که با بهبود نمونه های اسکن شده نشه به این عدد نزدیک شد اون وقته که مجبور می شیم شروع به کد نویسی کنیم.

در صورتی که این موتور انتخاب بشه همکاری با آقای reza1615 که ظاهرا در همین فروم هم عضو هستند قدم بعدی خواهد بود.

خیلی ممنون از اطلاعات خوبتون :)

راستی شما تونستید نصبش کنید؟
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: علی هردان در 28 تیر 1392، 09:53 ق‌ظ
از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویس‌های پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن  ;D مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفه‌ای نیستم!
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 10:05 ق‌ظ
از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویس‌های پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن  ;D مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفه‌ای نیستم!
سلام! نسبت به تاپیک لطف دارید و ممنون از نظر (و هشدار)تون.

خوشبختانه دست‌کم فاز اول این پروژه که «بررسی دقیق نرم‌افزارهای نویسه‌خوان موجود و مقایسهٔ بین‌شون» هست، نیازی به دانش برنامه‌نویسی نداره و هر کسی از کاربرهای این انجمن می‌تونه درموردش کمک کنه. :) به نظر من همین فاز اول خودش یه قدم خیلی بزرگه، چون راه رو برای برنامه‌نویسی‌ها یا بهینه‌سازی‌های احتمالی در آینده باز می‌کنه. در واقع بدون این فاز اول مرحله‌های بعدی نمی‌تونن آغاز بشن.

همهٔ ما خوشحال می‌شیم که شما هم در بررسی نرم‌افزارهای موجود کمک کنید تا بتونیم صفحه‌هایی رو که در ویکی برای هرکدومشون ساختیم کامل کنیم. :)
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: علی هردان در 28 تیر 1392، 10:54 ق‌ظ
از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویس‌های پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن  ;D مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفه‌ای نیستم!
سلام! نسبت به تاپیک لطف دارید و ممنون از نظر (و هشدار)تون.

خوشبختانه دست‌کم فاز اول این پروژه که «بررسی دقیق نرم‌افزارهای نویسه‌خوان موجود و مقایسهٔ بین‌شون» هست، نیازی به دانش برنامه‌نویسی نداره و هر کسی از کاربرهای این انجمن می‌تونه درموردش کمک کنه. :) به نظر من همین فاز اول خودش یه قدم خیلی بزرگه، چون راه رو برای برنامه‌نویسی‌ها یا بهینه‌سازی‌های احتمالی در آینده باز می‌کنه. در واقع بدون این فاز اول مرحله‌های بعدی نمی‌تونن آغاز بشن.

همهٔ ما خوشحال می‌شیم که شما هم در بررسی نرم‌افزارهای موجود کمک کنید تا بتونیم صفحه‌هایی رو که در ویکی برای هرکدومشون ساختیم کامل کنیم. :)
سلام. الان از خود شما که ایجاد کننده تاپیک هستید، چندتا سوال دارم:

۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟

@احسان:
برادر من شلوغش نکن. من که چیزی نگفتم. فقط گفتم تجربه ثابت کرده که پروژه‌های ایرانی همیشه شکست خورده و ناموفق بودن. من حس میکنم اینم از اوناس  ;D
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 11:31 ق‌ظ
۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟

با عرض شرمندگی من به پرسش‌های شما در این‌جا پاسخ نمی‌دم. می‌تونیم در یه تاپیک دیگه درباره‌شون حرف بزنیم. این‌جا موضوع گفتگو دربارهٔ نرم‌افزار نویسه‌خوان فارسیه. قراره با کمک کاربرهای این انجمن، حتی اون‌هایی که برنامه‌نویسی بلد نیستند، این کار رو انجام بدیم. از ورود و پیشنهادهای تازه و مشارکت همه هم به‌گرمی استقبال می‌شه.  :)
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: علی هردان در 28 تیر 1392، 11:47 ق‌ظ
۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟

با عرض شرمندگی من به پرسش‌های شما در این‌جا پاسخ نمی‌دم. می‌تونیم در یه تاپیک دیگه درباره‌شون حرف بزنیم. این‌جا موضوع گفتگو دربارهٔ نرم‌افزار نویسه‌خوان فارسیه. قراره با کمک کاربرهای این انجمن، حتی اون‌هایی که برنامه‌نویسی بلد نیستند، این کار رو انجام بدیم. از ورود و پیشنهادهای تازه و مشارکت همه هم به‌گرمی استقبال می‌شه.  :)
البته پاسخ دادن به این پرسش‌ها مسلما توی پیش رفتن این پروژه کمک خواهد کرد و باعث روشن شدن و واضح شدن اهداف میشه.  ;D منم برای اطلاع از وضعیت پروژه این سوالا رو پرسیدم. مریض نیستم که  ;)
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 12:21 ب‌ظ
خب بر اساس اطلاعات خیلی خوبی که r_m1232002 داد، به نظر می‌رسه که پروژهٔ Tesseract خیلی برای کار ما مناسب باشه و حتی شاید بدون برنامه‌نویسی بتونیم اون رو برای زبون فارسی آماده کنیم.

الان به کسی نیاز داریم که بتونه این برنامه رو نصب کنه و ازش خروجی بگیره. راهنمای نصب این‌جاست (https://code.google.com/p/tesseract-ocr/wiki/ReadMe). اگر علاقه‌مندید، دست به کار بشید!
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: MohammadH در 28 تیر 1392، 12:22 ب‌ظ
خب منم یکم اظهار نظر کنم اینجا وگرنه حناق میگیرم ;D .

OCR یک نرم افزار بسیار پیچیده است و این تیپ نرم افزار درکش از توان خیلی ها خارجه :). خب من یک راه بهینه تر پیشنهاد میکنم. اونایی که کمی فارسی ساپورت میکنند رو بردارید (البته به شرط آنکه تحت مجوزهای آزاد باشند) و بعد دیتابیسش رو تقویت کنید.
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 12:29 ب‌ظ
خب منم یکم اظهار نظر کنم اینجا وگرنه حناق میگیرم ;D .

OCR یک نرم افزار بسیار پیچیده است و این تیپ نرم افزار درکش از توان خیلی ها خارجه :). خب من یک راه بهینه تر پیشنهاد میکنم. اونایی که کمی فارسی ساپورت میکنند رو بردارید (البته به شرط آنکه تحت مجوزهای آزاد باشند) و بعد دیتابیسش رو تقویت کنید.
بله بله دقیقاً. خیلی پیچیده است. ما هم دنبال اون‌هایی می‌گردیم که فارسی رو پشتیبانی کنند. خوشبختانه این Tesseract همین جوریه. و کدش از طرف گوگل پشتیبانی می‌شه. پیش‌تر هم بچه‌های همین انجمن روش کار کرده بودن (پروژهٔ FarsiOCR از طرف reza1615 (http://forum.ubuntu.ir/index.php?action=profile;u=10636)) ولی دیگه خبری ندادن بهمون که به چه نتیجه‌ای رسید. برای همین می‌خواهیم با کمک هم این رو دوباره راه بندازیمش.

می‌خواهیم همه چیز رو روی ویکی (http://wiki.ubuntu-ir.org/HighPriorityProjects) ،مستند (http://wiki.ubuntu-ir.org/TesseractOCR) ،کنیم (http://wiki.ubuntu-ir.org/GanjoorOCR) که نتایجش باقی بمونه برای دیگرانی که می‌خوان ادامه بدن. خوشحال می‌شیم که شما هم همکاری کنید.

این پروژه در فاز فعلی به دانش برنامه‌نویسی نیازی نداره!
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: MohammadH در 28 تیر 1392، 01:18 ب‌ظ
امیر مسعود عزیز، بنده خدای نکرده قصد جسارت نداشتم :).

خب وقتی قرار باشه کارمون تا این حد ساده باشه، فقط کافیه صد نفر داوطلب بیان و متون مختلف رو به نرم افزار بدن و دقتش رو ببرن بالا. Machine Learning اینجور جاها خیلی میتونه موثر باشه :)
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 02:06 ب‌ظ
امیر مسعود عزیز، بنده خدای نکرده قصد جسارت نداشتم :).

خب وقتی قرار باشه کارمون تا این حد ساده باشه، فقط کافیه صد نفر داوطلب بیان و متون مختلف رو به نرم افزار بدن و دقتش رو ببرن بالا. Machine Learning اینجور جاها خیلی میتونه موثر باشه :)
هدف این پروژه هم دقیقاً همین جور کارهاست. فرض کنید که می‌خواهیم روی Tesseract کار کنیم و فرض کنید بعد از بررسی دوستان معلوم بشه که این نرم‌افزار واقعاً می‌تونه نویسه‌های فارسی رو تشخصی بده. در این صورت فازهای  بعدی پروژه به این ترتیب خواهد بود:

اول یکی باید بیاد و سعی کنه روش نصب رو پیدا کنه و برای بقیه توضیح بده.
بعد باید روش نصب رو خیلی تمیز روی ویکی بنویسیم که کاربرهای بیشتری بتونن اون رو نصب کنن و در پروژه مشارکت کنن.
بعد همین آدم‌هایی که شما گفتید باید همکاری کنن و دقت نرم‌افزار رو برای فارسی بالا ببرن.
بعد باید یه ppa براش بسازیم که همه بتونن نرم‌افزاری که بهینه شده رو راحت نصب کنن.

ما هم برای همین اینجا هستیم! :) می‌خواهیم پله‌پله کار رو انجام بدیم.
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: vandu در 28 تیر 1392، 05:37 ب‌ظ
من نرم افزار رو به این شکل نصب کردم
sudo apt-get install tesseract-ocr tesseract-ocr-eng
و اون رو با دو تا تصویر حاوی متن تست کردم.

تصویر شماره یک :
دریافت تصویر شماره یک (http://bayanbox.ir/id/433886516965790121?info)

اجرا:
tesseract tesseract_ocr_test1.png output1
نتیجه اجرا:
The initial versions of Tesseract could only recognize English
language text. Starting with version 2 Tesseract was able to
process English, French, Italian, German, Spanish, Brazilian
Portuguese and Dutch. Starting with version 3 it can
recognize Arabic, English, Bulgarian, Catalan, Czech,
Chinese (Simplified and Traditional), Danish, German
(standard and Fraktur script), Greek, Finnish, French,
Hebrew, Croatian, Hungarian, Indonesian, Italian, Japanese,
Korean, Latvian, Lithuanian, Dutch, Norwegian, Polish,
Portuguese, Romanian, Russian, Slovak (standard and
Fraktur script), Slovenian, Spanish, Serbian, Swedish,
Tagalog, Thai, Turkish, Ukrainian and Vietnamese. Tesseract
can be trained to work in other languages too.

تصویر شماره دو :
دریافت تصویر شماره دو (http://bayanbox.ir/id/1037583809032683435?info)

اجرا:
tesseract tesseract_ocr_test2.png output2
نتیجه اجرا:
The initial versions of Tesseract couid oniy recognize Engiish
language text. Starting with version 2 Tesseract was able to
process English, French, \ta\'\a\'\. German, Spanish, Brazilian
Portuguese and Dutch. starting with version 3 it can
recognize Arabic, English, Bulgarian, Catalan, Czech,
Chinese (Simplified and Traditionai), Danish, German
(standard and Fraktur script), Greek, Finnish, French,
Hebrew, Croatian, Hungarian, Indonesian, |ta|ian,Japanese,
Korean, Latvian, Lithuanian, Dutch, Norwegian, Polish,
Portuguese, Romanian, Russian, Slovak (standard and
Frakturscript), SIovenian,Span'\sh, Serbian, Swedish,
Tagalog, Thai,Turkish, Ukrainian and Vietnamese. Tesseract
can be trained to work in other languages too.

با یه مقدار اعوجاج، یک متن ساده (که دست نویس هم نیست) رو نتونست خوب تشخیص بده.
با پارامترهای مختلف هم تست کردم. مشکل از کجاست؟!  :)
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 28 تیر 1392، 11:42 ب‌ظ
ای ول! این خیلی خوبه. جالبه که نمی‌دونم چرا حدس هم نمی‌زدم که روی مخازن باشه! اون هم آخرین نسخه‌اش! خیلی ممنون.

من هم سعی می‌کنم نصبش کنم و امتحانش کنم و ببینم چه‌جوری کار می‌کنه. شما تونستید برای زبون عربی هم ازش خروجی بگیرید؟
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: vandu در 29 تیر 1392، 02:55 ب‌ظ
شما تونستید برای زبون عربی هم ازش خروجی بگیرید؟
برای عربی هنوز نه. همین الان گذاشتم که نصب بشه. نتیجه‌ش رو اینجا قرار خواهیم داد... :)
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: vandu در 29 تیر 1392، 03:23 ب‌ظ
نتیجه تست زبان عربی:

متن مورد استفاده از ویکی‌پدیای عربی (http://ar.wikipedia.org/wiki/%D9%85%D8%B5%D8%AF%D8%B1_%D9%85%D9%81%D8%AA%D9%88%D8%AD) :
نقل‌قول
من الممكن اختصار تعريف البرمجيات المفتوحة المصدر، بأنها البرمجيات التي تحقق الشروط التالية:

    حرية إعادة توزيع البرنامج.
    توفر النص المصدري للبرنامج، وحرية توزيع النص المصدري.
    حرية إنتاج برمجيات مشتقة أو معدلة من البرنامج الأصلي، وحرية توزيعها تحت نفس الترخيص للبرمجيات الأصلي.
    من الممكن أن يمنع الترخيص توزيع النص المصدري للنسخ المعدلة على شرط السماح بتوزيع ملفات التي تحتوي على التعديلات بجانب النص الأصلي.
    عدم وجود أي تمييز في الترخيص لأي مجموعة أو أشخاص.
    عدم وجود أي تحديد لمجالات استخدام البرنامج.
    الحقوق الموجودة في الترخيص يجب أن تعطى لكل من يتم توزيع البرنامج إليه.

وهذه الميزات الأساسية لأي ترخيص من الممكن أن يطلق عليه ترخيص مفتوح المصدر.

تصویر شماره یک :
دریافت تصویر شماره یک (http://bayanbox.ir/id/312099435998738081?info)
اجرا:
tesseract tesseract_ocr_test3.png output3 -l ara
نتیجه اجرا:
نقل‌قول
من اا كن ابن .. اوتلو( الهوسات اا ٠هه حق اا وته بأنها الهوسات التي تحقق ااث وط
التالية ن

حرية اعادة توزيع اليو..

توفوالنص العصبى للهوتامج، وحرية توزيع النص السي

حرية إنتاج برمجيات مشتقة أو معدلة من اليو. الأصلي، وحرية توزيعها تحث نغم
الترخيص للبرمجيات الأصلي.

من الممكن أر. يعنى الترخيص توزيع النص العصبى للنسخ المعدلة علي شوط السماح بتوزيع
ملغات التي تحتهم علي التعديلات بجانب النص الأصلي.

عدم وجود لي تعئطفي الترخيص لأي مجموعة أو أشخاص.

عدم وجود لي تحديد لمجالات استخدام اليو..

الحقوق الموجودة في الترخيص يجب أر. تعطي لكل من يتم توزيع اليو. إليه.

وهذه الميزات الأمامية لأي ترخيص من الممكن أر. يطلق عليه ترخيص مغتوح السد


تصویر شماره دو (با مقداری اعوجاج) :
دریافت تصویر شماره دو (http://bayanbox.ir/id/832745808726632898?info)
اجرا:
tesseract tesseract_ocr_test4.png output4 -l ara
نتیجه اجرا:
نقل‌قول
من السكن لعتمارتعزينى البرمجيات العغتدحة الهصدو، يأنهل للرهج٠هات التي قحقح للشروط
التالية إ

حرية إعادة هدوئنا الرهير

توفو الة العصي للهدنامج، ءحرجة تور( للنص المجدة

حرية إنتاج برمجيات مش٠نهة أو معدلة من اللبي. ملأصلي، وحرية توزيعها تاي وقس
التوعيص لليدمجياتالأصر٠

من السكن ني يهتم الترمس توزيع النص السري للنسخ السلة على شوط الساع بتدو٧
هلغاهت التي تحتوي علي التعديلات بجانب للنص الأصلي.

عدم وجود أي تمييز طي الترخيص لأي مجموعة أو أعخاص

عدم وجودا تحديد لعجا»ت اسعدني البرنامج.

الحقوق ال-ة ا للترخيص يجب آن تعهى لكل من يتهم توزع اليرناهج الند

وهذه للعيذات الأساسية لأني )رخيص من المعد آن يل عليه ترخيص هغتدح للسد
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: هامد در 24 شهریور 1392، 10:42 ب‌ظ
ردیابی نوشته های فارسی در تصاویر: http://press.jamejamonline.ir/?year=1392&Month=6&Day=9 ورق بنید تا برسید به صفحه ۱۲ روزنامه
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: ح.م در 26 شهریور 1392، 03:43 ب‌ظ
حالا تو فکر کسی از دوستان هست که پشتیبانی از زبان فارسی و حروفی که با عربی تفاوت داره مثل (گ پ ژ چ وحتی ی و ک عربی) رو به بگونجونه ! فکر نکنم کار سختی باشه با توجه به این که عربی توش هست !
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: بابک طور در 10 آذر 1392، 09:40 ب‌ظ
دوستان این قضیه ول شد یا ادامه داره؟
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: امیرمسعود در 14 آذر 1392، 03:45 ب‌ظ
دوستان این قضیه ول شد یا ادامه داره؟
من ولش کردم. و شرمنده‌ام. ولی می‌تونیم ادامه‌اش بدیم، به شرط این که خود شما همت کنی، یا به طور مؤثری من رو تشویق کنی!
عنوان: پاسخ : نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی
ارسال شده توسط: بابک طور در 14 آذر 1392، 07:07 ب‌ظ
دوستان این قضیه ول شد یا ادامه داره؟
من ولش کردم. و شرمنده‌ام. ولی می‌تونیم ادامه‌اش بدیم، به شرط این که خود شما همت کنی، یا به طور مؤثری من رو تشویق کنی!

من برنامه نویسی بلد نیستم. ولی تا ۲ یا ۳ ماه دیگه که برای سربازی اعزام بشم، وقت دارم.

تا اونجایی که من اطلاع دارم، قرار بود هسته‌ی یک یبرنامه رو که بر اساس هوش مصنوعی بود آموزش بدین. ولی من درست از مراحل کار سر در نیاوردم.

اأان هم اگه کاری باشه که من بتونم انجام می‌دم.