انجمنهای فارسی اوبونتو
جامعه کاربران => پروژهها => نویسنده: امیرمسعود در 27 تیر 1392، 12:32 بظ
-
پیش از هر چیز بگم که در ویکیپدیای فارسی دیدم که جایگزین مصوب فرهنگستان برای OCR هست «نویسهخوانی نوری». هر چند که به نظر من جایگزین خیلی خیلی قشنگی نیست، ولی من شخصاً ترجیح میدم از این به بعد به جای «برنامهٔ OCR» بگم «برنامهٔ نویسهخوان نوری» یا کوتاهشدهاش: «نویسهخوان». این فقط ترجیح منه؛ هر کسی هر چیز دیگهای که میخواد میتونه صداش کنه! و اما اصل مطلب:
بعد از این که صفحهٔ پروژههای پیشنهادی برای برنامهنویسی و طراحی (http://wiki.ubuntu-ir.org/HighPriorityProjects) در ویکی نوشته شد، دوستمون احسان☺ (http://forum.ubuntu.ir/index.php?action=profile;u=50642) پیشنهاد داد که برنامهٔ نویسهخوان فارسی رو هم به فهرست اون پروژهها اضافه کنیم. همهمون میدونیم که نویسهخوان فارسی برنامهٔ خیلی خیلی مهمی برای هر زبانی هست و اگه چنین برنامهای با مجوز آزاد و با کیفیت خوب وجود داشته باشه کاربردهای خیلی زیاد و مفیدی خواهد داشت. برای همین من دنبال تاپیکهایی در انجمن گشتم که پیشتر دربارهٔ این موضوع گفتگو کرده بودند تا بتونم خلاصهای از اونها رو یک جا بنویسم. این (http://forum.ubuntu.ir/index.php/topic,66172.15.html) و این (http://forum.ubuntu.ir/index.php/topic,47612.0.html) رو یافتم. فکر میکنم الان موقعیت خوبی باشه که با یه کار منظم و گروهی این پروژه رو پیش ببریم. من حاضرم برای هماهنگی این کار وقت بذارم.
-
قبلا کارهایی در این زمینه انجام شده: http://v.ganjoor.net
راهنما: http://www.gozir.com/1389/03/17/vganjoor/
بهتره همه فعالیت های قبلی در زمینه ocr فارسی و عربی گردآوری بشه تا بی دلیل کاری از صفر شروع نشه!
-
[پی نوشت: همون طور که کیان گفت...]
از اونجایی که نوشتن یه نویسهخوان نوری کار بزرگی هست که یک نفر به تنهایی نمیتونه انجامش بده، به نظر من راهی که میشه باهاش یه کار مثبت واقعی کرد اینه که پروژه رو تا جایی که میشه به بخشهای کوچیکتر بشکنیم. نخستین بخش میتونه این باشه که همهٔ نرمافزارها و کتابخانههای نویسهخوان آزاد رو که میشناسیم بررسی کنیم و برای هر کدوم یک صفحه در ویکی بگذاریم و مثلاً این جیزها رو دربارهاش بنویسیم:
- نشونی سایت برنامه و گروه توسعهدهندهاش
- مجوز برنامه و این که از نظر قانونی چه خوبیها و بدیهایی داره
- چهجوری میشه کد رو گرفت و کامپایل کرد
- رابط کاربری برنامه چهجوری کار میکنه
- خروجی برنامه روی چند نمونهٔ نوشته که خودمون درست کردیم چهطوره
- چهقدر با فارسی سازگاره و برای تبدیلشدن به یک نویسهخوان فارسی آرمانی چه چیزهایی کم داره
اگر این کار رو «تمیز» انجام بدیم، یه پایهٔ خوب میشه برای کسی که میخواد در آینده مرحلههای بعدی رو انجام بده. مرحلههای بعدی میتونه نوشتن یا بهبود کد باشه یا هر کار دیگهای که پس از انجام مرحلهٔ اول میفهمیم که لازمه.
برای همین من از نخستین پروژهای که در انجمن حرف زده شده آغاز میکنم، یعنی tesseract-ocr (https://code.google.com/p/tesseract-ocr/) که نخستین بار reza1615 (http://forum.ubuntu.ir/index.php?action=profile;u=10636) بهش اشاره کرد. من یه صفحه برای این نرمافزار در ویکی ساختم و بخشهای مربوط رو براش نوشتم.
-
قبلا کارهایی در این زمینه انجام شده: http://v.ganjoor.net
راهنما: http://www.gozir.com/1389/03/17/vganjoor/
بهتره همه فعالیت های قبلی در زمینه ocr فارسی و عربی گردآوری بشه تا بی دلیل کاری از صفر شروع نشه!
ای ول از من سریعتر بودی! پس من گنجور رو هم در ویکی مینویسم. خیلی ممنون. :)
-
خب صفحههای ویکی آماده اند. صفحهٔ اصلی که اینجاست (http://wiki.ubuntu-ir.org/HighPriorityProjects). صفحههای ویژهٔ TesseractOCR (http://wiki.ubuntu-ir.org/TesseractOCR) و گنجور (http://wiki.ubuntu-ir.org/GanjoorOCR) هم سر جاشون هستند.
-
راستی PersianOCR (https://github.com/reza1615/PersianOcr) هم هست که برپایهٔ TesseractOCR گذاشته شده. منتها نمیدونم آیا نسبت به نرمافزار اصلی چیزی بهش اضافه شده یا نه؟
-
خب من یه نگاهی به پروژه های متن باز موجود انداختم و به نظر رسید Tesseract از اعتبار بهتری نسبت به سایرین برخوردار هست.
باید بسیار خوشحال بود که بدونیم موتور این پروژه به صورت Trainable هست و این به این معنی هست که اگه همه چی خوب پیش بره نیازی به تغییر کد یا گسترش اون نیست و ما می تونیم تنها با تهیه حدود 30-40 صفحه متن اسکن شده فارسی و آموزش دادن اونها به موتور امکان تشخیص زبان فارسی رو هم به این پروژه اضافه کنیم.
ظاهرا این پروژه از زبان عربی هم پشتیبانی می کنه که این یعنی احتمال موفقیت عملیات Training برای زبان فارسی در سطح مطلوبی هست. به این ترتیب این راحت ترین روش برای گسترش یک OCR فارسی متن باز هست و فکر می کنم قبل از هر اقدامی برای کد نویسی، حتما می بایست این راهکار مورد آزمایش قرار بگیره.
موفق باشید
-
اگه فقط به متن احتیاجه سایت زیر در احتیار میازه:
http://farsiocr.ir/
هم ارقام دست نویس و هم متن و . .
متونی تایپی به وسیله کامپیوتر هم اینطور که شما میگید فقط احتیاج به تایپشون داریم و خوراندنشون به برنامه!
-
خب من یه نگاهی به پروژه های متن باز موجود انداختم و به نظر رسید Tesseract از اعتبار بهتری نسبت به سایرین برخوردار هست.
باید بسیار خوشحال بود که بدونیم موتور این پروژه به صورت Trainable هست و این به این معنی هست که اگه همه چی خوب پیش بره نیازی به تغییر کد یا گسترش اون نیست و ما می تونیم تنها با تهیه حدود 30-40 صفحه متن اسکن شده فارسی و آموزش دادن اونها به موتور امکان تشخیص زبان فارسی رو هم به این پروژه اضافه کنیم.
ظاهرا این پروژه از زبان عربی هم پشتیبانی می کنه که این یعنی احتمال موفقیت عملیات Training برای زبان فارسی در سطح مطلوبی هست. به این ترتیب این راحت ترین روش برای گسترش یک OCR فارسی متن باز هست و فکر می کنم قبل از هر اقدامی برای کد نویسی، حتما می بایست این راهکار مورد آزمایش قرار بگیره.
موفق باشید
سلام. آیا ایدهای داری که این برنامه چهجوری روی اوبونتو نصب میشه؟ میشه اگر پیدا کردی، همین جا یا روی ویکی برامون بنویسی که بتونیم امتحانش کنیم؟
-
اگه فقط به متن احتیاجه سایت زیر در احتیار میازه:
http://farsiocr.ir/
هم ارقام دست نویس و هم متن و . .
متونی تایپی به وسیله کامپیوتر هم اینطور که شما میگید فقط احتیاج به تایپشون داریم و خوراندنشون به برنامه!
این عالیه. خیلی ممنون از معرفی! معلومه که کار تمیز آکادمیک روش انجام دادن و حتی مقالههاش رو هم که در مجلههای معتبر علمی چاپ شده گذاشتن. دستشون درد نکنه.
فکر کنم باید کمکم به فکر یک «مجموعهٔ آزمون نویسهخوانی» باشیم. یعنی یک مجموعه از تصاویر استاندارد که برای مقایسه به همهٔ نویسهخوانها بدیم و دقت خروجیها رو با هم مقایسه کنیم. میشه ببینی که در این سایتی که معرفی کردی چنین مجموعهای که معیار سنجش دقت قرار بگیره دارن یا نه؟ یا این که خودمون باید چند تا تصویر نمونه رو دستچین کنیم برای چنین مقایسهای؟
خیلی ممنون :)
-
راستی PersianOCR (https://github.com/reza1615/PersianOcr) هم هست که برپایهٔ TesseractOCR گذاشته شده. منتها نمیدونم آیا نسبت به نرمافزار اصلی چیزی بهش اضافه شده یا نه؟
جدای از این که PersianOCR چهقدر کد تازه نسبت به TesseractOCR داره، باید بگم که مستندات خیلی زیادی به زبون فارسی داره که به نظر خیلی هم خوب میان. اگه به موضوع علاقه دارید خودتون برید به سایت PersianOCR (https://github.com/reza1615/PersianOcr) و بخش Wiki رو ببینید. فکر کنم توش اطلاعات خوبی دربارهٔ OCR به طور کلی هم داشته باشه.
-
خوب ظاهرا آقای reza1615 در پروژه PersianOCR موتور Tesseract رو با فونت Arial فارسی Train کردن و در بعضی موارد به قدرت تشخیص 70% هم رسیدن.
به این ترتیب کاری که باقی می مونه اینه که موتور رو با بقیه فونت های معمول Train کرد و دید آیا با بهبود نمونه های اسکن شده به قدرت تشخیص بالاتر از 70% هم می شه رسید یا خیر.
فکر می کنم یک OCR با خطای 5% انتظار معقولی باشه. در صورتی که با بهبود نمونه های اسکن شده نشه به این عدد نزدیک شد اون وقته که مجبور می شیم شروع به کد نویسی کنیم.
در صورتی که این موتور انتخاب بشه همکاری با آقای reza1615 که ظاهرا در همین فروم هم عضو هستند قدم بعدی خواهد بود.
موفق باشید
-
خوب ظاهرا آقای reza1615 در پروژه PersianOCR موتور Tesseract رو با فونت Arial فارسی Train کردن و در بعضی موارد به قدرت تشخیص 70% هم رسیدن.
به این ترتیب کاری که باقی می مونه اینه که موتور رو با بقیه فونت های معمول Train کرد و دید آیا با بهبود نمونه های اسکن شده به قدرت تشخیص بالاتر از 70% هم می شه رسید یا خیر.
فکر می کنم یک OCR با خطای 5% انتظار معقولی باشه. در صورتی که با بهبود نمونه های اسکن شده نشه به این عدد نزدیک شد اون وقته که مجبور می شیم شروع به کد نویسی کنیم.
در صورتی که این موتور انتخاب بشه همکاری با آقای reza1615 که ظاهرا در همین فروم هم عضو هستند قدم بعدی خواهد بود.
خیلی ممنون از اطلاعات خوبتون :)
راستی شما تونستید نصبش کنید؟
-
از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویسهای پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن ;D مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفهای نیستم!
-
از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویسهای پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن ;D مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفهای نیستم!
سلام! نسبت به تاپیک لطف دارید و ممنون از نظر (و هشدار)تون.
خوشبختانه دستکم فاز اول این پروژه که «بررسی دقیق نرمافزارهای نویسهخوان موجود و مقایسهٔ بینشون» هست، نیازی به دانش برنامهنویسی نداره و هر کسی از کاربرهای این انجمن میتونه درموردش کمک کنه. :) به نظر من همین فاز اول خودش یه قدم خیلی بزرگه، چون راه رو برای برنامهنویسیها یا بهینهسازیهای احتمالی در آینده باز میکنه. در واقع بدون این فاز اول مرحلههای بعدی نمیتونن آغاز بشن.
همهٔ ما خوشحال میشیم که شما هم در بررسی نرمافزارهای موجود کمک کنید تا بتونیم صفحههایی رو که در ویکی برای هرکدومشون ساختیم کامل کنیم. :)
-
از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویسهای پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن ;D مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفهای نیستم!
سلام! نسبت به تاپیک لطف دارید و ممنون از نظر (و هشدار)تون.
خوشبختانه دستکم فاز اول این پروژه که «بررسی دقیق نرمافزارهای نویسهخوان موجود و مقایسهٔ بینشون» هست، نیازی به دانش برنامهنویسی نداره و هر کسی از کاربرهای این انجمن میتونه درموردش کمک کنه. :) به نظر من همین فاز اول خودش یه قدم خیلی بزرگه، چون راه رو برای برنامهنویسیها یا بهینهسازیهای احتمالی در آینده باز میکنه. در واقع بدون این فاز اول مرحلههای بعدی نمیتونن آغاز بشن.
همهٔ ما خوشحال میشیم که شما هم در بررسی نرمافزارهای موجود کمک کنید تا بتونیم صفحههایی رو که در ویکی برای هرکدومشون ساختیم کامل کنیم. :)
سلام. الان از خود شما که ایجاد کننده تاپیک هستید، چندتا سوال دارم:
۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟
@احسان:
برادر من شلوغش نکن. من که چیزی نگفتم. فقط گفتم تجربه ثابت کرده که پروژههای ایرانی همیشه شکست خورده و ناموفق بودن. من حس میکنم اینم از اوناس ;D
-
۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟
با عرض شرمندگی من به پرسشهای شما در اینجا پاسخ نمیدم. میتونیم در یه تاپیک دیگه دربارهشون حرف بزنیم. اینجا موضوع گفتگو دربارهٔ نرمافزار نویسهخوان فارسیه. قراره با کمک کاربرهای این انجمن، حتی اونهایی که برنامهنویسی بلد نیستند، این کار رو انجام بدیم. از ورود و پیشنهادهای تازه و مشارکت همه هم بهگرمی استقبال میشه. :)
-
۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟
با عرض شرمندگی من به پرسشهای شما در اینجا پاسخ نمیدم. میتونیم در یه تاپیک دیگه دربارهشون حرف بزنیم. اینجا موضوع گفتگو دربارهٔ نرمافزار نویسهخوان فارسیه. قراره با کمک کاربرهای این انجمن، حتی اونهایی که برنامهنویسی بلد نیستند، این کار رو انجام بدیم. از ورود و پیشنهادهای تازه و مشارکت همه هم بهگرمی استقبال میشه. :)
البته پاسخ دادن به این پرسشها مسلما توی پیش رفتن این پروژه کمک خواهد کرد و باعث روشن شدن و واضح شدن اهداف میشه. ;D منم برای اطلاع از وضعیت پروژه این سوالا رو پرسیدم. مریض نیستم که ;)
-
خب بر اساس اطلاعات خیلی خوبی که r_m1232002 داد، به نظر میرسه که پروژهٔ Tesseract خیلی برای کار ما مناسب باشه و حتی شاید بدون برنامهنویسی بتونیم اون رو برای زبون فارسی آماده کنیم.
الان به کسی نیاز داریم که بتونه این برنامه رو نصب کنه و ازش خروجی بگیره. راهنمای نصب اینجاست (https://code.google.com/p/tesseract-ocr/wiki/ReadMe). اگر علاقهمندید، دست به کار بشید!
-
خب منم یکم اظهار نظر کنم اینجا وگرنه حناق میگیرم ;D .
OCR یک نرم افزار بسیار پیچیده است و این تیپ نرم افزار درکش از توان خیلی ها خارجه :). خب من یک راه بهینه تر پیشنهاد میکنم. اونایی که کمی فارسی ساپورت میکنند رو بردارید (البته به شرط آنکه تحت مجوزهای آزاد باشند) و بعد دیتابیسش رو تقویت کنید.
-
خب منم یکم اظهار نظر کنم اینجا وگرنه حناق میگیرم ;D .
OCR یک نرم افزار بسیار پیچیده است و این تیپ نرم افزار درکش از توان خیلی ها خارجه :). خب من یک راه بهینه تر پیشنهاد میکنم. اونایی که کمی فارسی ساپورت میکنند رو بردارید (البته به شرط آنکه تحت مجوزهای آزاد باشند) و بعد دیتابیسش رو تقویت کنید.
بله بله دقیقاً. خیلی پیچیده است. ما هم دنبال اونهایی میگردیم که فارسی رو پشتیبانی کنند. خوشبختانه این Tesseract همین جوریه. و کدش از طرف گوگل پشتیبانی میشه. پیشتر هم بچههای همین انجمن روش کار کرده بودن (پروژهٔ FarsiOCR از طرف reza1615 (http://forum.ubuntu.ir/index.php?action=profile;u=10636)) ولی دیگه خبری ندادن بهمون که به چه نتیجهای رسید. برای همین میخواهیم با کمک هم این رو دوباره راه بندازیمش.
میخواهیم همه چیز رو روی ویکی (http://wiki.ubuntu-ir.org/HighPriorityProjects) ،مستند (http://wiki.ubuntu-ir.org/TesseractOCR) ،کنیم (http://wiki.ubuntu-ir.org/GanjoorOCR) که نتایجش باقی بمونه برای دیگرانی که میخوان ادامه بدن. خوشحال میشیم که شما هم همکاری کنید.
این پروژه در فاز فعلی به دانش برنامهنویسی نیازی نداره!
-
امیر مسعود عزیز، بنده خدای نکرده قصد جسارت نداشتم :).
خب وقتی قرار باشه کارمون تا این حد ساده باشه، فقط کافیه صد نفر داوطلب بیان و متون مختلف رو به نرم افزار بدن و دقتش رو ببرن بالا. Machine Learning اینجور جاها خیلی میتونه موثر باشه :)
-
امیر مسعود عزیز، بنده خدای نکرده قصد جسارت نداشتم :).
خب وقتی قرار باشه کارمون تا این حد ساده باشه، فقط کافیه صد نفر داوطلب بیان و متون مختلف رو به نرم افزار بدن و دقتش رو ببرن بالا. Machine Learning اینجور جاها خیلی میتونه موثر باشه :)
هدف این پروژه هم دقیقاً همین جور کارهاست. فرض کنید که میخواهیم روی Tesseract کار کنیم و فرض کنید بعد از بررسی دوستان معلوم بشه که این نرمافزار واقعاً میتونه نویسههای فارسی رو تشخصی بده. در این صورت فازهای بعدی پروژه به این ترتیب خواهد بود:
اول یکی باید بیاد و سعی کنه روش نصب رو پیدا کنه و برای بقیه توضیح بده.
بعد باید روش نصب رو خیلی تمیز روی ویکی بنویسیم که کاربرهای بیشتری بتونن اون رو نصب کنن و در پروژه مشارکت کنن.
بعد همین آدمهایی که شما گفتید باید همکاری کنن و دقت نرمافزار رو برای فارسی بالا ببرن.
بعد باید یه ppa براش بسازیم که همه بتونن نرمافزاری که بهینه شده رو راحت نصب کنن.
ما هم برای همین اینجا هستیم! :) میخواهیم پلهپله کار رو انجام بدیم.
-
من نرم افزار رو به این شکل نصب کردم
sudo apt-get install tesseract-ocr tesseract-ocr-eng
و اون رو با دو تا تصویر حاوی متن تست کردم.
تصویر شماره یک :
دریافت تصویر شماره یک (http://bayanbox.ir/id/433886516965790121?info)
اجرا:
tesseract tesseract_ocr_test1.png output1
نتیجه اجرا:
The initial versions of Tesseract could only recognize English
language text. Starting with version 2 Tesseract was able to
process English, French, Italian, German, Spanish, Brazilian
Portuguese and Dutch. Starting with version 3 it can
recognize Arabic, English, Bulgarian, Catalan, Czech,
Chinese (Simplified and Traditional), Danish, German
(standard and Fraktur script), Greek, Finnish, French,
Hebrew, Croatian, Hungarian, Indonesian, Italian, Japanese,
Korean, Latvian, Lithuanian, Dutch, Norwegian, Polish,
Portuguese, Romanian, Russian, Slovak (standard and
Fraktur script), Slovenian, Spanish, Serbian, Swedish,
Tagalog, Thai, Turkish, Ukrainian and Vietnamese. Tesseract
can be trained to work in other languages too.
تصویر شماره دو :
دریافت تصویر شماره دو (http://bayanbox.ir/id/1037583809032683435?info)
اجرا:
tesseract tesseract_ocr_test2.png output2
نتیجه اجرا:
The initial versions of Tesseract couid oniy recognize Engiish
language text. Starting with version 2 Tesseract was able to
process English, French, \ta\'\a\'\. German, Spanish, Brazilian
Portuguese and Dutch. starting with version 3 it can
recognize Arabic, English, Bulgarian, Catalan, Czech,
Chinese (Simplified and Traditionai), Danish, German
(standard and Fraktur script), Greek, Finnish, French,
Hebrew, Croatian, Hungarian, Indonesian, |ta|ian,Japanese,
Korean, Latvian, Lithuanian, Dutch, Norwegian, Polish,
Portuguese, Romanian, Russian, Slovak (standard and
Frakturscript), SIovenian,Span'\sh, Serbian, Swedish,
Tagalog, Thai,Turkish, Ukrainian and Vietnamese. Tesseract
can be trained to work in other languages too.
با یه مقدار اعوجاج، یک متن ساده (که دست نویس هم نیست) رو نتونست خوب تشخیص بده.
با پارامترهای مختلف هم تست کردم. مشکل از کجاست؟! :)
-
ای ول! این خیلی خوبه. جالبه که نمیدونم چرا حدس هم نمیزدم که روی مخازن باشه! اون هم آخرین نسخهاش! خیلی ممنون.
من هم سعی میکنم نصبش کنم و امتحانش کنم و ببینم چهجوری کار میکنه. شما تونستید برای زبون عربی هم ازش خروجی بگیرید؟
-
شما تونستید برای زبون عربی هم ازش خروجی بگیرید؟
برای عربی هنوز نه. همین الان گذاشتم که نصب بشه. نتیجهش رو اینجا قرار خواهیم داد... :)
-
نتیجه تست زبان عربی:
متن مورد استفاده از ویکیپدیای عربی (http://ar.wikipedia.org/wiki/%D9%85%D8%B5%D8%AF%D8%B1_%D9%85%D9%81%D8%AA%D9%88%D8%AD) :
من الممكن اختصار تعريف البرمجيات المفتوحة المصدر، بأنها البرمجيات التي تحقق الشروط التالية:
حرية إعادة توزيع البرنامج.
توفر النص المصدري للبرنامج، وحرية توزيع النص المصدري.
حرية إنتاج برمجيات مشتقة أو معدلة من البرنامج الأصلي، وحرية توزيعها تحت نفس الترخيص للبرمجيات الأصلي.
من الممكن أن يمنع الترخيص توزيع النص المصدري للنسخ المعدلة على شرط السماح بتوزيع ملفات التي تحتوي على التعديلات بجانب النص الأصلي.
عدم وجود أي تمييز في الترخيص لأي مجموعة أو أشخاص.
عدم وجود أي تحديد لمجالات استخدام البرنامج.
الحقوق الموجودة في الترخيص يجب أن تعطى لكل من يتم توزيع البرنامج إليه.
وهذه الميزات الأساسية لأي ترخيص من الممكن أن يطلق عليه ترخيص مفتوح المصدر.
تصویر شماره یک :
دریافت تصویر شماره یک (http://bayanbox.ir/id/312099435998738081?info)
اجرا:
tesseract tesseract_ocr_test3.png output3 -l ara
نتیجه اجرا:
من اا كن ابن .. اوتلو( الهوسات اا ٠هه حق اا وته بأنها الهوسات التي تحقق ااث وط
التالية ن
حرية اعادة توزيع اليو..
توفوالنص العصبى للهوتامج، وحرية توزيع النص السي
حرية إنتاج برمجيات مشتقة أو معدلة من اليو. الأصلي، وحرية توزيعها تحث نغم
الترخيص للبرمجيات الأصلي.
من الممكن أر. يعنى الترخيص توزيع النص العصبى للنسخ المعدلة علي شوط السماح بتوزيع
ملغات التي تحتهم علي التعديلات بجانب النص الأصلي.
عدم وجود لي تعئطفي الترخيص لأي مجموعة أو أشخاص.
عدم وجود لي تحديد لمجالات استخدام اليو..
الحقوق الموجودة في الترخيص يجب أر. تعطي لكل من يتم توزيع اليو. إليه.
وهذه الميزات الأمامية لأي ترخيص من الممكن أر. يطلق عليه ترخيص مغتوح السد
تصویر شماره دو (با مقداری اعوجاج) :
دریافت تصویر شماره دو (http://bayanbox.ir/id/832745808726632898?info)
اجرا:
tesseract tesseract_ocr_test4.png output4 -l ara
نتیجه اجرا:
من السكن لعتمارتعزينى البرمجيات العغتدحة الهصدو، يأنهل للرهج٠هات التي قحقح للشروط
التالية إ
حرية إعادة هدوئنا الرهير
توفو الة العصي للهدنامج، ءحرجة تور( للنص المجدة
حرية إنتاج برمجيات مش٠نهة أو معدلة من اللبي. ملأصلي، وحرية توزيعها تاي وقس
التوعيص لليدمجياتالأصر٠
من السكن ني يهتم الترمس توزيع النص السري للنسخ السلة على شوط الساع بتدو٧
هلغاهت التي تحتوي علي التعديلات بجانب للنص الأصلي.
عدم وجود أي تمييز طي الترخيص لأي مجموعة أو أعخاص
عدم وجودا تحديد لعجا»ت اسعدني البرنامج.
الحقوق ال-ة ا للترخيص يجب آن تعهى لكل من يتهم توزع اليرناهج الند
وهذه للعيذات الأساسية لأني )رخيص من المعد آن يل عليه ترخيص هغتدح للسد
-
ردیابی نوشته های فارسی در تصاویر: http://press.jamejamonline.ir/?year=1392&Month=6&Day=9 ورق بنید تا برسید به صفحه ۱۲ روزنامه
-
حالا تو فکر کسی از دوستان هست که پشتیبانی از زبان فارسی و حروفی که با عربی تفاوت داره مثل (گ پ ژ چ وحتی ی و ک عربی) رو به بگونجونه ! فکر نکنم کار سختی باشه با توجه به این که عربی توش هست !
-
دوستان این قضیه ول شد یا ادامه داره؟
-
دوستان این قضیه ول شد یا ادامه داره؟
من ولش کردم. و شرمندهام. ولی میتونیم ادامهاش بدیم، به شرط این که خود شما همت کنی، یا به طور مؤثری من رو تشویق کنی!
-
دوستان این قضیه ول شد یا ادامه داره؟
من ولش کردم. و شرمندهام. ولی میتونیم ادامهاش بدیم، به شرط این که خود شما همت کنی، یا به طور مؤثری من رو تشویق کنی!
من برنامه نویسی بلد نیستم. ولی تا ۲ یا ۳ ماه دیگه که برای سربازی اعزام بشم، وقت دارم.
تا اونجایی که من اطلاع دارم، قرار بود هستهی یک یبرنامه رو که بر اساس هوش مصنوعی بود آموزش بدین. ولی من درست از مراحل کار سر در نیاوردم.
اأان هم اگه کاری باشه که من بتونم انجام میدم.