انجمن‌های فارسی اوبونتو

لطفاً به انجمن‌ها وارد شده و یا جهت ورود ثبت‌نام نمائید

لطفاً جهت ورود نام کاربری و رمز عبورتان را وارد نمائید

نویسنده موضوع: نویسه‌خوان (OCR) برای زبان فارسی - یک پروژهٔ گروهی  (دفعات بازدید: 12347 بار)

0 کاربر و 3 مهمان درحال مشاهده موضوع.

آفلاین علی هردان

  • Full Member
  • *
  • ارسال: 243
  • جنسیت : پسر
از تاپیک خوشم اومد!
نمیخوام نا امیدتون کنم اما، تجربه تا الان ثابت کرده که توی کشور ما، برنامه نویس‌های پرکار و پرتلاش واقعا کم هستن. اسم هرچی پروژه اومده تا الان در حد حرف باقی مونده و کسی توسعش نداده. حقیقتش من تا الان هرچی پروژه ایرانی دیدم، نیمه کاره رها شده بوده یا اینکه اصلا به جایی نرسیده بوده!
اصلا خوشبین نیستم که این پروژه به جایی برسه.
درضمن، امیدوارم متوجه باشید که از انجمن اوبونتوی فارسی توسعه دهندگان خوبی گیرتون نمیاد. آخه اکثر اعضای اینجا برخلاف انتظار، برنامه نویس و توسعه دهنده نیستن  ;D مثل خود من. البته من تا حدودی بلدم زبون پاسکال رو و استفاده میکنم. ولی حرفه‌ای نیستم!
سلام! نسبت به تاپیک لطف دارید و ممنون از نظر (و هشدار)تون.

خوشبختانه دست‌کم فاز اول این پروژه که «بررسی دقیق نرم‌افزارهای نویسه‌خوان موجود و مقایسهٔ بین‌شون» هست، نیازی به دانش برنامه‌نویسی نداره و هر کسی از کاربرهای این انجمن می‌تونه درموردش کمک کنه. :) به نظر من همین فاز اول خودش یه قدم خیلی بزرگه، چون راه رو برای برنامه‌نویسی‌ها یا بهینه‌سازی‌های احتمالی در آینده باز می‌کنه. در واقع بدون این فاز اول مرحله‌های بعدی نمی‌تونن آغاز بشن.

همهٔ ما خوشحال می‌شیم که شما هم در بررسی نرم‌افزارهای موجود کمک کنید تا بتونیم صفحه‌هایی رو که در ویکی برای هرکدومشون ساختیم کامل کنیم. :)
سلام. الان از خود شما که ایجاد کننده تاپیک هستید، چندتا سوال دارم:

۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟

@احسان:
برادر من شلوغش نکن. من که چیزی نگفتم. فقط گفتم تجربه ثابت کرده که پروژه‌های ایرانی همیشه شکست خورده و ناموفق بودن. من حس میکنم اینم از اوناس  ;D

آفلاین امیرمسعود

  • Sr. Member
  • *
  • ارسال: 373
  • جنسیت : پسر
۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟

با عرض شرمندگی من به پرسش‌های شما در این‌جا پاسخ نمی‌دم. می‌تونیم در یه تاپیک دیگه درباره‌شون حرف بزنیم. این‌جا موضوع گفتگو دربارهٔ نرم‌افزار نویسه‌خوان فارسیه. قراره با کمک کاربرهای این انجمن، حتی اون‌هایی که برنامه‌نویسی بلد نیستند، این کار رو انجام بدیم. از ورود و پیشنهادهای تازه و مشارکت همه هم به‌گرمی استقبال می‌شه.  :)

آفلاین علی هردان

  • Full Member
  • *
  • ارسال: 243
  • جنسیت : پسر
۱- در چه حد برنامه نویسی رو بلدید؟
۲- در چه حد برنامه نویسی کردید؟
۳- چه مقدار وقت آزاد دارید؟
۴- چند درصد احتمال میدید که این پروژه به نتیجه برسه؟

با عرض شرمندگی من به پرسش‌های شما در این‌جا پاسخ نمی‌دم. می‌تونیم در یه تاپیک دیگه درباره‌شون حرف بزنیم. این‌جا موضوع گفتگو دربارهٔ نرم‌افزار نویسه‌خوان فارسیه. قراره با کمک کاربرهای این انجمن، حتی اون‌هایی که برنامه‌نویسی بلد نیستند، این کار رو انجام بدیم. از ورود و پیشنهادهای تازه و مشارکت همه هم به‌گرمی استقبال می‌شه.  :)
البته پاسخ دادن به این پرسش‌ها مسلما توی پیش رفتن این پروژه کمک خواهد کرد و باعث روشن شدن و واضح شدن اهداف میشه.  ;D منم برای اطلاع از وضعیت پروژه این سوالا رو پرسیدم. مریض نیستم که  ;)

آفلاین امیرمسعود

  • Sr. Member
  • *
  • ارسال: 373
  • جنسیت : پسر
خب بر اساس اطلاعات خیلی خوبی که r_m1232002 داد، به نظر می‌رسه که پروژهٔ Tesseract خیلی برای کار ما مناسب باشه و حتی شاید بدون برنامه‌نویسی بتونیم اون رو برای زبون فارسی آماده کنیم.

الان به کسی نیاز داریم که بتونه این برنامه رو نصب کنه و ازش خروجی بگیره. راهنمای نصب این‌جاست. اگر علاقه‌مندید، دست به کار بشید!

آفلاین MohammadH

  • Jr. Member
  • *
  • ارسال: 33
خب منم یکم اظهار نظر کنم اینجا وگرنه حناق میگیرم ;D .

OCR یک نرم افزار بسیار پیچیده است و این تیپ نرم افزار درکش از توان خیلی ها خارجه :). خب من یک راه بهینه تر پیشنهاد میکنم. اونایی که کمی فارسی ساپورت میکنند رو بردارید (البته به شرط آنکه تحت مجوزهای آزاد باشند) و بعد دیتابیسش رو تقویت کنید.

آفلاین امیرمسعود

  • Sr. Member
  • *
  • ارسال: 373
  • جنسیت : پسر
خب منم یکم اظهار نظر کنم اینجا وگرنه حناق میگیرم ;D .

OCR یک نرم افزار بسیار پیچیده است و این تیپ نرم افزار درکش از توان خیلی ها خارجه :). خب من یک راه بهینه تر پیشنهاد میکنم. اونایی که کمی فارسی ساپورت میکنند رو بردارید (البته به شرط آنکه تحت مجوزهای آزاد باشند) و بعد دیتابیسش رو تقویت کنید.
بله بله دقیقاً. خیلی پیچیده است. ما هم دنبال اون‌هایی می‌گردیم که فارسی رو پشتیبانی کنند. خوشبختانه این Tesseract همین جوریه. و کدش از طرف گوگل پشتیبانی می‌شه. پیش‌تر هم بچه‌های همین انجمن روش کار کرده بودن (پروژهٔ FarsiOCR از طرف reza1615) ولی دیگه خبری ندادن بهمون که به چه نتیجه‌ای رسید. برای همین می‌خواهیم با کمک هم این رو دوباره راه بندازیمش.

می‌خواهیم همه چیز رو روی ویکی ،مستند ،کنیم که نتایجش باقی بمونه برای دیگرانی که می‌خوان ادامه بدن. خوشحال می‌شیم که شما هم همکاری کنید.

این پروژه در فاز فعلی به دانش برنامه‌نویسی نیازی نداره!

آفلاین MohammadH

  • Jr. Member
  • *
  • ارسال: 33
امیر مسعود عزیز، بنده خدای نکرده قصد جسارت نداشتم :).

خب وقتی قرار باشه کارمون تا این حد ساده باشه، فقط کافیه صد نفر داوطلب بیان و متون مختلف رو به نرم افزار بدن و دقتش رو ببرن بالا. Machine Learning اینجور جاها خیلی میتونه موثر باشه :)

آفلاین امیرمسعود

  • Sr. Member
  • *
  • ارسال: 373
  • جنسیت : پسر
امیر مسعود عزیز، بنده خدای نکرده قصد جسارت نداشتم :).

خب وقتی قرار باشه کارمون تا این حد ساده باشه، فقط کافیه صد نفر داوطلب بیان و متون مختلف رو به نرم افزار بدن و دقتش رو ببرن بالا. Machine Learning اینجور جاها خیلی میتونه موثر باشه :)
هدف این پروژه هم دقیقاً همین جور کارهاست. فرض کنید که می‌خواهیم روی Tesseract کار کنیم و فرض کنید بعد از بررسی دوستان معلوم بشه که این نرم‌افزار واقعاً می‌تونه نویسه‌های فارسی رو تشخصی بده. در این صورت فازهای  بعدی پروژه به این ترتیب خواهد بود:

اول یکی باید بیاد و سعی کنه روش نصب رو پیدا کنه و برای بقیه توضیح بده.
بعد باید روش نصب رو خیلی تمیز روی ویکی بنویسیم که کاربرهای بیشتری بتونن اون رو نصب کنن و در پروژه مشارکت کنن.
بعد همین آدم‌هایی که شما گفتید باید همکاری کنن و دقت نرم‌افزار رو برای فارسی بالا ببرن.
بعد باید یه ppa براش بسازیم که همه بتونن نرم‌افزاری که بهینه شده رو راحت نصب کنن.

ما هم برای همین اینجا هستیم! :) می‌خواهیم پله‌پله کار رو انجام بدیم.

آفلاین vandu

  • Hero Member
  • *
  • ارسال: 741
  • جنسیت : پسر
من نرم افزار رو به این شکل نصب کردم
sudo apt-get install tesseract-ocr tesseract-ocr-eng
و اون رو با دو تا تصویر حاوی متن تست کردم.

تصویر شماره یک :
دریافت تصویر شماره یک

اجرا:
tesseract tesseract_ocr_test1.png output1
نتیجه اجرا:
The initial versions of Tesseract could only recognize English
language text. Starting with version 2 Tesseract was able to
process English, French, Italian, German, Spanish, Brazilian
Portuguese and Dutch. Starting with version 3 it can
recognize Arabic, English, Bulgarian, Catalan, Czech,
Chinese (Simplified and Traditional), Danish, German
(standard and Fraktur script), Greek, Finnish, French,
Hebrew, Croatian, Hungarian, Indonesian, Italian, Japanese,
Korean, Latvian, Lithuanian, Dutch, Norwegian, Polish,
Portuguese, Romanian, Russian, Slovak (standard and
Fraktur script), Slovenian, Spanish, Serbian, Swedish,
Tagalog, Thai, Turkish, Ukrainian and Vietnamese. Tesseract
can be trained to work in other languages too.

تصویر شماره دو :
دریافت تصویر شماره دو

اجرا:
tesseract tesseract_ocr_test2.png output2
نتیجه اجرا:
The initial versions of Tesseract couid oniy recognize Engiish
language text. Starting with version 2 Tesseract was able to
process English, French, \ta\'\a\'\. German, Spanish, Brazilian
Portuguese and Dutch. starting with version 3 it can
recognize Arabic, English, Bulgarian, Catalan, Czech,
Chinese (Simplified and Traditionai), Danish, German
(standard and Fraktur script), Greek, Finnish, French,
Hebrew, Croatian, Hungarian, Indonesian, |ta|ian,Japanese,
Korean, Latvian, Lithuanian, Dutch, Norwegian, Polish,
Portuguese, Romanian, Russian, Slovak (standard and
Frakturscript), SIovenian,Span'\sh, Serbian, Swedish,
Tagalog, Thai,Turkish, Ukrainian and Vietnamese. Tesseract
can be trained to work in other languages too.

با یه مقدار اعوجاج، یک متن ساده (که دست نویس هم نیست) رو نتونست خوب تشخیص بده.
با پارامترهای مختلف هم تست کردم. مشکل از کجاست؟!  :)
« آخرین ویرایش: 28 تیر 1392، 05:39 ب‌ظ توسط vandu »
Nothing is particularly hard if you divide it into small jobs

Henry Ford

آفلاین امیرمسعود

  • Sr. Member
  • *
  • ارسال: 373
  • جنسیت : پسر
ای ول! این خیلی خوبه. جالبه که نمی‌دونم چرا حدس هم نمی‌زدم که روی مخازن باشه! اون هم آخرین نسخه‌اش! خیلی ممنون.

من هم سعی می‌کنم نصبش کنم و امتحانش کنم و ببینم چه‌جوری کار می‌کنه. شما تونستید برای زبون عربی هم ازش خروجی بگیرید؟

آفلاین vandu

  • Hero Member
  • *
  • ارسال: 741
  • جنسیت : پسر
شما تونستید برای زبون عربی هم ازش خروجی بگیرید؟
برای عربی هنوز نه. همین الان گذاشتم که نصب بشه. نتیجه‌ش رو اینجا قرار خواهیم داد... :)
Nothing is particularly hard if you divide it into small jobs

Henry Ford

آفلاین vandu

  • Hero Member
  • *
  • ارسال: 741
  • جنسیت : پسر
نتیجه تست زبان عربی:

متن مورد استفاده از ویکی‌پدیای عربی :
نقل‌قول
من الممكن اختصار تعريف البرمجيات المفتوحة المصدر، بأنها البرمجيات التي تحقق الشروط التالية:

    حرية إعادة توزيع البرنامج.
    توفر النص المصدري للبرنامج، وحرية توزيع النص المصدري.
    حرية إنتاج برمجيات مشتقة أو معدلة من البرنامج الأصلي، وحرية توزيعها تحت نفس الترخيص للبرمجيات الأصلي.
    من الممكن أن يمنع الترخيص توزيع النص المصدري للنسخ المعدلة على شرط السماح بتوزيع ملفات التي تحتوي على التعديلات بجانب النص الأصلي.
    عدم وجود أي تمييز في الترخيص لأي مجموعة أو أشخاص.
    عدم وجود أي تحديد لمجالات استخدام البرنامج.
    الحقوق الموجودة في الترخيص يجب أن تعطى لكل من يتم توزيع البرنامج إليه.

وهذه الميزات الأساسية لأي ترخيص من الممكن أن يطلق عليه ترخيص مفتوح المصدر.

تصویر شماره یک :
دریافت تصویر شماره یک
اجرا:
tesseract tesseract_ocr_test3.png output3 -l ara
نتیجه اجرا:
نقل‌قول
من اا كن ابن .. اوتلو( الهوسات اا ٠هه حق اا وته بأنها الهوسات التي تحقق ااث وط
التالية ن

حرية اعادة توزيع اليو..

توفوالنص العصبى للهوتامج، وحرية توزيع النص السي

حرية إنتاج برمجيات مشتقة أو معدلة من اليو. الأصلي، وحرية توزيعها تحث نغم
الترخيص للبرمجيات الأصلي.

من الممكن أر. يعنى الترخيص توزيع النص العصبى للنسخ المعدلة علي شوط السماح بتوزيع
ملغات التي تحتهم علي التعديلات بجانب النص الأصلي.

عدم وجود لي تعئطفي الترخيص لأي مجموعة أو أشخاص.

عدم وجود لي تحديد لمجالات استخدام اليو..

الحقوق الموجودة في الترخيص يجب أر. تعطي لكل من يتم توزيع اليو. إليه.

وهذه الميزات الأمامية لأي ترخيص من الممكن أر. يطلق عليه ترخيص مغتوح السد


تصویر شماره دو (با مقداری اعوجاج) :
دریافت تصویر شماره دو
اجرا:
tesseract tesseract_ocr_test4.png output4 -l ara
نتیجه اجرا:
نقل‌قول
من السكن لعتمارتعزينى البرمجيات العغتدحة الهصدو، يأنهل للرهج٠هات التي قحقح للشروط
التالية إ

حرية إعادة هدوئنا الرهير

توفو الة العصي للهدنامج، ءحرجة تور( للنص المجدة

حرية إنتاج برمجيات مش٠نهة أو معدلة من اللبي. ملأصلي، وحرية توزيعها تاي وقس
التوعيص لليدمجياتالأصر٠

من السكن ني يهتم الترمس توزيع النص السري للنسخ السلة على شوط الساع بتدو٧
هلغاهت التي تحتوي علي التعديلات بجانب للنص الأصلي.

عدم وجود أي تمييز طي الترخيص لأي مجموعة أو أعخاص

عدم وجودا تحديد لعجا»ت اسعدني البرنامج.

الحقوق ال-ة ا للترخيص يجب آن تعهى لكل من يتهم توزع اليرناهج الند

وهذه للعيذات الأساسية لأني )رخيص من المعد آن يل عليه ترخيص هغتدح للسد
Nothing is particularly hard if you divide it into small jobs

Henry Ford

آفلاین هامد

  • Full Member
  • *
  • ارسال: 156
  • جنسیت : پسر
ردیابی نوشته های فارسی در تصاویر: http://press.jamejamonline.ir/?year=1392&Month=6&Day=9 ورق بنید تا برسید به صفحه ۱۲ روزنامه

آفلاین ح.م

  • High Hero Member
  • *
  • ارسال: 1274
  • جنسیت : پسر
  • دین بدون خرد مانند خرد بدون دین بی معناست
حالا تو فکر کسی از دوستان هست که پشتیبانی از زبان فارسی و حروفی که با عربی تفاوت داره مثل (گ پ ژ چ وحتی ی و ک عربی) رو به بگونجونه ! فکر نکنم کار سختی باشه با توجه به این که عربی توش هست !
عاقبت انحصار شکست و سرانجام کمونیسم گنویی دیکتاتوریست !
الگوی متن باز از هر جهت بر الگوی نرم افزار آزاد رجحان دارد
وَسَيَعْلَمُ الَّذِينَ ظَلَمُوا أَيَّ مُنْقَلَبٍ يَنْقَلِبُونَ

آفلاین بابک طور

  • Hero Member
  • *
  • ارسال: 800
  • جنسیت : پسر
دوستان این قضیه ول شد یا ادامه داره؟