سلام مجدد (:
با این که انجمن این هشدار رو داد:
هشدار: این موضوع طی 120 روز اخیر هیچ ارسالی نداشته است.
با این شرایط آیا از ارسال پاسخ اطمینان دارید؟.
و خب قبلتر هم گفته بودم:
این پروژه فعلا به حالت Hold درآمده، تا بعدتر در موردش یه بازنگری بکنم.
حالا وقتشه که بگم بازنگریهایی که لازم بود رو تا حد زیادی در این قضیه انجام دادم. یکم بحث پیچیدهتر از چیزی که فکر میکردم شد، ولی تا همینجایی که پیش رفته هم واقعا معجزه بوده برای خودش (:
حالا در بازنگریها، یک سری مشکلاتی که خیلی میتونن موثر باشند رو جدا کردم که در موردش حرف بزنم:
۱. حروف فارسی، به هم میچسبند (حالا یا بدون هیچ فاصلهای یا با نیمفاصله) و این خودش یک مشکله در جداسازی حروف (در فارسی حروف با نقطه از هم جدا میشن. این خودش یکم باز قضیه رو پیچیده کرد ((
۲. حروف شبیه به هم خیلی داریم. مثلا ج چ ح خ و تمیز دادن بین اینها یکم سخته، مگر این که یک سری برنامه مکمل برای OCR هم ساخته بشه، که بتونه نزدیکترین کلمات به کلمات حدسزده شده رو، پیشنهاد بده. البته این رو بگم که این مشکل خاص رو با OCR انگلیسی هم دیدم که افراد دارند و اگر از یه حدی بیشتر نباشه فکر نکنم خیلی مشکل بغرنج و حادی باشه. یعنی اگر «اکرم» رو «رامین» تشخیص نده، اوکیه. ولی خب ممکنه «اکرم» رو «اگرم» تشخیص بده، یا حتی «چنار» رو «حنار» و اینها با یک سری ویرایش ساده توسط خود کاربران، درست میشن.
۳. مدل پایهای که براش انتخاب شده، یکم زیادی کار میبره، ولی خب بهترین مدل موجود تشخیص شیء از نظر منه (دوستان متخصص و استاد، نظر منه، نه یک فکت علمی
) و این خودش روند توسعه رو کمی کُند کرده.
همین دیگه، فعلا تا همینجای قضیه درآمده و امیدوارم بتونه بهتر هم بشه.
راستی برای تشخیص نسخه پزشک و تشخیص دستخط هم پیشنهادهایی داشتم. شما هم اگر پیشنهادی دارید، ممنون میشم همینجا بگید.