انجمنهای فارسی اوبونتو
خبرها => لینکهای خبری => نویسنده: افشین در 25 فروردین 1399، 09:07 قظ
-
سلام.
مدتی است که لغتنامهٔ متنبازِ «واژهدان» با جدیت در حال توسعه و افزایش امکانات خود است. این لغتنامه که دربرگیرندهٔ «فرهنگ جامع واژگان مترادف و متضاد فارسی» و همچنین «فرهنگ طیفیِ جمشید فراروی» است، متأسفانه نسخهٔ لینوکسی ندارد و برنامهنویس آن هم فراغتی برای انتشار نسخهٔ سازگار با لینوکس ندارند.
من این موضوع را اینجا مطرح کردم بهامید اینکه از بین برنامهنویسان علاقهمندِ فارسی کسی آستین همت بالا بزند و این لغتنامهٔ واقعاً مفید را از انحصار ویندوز خارج کند انشاءالله.
لینک پروژه:
https://github.com/kokabi1365/Vajehdan
-
درود. برای این منظور، نرمافزارهای ازاد مختلفی وجود داره. از جمله Artha (http://artha.sourceforge.net/wiki/index.php/Home) که تقریباً همه با قالب استاندارد وردنت (http://wordnet.princeton.edu) کار میکنن. اگه گنجینهٔ این پروژه در قالب استاندارد وردنت قرار بگیره، خیلی راحت میشه ازش استفاده کرد.
-
ضمن تشکر از توجهتان به موضوع، پاسخِ شما برای برنامهنویسِ این لغتنامه فرستاده شد.
لینک مبحث در گیتهابِ این برنامه:
https://github.com/kokabi1365/Vajehdan/issues/21
-
یه نگاهی به لیست لغتهاش انداختم به نظر خیلی کار راحتی نیست تبدیلش به wordnet.
حداقل برا من نوشتن یه برنامه مشابه راحت تره تا تبدیل کردنش : ))
البته من کد رو نخوندم شاید تغییراتی رو این لیست اعمال میکنه و نسخه تغییر داده شده رو بشه خیلی راحت تبدیل کرد.
-
منظورتان این است که بدون تبدیلشدن پایگاهِ دادهاش هم میتوانید این برنامه را بنویسید؟
-
تبدیل بشه که دیگه نیازی نیست برنامهای برا استفاده ازش نوشته بشه. Artha باید بتونه ازش استفاده کنه.
-
ظاهراً من منظورم را روشن بیان نکردهام.
مقصودم این بود که فرض کنیم پایگاهِ دادهٔ این لغتنامه قابل تبدیلشدن به فرمتِ مدِنظر مانباشد یا دستکم تبدیلکردنش اصلاً آسان نباشد.
سؤالم این بود که آیا با همین پایگاهِ دادهُ فعلی، باز هم میتوانید نسخهٔ لینوکسیاش را بنویسید؟
-
بله، شما میتونید همین الان هم به وسیله چند خط اسکریپت ساده کارتون رو راه بندازید.
پایگاهداده فعلی صرفا متن هست که میشه به راحتی از ابزار ابتدایی پردازش متن برای جستجو توش استفاده کرد.
ولی اگر یک جستجوی منطقیتر میخواید داشته باشید قطعا باید یک تغییراتی در ساختار پایگاهداده رخ بده و بیشتر از چند خط کد نوشته بشه.
حداقل به نظر من. چون الان فرضا مترادف و متضاد لغات تو یک خط با هم اومدن.
من نسخه اصلی داده رو هم چک کردم دارم فکر میکنم به راه حلهای منطقی.
چون این ۲ مسئله پیوسته به هم هست. چه طور داده رو تغییر بدیم به شکل مورد نظر. و این شکل مورد نظر چی باشه که به برنامه مورد نظرمون مرتبط هست.
فرضا یه چیز استاندارد مثل wordnet که دانیال گفت اگر عملی بشه تقریبا مسئله دیگه حل شده است.
-
راه برای دور زدن مشکل زیاده. ولی کار اصولی و تروتمیز، همون تبدیلش به قالب استاندارد وردنته.
-
پاسخِ برنامهنویسِ «واژهدان»:
بررسی میکنم، اگر امکان تبدیل دیتابیس متنی در زمان معقولی بود، حتماً در اولین فرصت، این کار را میکنم.
-
آخرین پاسخِ برنامهنویس این لغتنامه:
وردنت رو بررسی کردم. تا جایی که متوجه شدم، این پایگاه داده، بیشتر برای یافتن رابطۀ معنایی کلمات و پردازش زبان طبیعی استفاده میشه. از این جهت، امکان تبدیل پایگاۀ داده متنی واژهدان به این قالب وجود نداره؛ چون برای این کار لازمه چند صد هزار کلمه در دستهبندی مناسب به این پایگاه داده معرفی بشه و اساساً نیازی به این قالب نیست. من نمیدونم چرا آقا دانیال، برای ساخت نسخۀ لینوکسی برنامه همچین قالبی رو درخواست کردند!
با همین فرمت متنی هم میتوان از دیتابیس برنامه استفاده کرد. نیازی به جداسازی کلمات مترادف و متضاد نیست؛ همه کلمات با یک الگو و حائل مناسب (علامت ،) از یکدیگر جدا شدهاند. من قبلاً با لینوکس کار کردم، بسیاری از فرهنگها بر مبنای وردنت نیستند. اساساً مشکل اصلی، پیادهسازی برنامه در لینوکس است، باقی کار پارز کردن یک دیتابیس بسیار سادۀ متنی است. دیتابیس، دیتابیس است، متنباز و غیرمتنباز ندارد. یک نفر آستین بالا بزند، من دیتابیس را به هر فرمتی (Json، SQL, No SQL و ...) تحویل میدهم. مهم الگو داشتن دادهها است که دیتابیس متنی واژهدان دارد.
پینوشت:
فرمت استاندارد وردنت نیازمند تفکیک صفات، افعال و اسامی و ... است و متأسفانه چون فرهنگ واژهدان به صورت متنی از یک فایل ورد و فاقد چنین تفکیکی استخراج شده، به سختی میشه به فرمت وردنت تبدیل کرد. حتی به نظرم اگه تبدیل هم بشه، تناسبی با ماهیت Artha و نرمافزارهای مبتنی بر وردنت نداره. دلیلش اینه که واژهدان صرفاً در میان چند هزار سطر جستجو میکنه و سطرهایی که شامل کلمه هستند رو نمایش میده. همین الان هم کاربران لینوکس با کپی دیتابیس متنی واژهدان به یک فایل متنی در لینوکس و جستجو در اون فایل میتونن کار خودشون رو راه بندازن. تنها مشکلش اینه که سهولت و کاربرپسندی یک واسط کاربری رو از دست میدن. ساخت یک واسط کاربری برای جستجو داخل یک فایل متنی، اصلاً کار سختی نیست. کافیه یک توسعهدهندۀ لینوکسی یکی دو هفته وقت بزاره.
-
آخرین پاسخِ برنامهنویس این لغتنامه:
وردنت رو بررسی کردم. تا جایی که متوجه شدم، این پایگاه داده، بیشتر برای یافتن رابطۀ معنایی کلمات و پردازش زبان طبیعی استفاده میشه. از این جهت، امکان تبدیل پایگاۀ داده متنی واژهدان به این قالب وجود نداره؛ چون برای این کار لازمه چند صد هزار کلمه در دستهبندی مناسب به این پایگاه داده معرفی بشه و اساساً نیازی به این قالب نیست. من نمیدونم چرا آقا دانیال، برای ساخت نسخۀ لینوکسی برنامه همچین قالبی رو درخواست کردند!
با همین فرمت متنی هم میتوان از دیتابیس برنامه استفاده کرد. نیازی به جداسازی کلمات مترادف و متضاد نیست؛ همه کلمات با یک الگو و حائل مناسب (علامت ،) از یکدیگر جدا شدهاند. من قبلاً با لینوکس کار کردم، بسیاری از فرهنگها بر مبنای وردنت نیستند. اساساً مشکل اصلی، پیادهسازی برنامه در لینوکس است، باقی کار پارز کردن یک دیتابیس بسیار سادۀ متنی است. دیتابیس، دیتابیس است، متنباز و غیرمتنباز ندارد. یک نفر آستین بالا بزند، من دیتابیس را به هر فرمتی (Json، SQL, No SQL و ...) تحویل میدهم. مهم الگو داشتن دادهها است که دیتابیس متنی واژهدان دارد.
پینوشت:
فرمت استاندارد وردنت نیازمند تفکیک صفات، افعال و اسامی و ... است و متأسفانه چون فرهنگ واژهدان به صورت متنی از یک فایل ورد و فاقد چنین تفکیکی استخراج شده، به سختی میشه به فرمت وردنت تبدیل کرد. حتی به نظرم اگه تبدیل هم بشه، تناسبی با ماهیت Artha و نرمافزارهای مبتنی بر وردنت نداره. دلیلش اینه که واژهدان صرفاً در میان چند هزار سطر جستجو میکنه و سطرهایی که شامل کلمه هستند رو نمایش میده. همین الان هم کاربران لینوکس با کپی دیتابیس متنی واژهدان به یک فایل متنی در لینوکس و جستجو در اون فایل میتونن کار خودشون رو راه بندازن. تنها مشکلش اینه که سهولت و کاربرپسندی یک واسط کاربری رو از دست میدن. ساخت یک واسط کاربری برای جستجو داخل یک فایل متنی، اصلاً کار سختی نیست. کافیه یک توسعهدهندۀ لینوکسی یکی دو هفته وقت بزاره.
کس تونست اخرش لینوکسشو بده چون نوشتید راحته ;D