نویسنده موضوع: نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان» (دفعات بازدید: 3329 بار)

افشین · « : 25 فروردین 1399، 09:07 ق‌ظ »

سلام.

مدتی است که لغت‌نامهٔ متن‌بازِ «واژه‌دان» با جدیت در حال توسعه و افزایش امکانات خود است. این لغت‌نامه که دربرگیرندهٔ «فرهنگ جامع واژگان مترادف و متضاد فارسی» و همچنین «فرهنگ طیفیِ جمشید فراروی» است، متأسفانه نسخهٔ لینوکسی ندارد و برنامه‌نویس آن هم فراغتی برای انتشار نسخهٔ سازگار با لینوکس ندارند.

من این موضوع را اینجا مطرح کردم به‌امید اینکه از بین برنامه‌نویسان علاقه‌مندِ فارسی کسی آستین همت بالا بزند و این لغت‌نامهٔ واقعاً مفید را از انحصار ویندوز خارج کند ان‌شاءالله.

لینک پروژه:
https://github.com/kokabi1365/Vajehdan

دانیال بهزادی

درود. برای این منظور، نرم‌افزارهای ازاد مختلفی وجود داره. از جمله Artha که تقریباً همه با قالب استاندارد وردنت کار می‌کنن. اگه گنجینهٔ این پروژه در قالب استاندارد وردنت قرار بگیره، خیلی راحت می‌شه ازش استفاده کرد.

افشین

ضمن تشکر از توجهتان به موضوع، پاسخِ شما برای برنامه‌نویسِ این لغت‌نامه فرستاده شد.

لینک مبحث در گیت‌هابِ این برنامه:

https://github.com/kokabi1365/Vajehdan/issues/21

M!lad

یه نگاهی به لیست لغت‌هاش انداختم به نظر خیلی کار راحتی نیست تبدیلش به wordnet.

حداقل برا من نوشتن یه برنامه مشابه راحت تره تا تبدیل کردنش : ))

البته من کد رو نخوندم شاید تغییراتی رو این لیست اعمال می‌کنه و نسخه تغییر داده شده رو بشه خیلی راحت تبدیل کرد.

افشین

منظورتان این است که بدون تبدیل‌شدن پایگاهِ داده‌اش هم می‌توانید این برنامه را بنویسید؟

M!lad

تبدیل بشه که دیگه نیازی نیست برنامه‌ای برا استفاده ازش نوشته بشه. Artha باید بتونه ازش استفاده کنه.

افشین

ظاهراً من منظورم را روشن بیان نکرده‌ام.
مقصودم این بود که فرض کنیم پایگاهِ دادهٔ این لغت‌نامه قابل تبدیل‌شدن به فرمتِ مدِنظر مانباشد یا دست‌کم تبدیل‌کردنش اصلاً آسان نباشد.

سؤالم این بود که آیا با همین پایگاهِ دادهُ فعلی، باز هم می‌توانید نسخهٔ لینوکسی‌اش را بنویسید؟

M!lad

بله، شما می‌تونید همین الان هم به وسیله چند خط اسکریپت ساده کارتون رو راه بندازید.
پایگاه‌داده فعلی صرفا متن هست که میشه به راحتی از ابزار ابتدایی پردازش متن برای جستجو توش استفاده کرد.

ولی اگر یک جستجوی منطقی‌تر می‌خواید داشته باشید قطعا باید یک تغییراتی در ساختار پایگاه‌داده رخ بده و بیشتر از چند خط کد نوشته بشه.
حداقل به نظر من. چون الان فرضا مترادف و متضاد لغات تو یک خط با هم اومدن.

من نسخه اصلی داده‌ رو هم چک کردم دارم فکر می‌کنم به راه حل‌های منطقی.

چون این ۲ مسئله پیوسته به هم هست. چه طور داده رو تغییر بدیم به شکل مورد نظر. و این شکل مورد نظر چی باشه که به برنامه مورد نظرمون مرتبط هست.

فرضا یه چیز استاندارد مثل wordnet که دانیال گفت اگر عملی بشه تقریبا مسئله دیگه حل شده است.

دانیال بهزادی

راه برای دور زدن مشکل زیاده. ولی کار اصولی و تروتمیز، همون تبدیلش به قالب استاندارد وردنته.

افشین

پاسخِ برنامه‌نویسِ «واژه‌دان»:

بررسی می‌کنم، اگر امکان تبدیل دیتابیس متنی در زمان معقولی بود، حتماً در اولین فرصت، این کار را می‌کنم.

افشین

آخرین پاسخِ برنامه‌نویس این لغت‌نامه:

وردنت رو بررسی کردم. تا جایی که متوجه شدم، این پایگاه داده، بیشتر برای یافتن رابطۀ معنایی کلمات و پردازش زبان طبیعی استفاده میشه. از این جهت، امکان تبدیل پایگاۀ داده متنی واژه‌دان به این قالب وجود نداره؛ چون برای این کار لازمه چند صد هزار کلمه در دسته‌بندی مناسب به این پایگاه داده معرفی بشه و اساساً نیازی به این قالب نیست. من نمی‌دونم چرا آقا دانیال، برای ساخت نسخۀ لینوکسی برنامه همچین قالبی رو درخواست کردند!
با همین فرمت متنی هم می‌توان از دیتابیس برنامه استفاده کرد. نیازی به جداسازی کلمات مترادف و متضاد نیست؛ همه کلمات با یک الگو و حائل مناسب (علامت ،) از یکدیگر جدا شده‌اند. من قبلاً با لینوکس کار کردم، بسیاری از فرهنگ‌ها بر مبنای وردنت نیستند. اساساً مشکل اصلی، پیاده‌سازی برنامه در لینوکس است، باقی کار پارز کردن یک دیتابیس بسیار سادۀ متنی است. دیتابیس، دیتابیس است، متن‌باز و غیرمتن‌باز ندارد. یک نفر آستین بالا بزند، من دیتابیس را به هر فرمتی (Json، SQL, No SQL و ...) تحویل میدهم. مهم الگو داشتن داده‌ها است که دیتابیس متنی واژه‌دان دارد.

پی‌نوشت:
فرمت استاندارد وردنت نیازمند تفکیک صفات، افعال و اسامی و ... است و متأسفانه چون فرهنگ واژه‌دان به صورت متنی از یک فایل ورد و فاقد چنین تفکیکی استخراج شده، به سختی میشه به فرمت وردنت تبدیل کرد. حتی به نظرم اگه تبدیل هم بشه، تناسبی با ماهیت Artha و نرم‌افزارهای مبتنی بر وردنت نداره. دلیلش اینه که واژه‌دان صرفاً در میان چند هزار سطر جستجو می‌کنه و سطرهایی که شامل کلمه هستند رو نمایش میده. همین الان هم کاربران لینوکس با کپی دیتابیس متنی واژه‌دان به یک فایل متنی در لینوکس و جستجو در اون فایل می‌تونن کار خودشون رو راه بندازن. تنها مشکلش اینه که سهولت و کاربرپسندی یک واسط کاربری رو از دست میدن. ساخت یک واسط کاربری برای جستجو داخل یک فایل متنی، اصلاً کار سختی نیست. کافیه یک توسعه‌دهندۀ لینوکسی یکی دو هفته وقت بزاره.

gnkalk

نقل‌قول از: افشین در 15 اردیبهشت 1399، 10:37 ب‌ظ

آخرین پاسخِ برنامه‌نویس این لغت‌نامه:

وردنت رو بررسی کردم. تا جایی که متوجه شدم، این پایگاه داده، بیشتر برای یافتن رابطۀ معنایی کلمات و پردازش زبان طبیعی استفاده میشه. از این جهت، امکان تبدیل پایگاۀ داده متنی واژه‌دان به این قالب وجود نداره؛ چون برای این کار لازمه چند صد هزار کلمه در دسته‌بندی مناسب به این پایگاه داده معرفی بشه و اساساً نیازی به این قالب نیست. من نمی‌دونم چرا آقا دانیال، برای ساخت نسخۀ لینوکسی برنامه همچین قالبی رو درخواست کردند!
با همین فرمت متنی هم می‌توان از دیتابیس برنامه استفاده کرد. نیازی به جداسازی کلمات مترادف و متضاد نیست؛ همه کلمات با یک الگو و حائل مناسب (علامت ،) از یکدیگر جدا شده‌اند. من قبلاً با لینوکس کار کردم، بسیاری از فرهنگ‌ها بر مبنای وردنت نیستند. اساساً مشکل اصلی، پیاده‌سازی برنامه در لینوکس است، باقی کار پارز کردن یک دیتابیس بسیار سادۀ متنی است. دیتابیس، دیتابیس است، متن‌باز و غیرمتن‌باز ندارد. یک نفر آستین بالا بزند، من دیتابیس را به هر فرمتی (Json، SQL, No SQL و ...) تحویل میدهم. مهم الگو داشتن داده‌ها است که دیتابیس متنی واژه‌دان دارد.

پی‌نوشت:
فرمت استاندارد وردنت نیازمند تفکیک صفات، افعال و اسامی و ... است و متأسفانه چون فرهنگ واژه‌دان به صورت متنی از یک فایل ورد و فاقد چنین تفکیکی استخراج شده، به سختی میشه به فرمت وردنت تبدیل کرد. حتی به نظرم اگه تبدیل هم بشه، تناسبی با ماهیت Artha و نرم‌افزارهای مبتنی بر وردنت نداره. دلیلش اینه که واژه‌دان صرفاً در میان چند هزار سطر جستجو می‌کنه و سطرهایی که شامل کلمه هستند رو نمایش میده. همین الان هم کاربران لینوکس با کپی دیتابیس متنی واژه‌دان به یک فایل متنی در لینوکس و جستجو در اون فایل می‌تونن کار خودشون رو راه بندازن. تنها مشکلش اینه که سهولت و کاربرپسندی یک واسط کاربری رو از دست میدن. ساخت یک واسط کاربری برای جستجو داخل یک فایل متنی، اصلاً کار سختی نیست. کافیه یک توسعه‌دهندۀ لینوکسی یکی دو هفته وقت بزاره.

کس تونست اخرش لینوکسشو بده چون نوشتید راحته

انجمن‌های فارسی اوبونتو

نویسنده موضوع: نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان» (دفعات بازدید: 3329 بار)

افشین

نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

دانیال بهزادی

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

افشین

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

M!lad

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

افشین

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

M!lad

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

افشین

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

M!lad

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

دانیال بهزادی

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

افشین

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

افشین

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»

gnkalk

پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»