انجمن‌های فارسی اوبونتو

خبرها => لینک‌های خبری => نویسنده: افشین در 25 فروردین 1399، 09:07 ق‌ظ

عنوان: نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: افشین در 25 فروردین 1399، 09:07 ق‌ظ
سلام.

مدتی است که لغت‌نامهٔ متن‌بازِ «واژه‌دان» با جدیت در حال توسعه و افزایش امکانات خود است. این لغت‌نامه که دربرگیرندهٔ «فرهنگ جامع واژگان مترادف و متضاد فارسی» و همچنین «فرهنگ طیفیِ جمشید فراروی» است، متأسفانه نسخهٔ لینوکسی ندارد و برنامه‌نویس آن هم فراغتی برای انتشار نسخهٔ سازگار با لینوکس ندارند.

من این موضوع را اینجا مطرح کردم به‌امید اینکه از بین برنامه‌نویسان علاقه‌مندِ فارسی کسی آستین همت بالا بزند و این لغت‌نامهٔ واقعاً مفید را از انحصار ویندوز خارج کند ان‌شاءالله.

لینک پروژه:
https://github.com/kokabi1365/Vajehdan

عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: دانیال بهزادی در 25 فروردین 1399، 09:22 ق‌ظ
درود. برای این منظور، نرم‌افزارهای ازاد مختلفی وجود داره. از جمله Artha (http://artha.sourceforge.net/wiki/index.php/Home) که تقریباً همه با قالب استاندارد وردنت (http://wordnet.princeton.edu) کار می‌کنن. اگه گنجینهٔ این پروژه در قالب استاندارد وردنت قرار بگیره، خیلی راحت می‌شه ازش استفاده کرد.
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: افشین در 25 فروردین 1399، 09:32 ق‌ظ
ضمن تشکر از توجهتان به موضوع، پاسخِ شما برای برنامه‌نویسِ این لغت‌نامه فرستاده شد.

لینک مبحث در گیت‌هابِ این برنامه:

https://github.com/kokabi1365/Vajehdan/issues/21
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: M!lad در 25 فروردین 1399، 02:12 ب‌ظ
یه نگاهی به لیست لغت‌هاش انداختم به نظر خیلی کار راحتی نیست تبدیلش به wordnet.

حداقل برا من نوشتن یه برنامه مشابه راحت تره تا تبدیل کردنش : ))

البته من کد رو نخوندم شاید تغییراتی رو این لیست اعمال می‌کنه و نسخه تغییر داده شده رو بشه خیلی راحت تبدیل کرد.
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: افشین در 25 فروردین 1399، 02:56 ب‌ظ
منظورتان این است که بدون تبدیل‌شدن پایگاهِ داده‌اش هم می‌توانید این برنامه را بنویسید؟
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: M!lad در 25 فروردین 1399، 03:23 ب‌ظ
تبدیل بشه که دیگه نیازی نیست برنامه‌ای برا استفاده ازش نوشته بشه. Artha باید بتونه ازش  استفاده کنه.
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: افشین در 25 فروردین 1399، 04:08 ب‌ظ
ظاهراً من منظورم را روشن بیان نکرده‌ام.
مقصودم این بود که فرض کنیم پایگاهِ دادهٔ این لغت‌نامه قابل تبدیل‌شدن به فرمتِ مدِنظر مانباشد یا دست‌کم تبدیل‌کردنش اصلاً آسان نباشد.

سؤالم این بود که آیا با همین پایگاهِ دادهُ فعلی، باز هم می‌توانید نسخهٔ لینوکسی‌اش را بنویسید؟
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: M!lad در 25 فروردین 1399، 04:16 ب‌ظ
بله، شما می‌تونید همین الان هم به وسیله چند خط اسکریپت ساده کارتون رو راه بندازید.
پایگاه‌داده فعلی صرفا متن هست که میشه به راحتی از ابزار ابتدایی پردازش  متن برای جستجو توش استفاده کرد.

ولی اگر یک جستجوی منطقی‌تر می‌خواید داشته باشید قطعا باید یک تغییراتی در ساختار پایگاه‌داده رخ بده و بیشتر از چند خط کد نوشته بشه.
حداقل به نظر من. چون الان فرضا مترادف و متضاد لغات تو یک خط با هم اومدن.

من نسخه اصلی داده‌ رو هم چک کردم دارم فکر می‌کنم به راه حل‌های منطقی.

چون این ۲ مسئله پیوسته به هم هست. چه طور داده رو تغییر بدیم به شکل مورد نظر. و این شکل مورد نظر چی باشه که به برنامه مورد نظرمون مرتبط هست.

فرضا یه چیز استاندارد مثل wordnet که دانیال گفت اگر عملی بشه تقریبا مسئله دیگه حل شده است.
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: دانیال بهزادی در 25 فروردین 1399، 05:55 ب‌ظ
راه برای دور زدن مشکل زیاده. ولی کار اصولی و تروتمیز، همون تبدیلش به قالب استاندارد وردنته.
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: افشین در 10 اردیبهشت 1399، 11:01 ق‌ظ
پاسخِ برنامه‌نویسِ «واژه‌دان»:

بررسی می‌کنم، اگر امکان تبدیل دیتابیس متنی در زمان معقولی بود، حتماً در اولین فرصت، این کار را می‌کنم.

عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: افشین در 15 اردیبهشت 1399، 10:37 ب‌ظ
آخرین پاسخِ برنامه‌نویس این لغت‌نامه:

وردنت رو بررسی کردم. تا جایی که متوجه شدم، این پایگاه داده، بیشتر برای یافتن رابطۀ معنایی کلمات و پردازش زبان طبیعی استفاده میشه. از این جهت، امکان تبدیل پایگاۀ داده متنی واژه‌دان به این قالب وجود نداره؛ چون برای این کار لازمه چند صد هزار کلمه در دسته‌بندی مناسب به این پایگاه داده معرفی بشه و اساساً نیازی به این قالب نیست. من نمی‌دونم چرا آقا دانیال، برای ساخت نسخۀ لینوکسی برنامه همچین قالبی رو درخواست کردند!
با همین فرمت متنی هم می‌توان از دیتابیس برنامه استفاده کرد. نیازی به جداسازی کلمات مترادف و متضاد نیست؛ همه کلمات با یک الگو و حائل مناسب (علامت ،) از یکدیگر جدا شده‌اند. من قبلاً با لینوکس کار کردم، بسیاری از فرهنگ‌ها بر مبنای وردنت نیستند. اساساً مشکل اصلی، پیاده‌سازی برنامه در لینوکس است، باقی کار پارز کردن یک دیتابیس بسیار سادۀ متنی است. دیتابیس، دیتابیس است، متن‌باز و غیرمتن‌باز ندارد. یک نفر آستین بالا بزند، من دیتابیس را به هر فرمتی (Json، SQL, No SQL و ...) تحویل میدهم. مهم الگو داشتن داده‌ها است که دیتابیس متنی واژه‌دان دارد.


پی‌نوشت:
فرمت استاندارد وردنت نیازمند تفکیک صفات، افعال و اسامی و ... است و متأسفانه چون فرهنگ واژه‌دان به صورت متنی از یک فایل ورد و فاقد چنین تفکیکی استخراج شده، به سختی میشه به فرمت وردنت تبدیل کرد. حتی به نظرم اگه تبدیل هم بشه، تناسبی با ماهیت Artha و نرم‌افزارهای مبتنی بر وردنت نداره. دلیلش اینه که واژه‌دان صرفاً در میان چند هزار سطر جستجو می‌کنه و سطرهایی که شامل کلمه هستند رو نمایش میده. همین الان هم کاربران لینوکس با کپی دیتابیس متنی واژه‌دان به یک فایل متنی در لینوکس و جستجو در اون فایل می‌تونن کار خودشون رو راه بندازن. تنها مشکلش اینه که سهولت و کاربرپسندی یک واسط کاربری رو از دست میدن. ساخت یک واسط کاربری برای جستجو داخل یک فایل متنی، اصلاً کار سختی نیست. کافیه یک توسعه‌دهندۀ لینوکسی یکی دو هفته وقت بزاره.
عنوان: پاسخ : نسخهٔ لینوکسیِ لغت‌نامهٔ «واژه‌دان»
ارسال شده توسط: gnkalk در 30 اردیبهشت 1399، 07:33 ب‌ظ
آخرین پاسخِ برنامه‌نویس این لغت‌نامه:

وردنت رو بررسی کردم. تا جایی که متوجه شدم، این پایگاه داده، بیشتر برای یافتن رابطۀ معنایی کلمات و پردازش زبان طبیعی استفاده میشه. از این جهت، امکان تبدیل پایگاۀ داده متنی واژه‌دان به این قالب وجود نداره؛ چون برای این کار لازمه چند صد هزار کلمه در دسته‌بندی مناسب به این پایگاه داده معرفی بشه و اساساً نیازی به این قالب نیست. من نمی‌دونم چرا آقا دانیال، برای ساخت نسخۀ لینوکسی برنامه همچین قالبی رو درخواست کردند!
با همین فرمت متنی هم می‌توان از دیتابیس برنامه استفاده کرد. نیازی به جداسازی کلمات مترادف و متضاد نیست؛ همه کلمات با یک الگو و حائل مناسب (علامت ،) از یکدیگر جدا شده‌اند. من قبلاً با لینوکس کار کردم، بسیاری از فرهنگ‌ها بر مبنای وردنت نیستند. اساساً مشکل اصلی، پیاده‌سازی برنامه در لینوکس است، باقی کار پارز کردن یک دیتابیس بسیار سادۀ متنی است. دیتابیس، دیتابیس است، متن‌باز و غیرمتن‌باز ندارد. یک نفر آستین بالا بزند، من دیتابیس را به هر فرمتی (Json، SQL, No SQL و ...) تحویل میدهم. مهم الگو داشتن داده‌ها است که دیتابیس متنی واژه‌دان دارد.


پی‌نوشت:
فرمت استاندارد وردنت نیازمند تفکیک صفات، افعال و اسامی و ... است و متأسفانه چون فرهنگ واژه‌دان به صورت متنی از یک فایل ورد و فاقد چنین تفکیکی استخراج شده، به سختی میشه به فرمت وردنت تبدیل کرد. حتی به نظرم اگه تبدیل هم بشه، تناسبی با ماهیت Artha و نرم‌افزارهای مبتنی بر وردنت نداره. دلیلش اینه که واژه‌دان صرفاً در میان چند هزار سطر جستجو می‌کنه و سطرهایی که شامل کلمه هستند رو نمایش میده. همین الان هم کاربران لینوکس با کپی دیتابیس متنی واژه‌دان به یک فایل متنی در لینوکس و جستجو در اون فایل می‌تونن کار خودشون رو راه بندازن. تنها مشکلش اینه که سهولت و کاربرپسندی یک واسط کاربری رو از دست میدن. ساخت یک واسط کاربری برای جستجو داخل یک فایل متنی، اصلاً کار سختی نیست. کافیه یک توسعه‌دهندۀ لینوکسی یکی دو هفته وقت بزاره.
کس تونست اخرش لینوکسشو بده چون نوشتید راحته ;D