انجمنهای فارسی اوبونتو
کمک و پشتیبانی => برنامهسازی => نویسنده: K-FIVE در 09 شهریور 1395، 11:18 بظ
-
دامنه لغات برسی شده | کل سایت http://en.cppreference.com/w
تغداد کل لغات حدود صد هزار
تعداد لغات واحد حدود 3200
سپس 1000 کلمه پرتکرار زبان انگلیسی از ان کم شده( مشابه ها حذف شده ) | نتیجه حدود 2800 لغت
کل لغات 105239 (حروف تکی و 2 تای حذف شده اند)
3800 لغت بدون شماره گذاری
3800 لغت با نرخ تکرار
2800 لغت بدون شماره
اگه خواستید خودتون انجام بدید برای کار متناسب با مورد مطالعه خودتون
به کمی دانش در
regex
sed
sort
uniq
comm
نیاز دارید
-
سلام
ضمن خسته نباشید...
چطوری سایت رو بررسی کردی که ببینی چه کلماتی رو داره؟
-
درود
کار خاصی انجام ندادم
قبلا جهت مطالعه ذخیره ش کرده بودم و استفاده می کردم (تکست) گفتم شاید کسی لازمش شد
اما
اگه سایت خاصی رو مد نظر داری | انلاین رو تست نکردم | ولی افلاین راحته
کافیه همه صفحات رو dump کنی تو ی فایل txt
برای افلاین سایت ک ذخیره کردی
find en | ack 'html' | xargs -I {} lynx -dump $PWD/{} >> cpp.txt
بعدش هم ویرایش کنی و مرتب و ...
البته خودم این کار رو نکردم چون خ خ زیاد میشد
کل سایت منظورم کل جاهای لازم بوده ک بقیه رو هم پوشش میده
به علاوه:
100٪ سایت (لغات) هم پیوست شد | البته unique + ranked
find برای جستجو در کل مسیر
en اون دایرکتوری ک فایل ها اونجان
$PWD/ مسیر کامل از ریشه ک لازمه
| جابه جای جریان خروجی و ورودی
xargs انتقال دهنده
{} خروجی جستجو
lynx مرور گر تحت ترمینال
جستجو در گوگل lynx dump all links
http://superuser.com/questions/372155/how-do-i-extract-all-the-external-links-of-a-web-page-and-save-them-to-a-file?noredirect=1&lq=1
http://superuser.com/questions/409651/how-do-i-extract-all-the-external-links-of-a-web-page
-
تشکر