سلام
به هنگام مشاهده این تاپیک و مطالب داخل آن احساسی در وجدانم به جوشش درآمد که باید کمر همت بربندم
هیچی دیگه نشستم چندتا مطلب فارسی از خبرگذاریها، کتاب و وبلاگ و سایت و... کپی کردم تو یه برنامه و فرکانس حروف رو تو زبان فارسی حساب کردم، البته دیگه حال و حوصله نداشتم بعد ممیز رو بزنم فقط چندرقم اعشار بره جلو واسه همین یک کم بعد ممیز عدد زیاده وگرنه شما فقط ۴ رقمش رو معقول فرض کنید.
ض 0.0024483211804347204
ط 0.006092143673054956
ش 0.02918333340156971
ص 0.005506675564690131
ز 0.020802541668543166
س 0.033887549181368194
ذ 0.0020839389311726967
ر 0.0839225544423928
پ 0.008446298654242188
غ 0.0025506757448341653
ظ 0.0025916175705939432
ع 0.01322830390298425
ا 0.14412341503957027
آ 0.006829096536730959
د 0.06728379645361905
خ 0.01308091333024905
گ 0.011877223652911578
ج 0.009809661452042793
ح 0.008745173982288567
ت 0.046080024892630064
ث 0.0015353184659916725
ب 0.04415166489934452
ک 0.026018530270338874
ن 0.07107910370155046
ژ 0.0008761550712592477
چ 0.004655085588886751
ه 0.06325512079885691
ل 0.02718127812191657
م 0.060585713759319385
ق 0.01094784420816462
ف 0.013383882840871405
ی 0.09982435956749056
و 0.05793268345008577
این هم بنا بر opensource بودنمون این هم برنامهای که نوشتم براش (مال پایتونه):
a='یه عالمه متن کپی کنید تو این متغیر! مثلا هفت هشت تا کتاب و کلی متن از سایتها و و وبلاگها همینجور فلهای کپی کنید توش! اینقدر بریزید که منفجر بشه! البته میتونین تو یه فایل جانبی بریزید بعد فایل رو بخونین، ممکنه این متغیر تنهایی بیست سی مگابایت فضا بگیره'
r={'ئ':'ی',
'أ':'ا',
'ء':'' ,
'ؤ':'و',
'ة':'ه',
'ك':'ک',
'ي':'ی'}
for ri in r:
a=a.replace(ri,r[ri])
c={'ی', 'و', 'ه', 'ن', 'م', 'ل', 'ک', 'ق', 'ف', 'پ', 'د', 'ژ', 'چ', 'غ', 'ع', 'ظ', 'ط', 'ض', 'ص', 'ش', 'س', 'ز', 'ر', 'ذ', 'گ', 'خ', 'ح', 'ج', 'ث', 'ت', 'ک', 'ب', 'ا', 'آ'}
a=[ai * (ai in c) for ai in a]
l=len(a)-a.count('')
d={ci: a.count(ci)/l for ci in c}
for di in d:
print(di,d[di])
print(sum([d[di]**2 for di in d]))
آخرین عددی که چاپ میشه و مربوط به هیچ حرفی نیست ثابت فرکانس زبان فارسی هست که اگر آ و ا رو متفاوت بگیرید میشه
0.06750076871936661
نکته جالب اینکه اولین زبانی که فرکانسهاش رو درآوردن عربی و بعدی فارسی بود! کاربرد فرکانسها قدیم فقط تو رمزنگاری و حمله به متنهای رمزشده بود (پیشرفت تکنولوژی اون زمان ما... حالا تو کتابهای درسی میگن روش ویژن و سزار و...) ولی الآن تو طراحی صفحه کلید میشه ازش استفاده کرد