مقاله ی newline را باید بخونم زیاده. اما به درد به خور
اما در ادامه تحقیفاتم! در مورد کارکتز های یونیکد به نتایج جالبی رسیدم.
در مجموعه کتاب هایی که آقای سلامت بهم دادند(دستشون درد نکنه
) کتابی به نام O'Reilly Java I/O بود که در مورد Character set ها اینگونه نوتشه بود:
۱−ASCII: هفت بیتی. در نتیجه ۱۲۸ کاراکتر متفاوت
۲− ISO_Latin_1: هشت بیتی: درنتیجه ۲۵۶ کارکتر متفاوت
۳− Unicode: دو بایتی : ۶۵۵۳۶ کاراکتر متفاوت.
استفاده از Unicode در فایل هایی که بیشتز کاراکتر های آن ASCII می باشند غیر موثر هست. چون برای مثال کاراکتر های a b c d .. هم دو بایت اشغال می کنند در صورتی که نیاز به اشغال دو بایت ندارند در نتیحه UTF-8 تعریف شد:
۴− UTF-8: این فرمت کاراکتر های ASCII یک بایت اشغال می کنند و کارکاتر های غیر ASCII تا ۱۹۱۹ دو بایتی هستند و باقیمانده ۳ بایتی هستند.
به همین علت کاراکتر های فارسی دوبایت اشغال می کردند و کاراکتر های انگلیسی یک بایت.
عجب سوتی ای دادم. illus قبلا جواب منو داده بودند ولی من درست متوجه نشدم. طوری نیست من هم به بیان دیگه جواب خودم را دادم