مجموعة أحرف ascii القياسية. ترميز المعلومات النصية

05.08.2019

مرحبا عزيزي القراء لموقع بلوق. سنتحدث إليكم اليوم عن مصدر krakozyabrs على موقع الويب وفي البرامج، وما هي ترميزات النص الموجودة وأي منها يجب استخدامها. دعونا نلقي نظرة فاحصة على تاريخ تطورها، بدءًا من ASCII الأساسي، بالإضافة إلى إصداراتها الموسعة CP866 وKOI8-R وWindows 1251 وانتهاءً بتشفير Unicode Consortium الحديث UTF 16 و8.

بالنسبة للبعض، قد تبدو هذه المعلومات غير ضرورية، ولكن هل تعرف عدد الأسئلة التي أتلقاها على وجه التحديد بخصوص krakozyabrs الزاحفة (مجموعة من الأحرف غير القابلة للقراءة). الآن ستتاح لي الفرصة لإحالة الجميع إلى نص هذه المقالة والعثور على أخطائي. حسنًا، استعد لاستيعاب المعلومات وحاول متابعة تدفق القصة.

ASCII - ترميز النص الأساسي للأبجدية اللاتينية

حدث تطوير ترميزات النص في وقت واحد مع تشكيل صناعة تكنولوجيا المعلومات، وخلال هذا الوقت تمكنوا من الخضوع للكثير من التغييرات. تاريخيًا، بدأ كل شيء بـ EBCDIC، الذي كان متنافرًا إلى حد ما في النطق الروسي، مما جعل من الممكن تشفير أحرف الأبجدية اللاتينية والأرقام العربية وعلامات الترقيم بأحرف التحكم.

ولكن مع ذلك، ينبغي اعتبار نقطة الانطلاق لتطوير ترميزات النص الحديثة هي ASCII الشهير (الكود القياسي الأمريكي لتبادل المعلومات، والذي يُنطق عادةً باللغة الروسية باسم "اسأل"). فهو يصف أول 128 حرفًا الأكثر استخدامًا من قبل المستخدمين الناطقين باللغة الإنجليزية - الحروف اللاتينية والأرقام العربية وعلامات الترقيم.

تتضمن هذه الأحرف الـ 128 الموضحة في ASCII أيضًا بعض أحرف الخدمة مثل الأقواس وعلامات التجزئة والعلامات النجمية وما إلى ذلك. في الواقع، يمكنك رؤيتهم بنفسك:

لقد أصبحت هذه الأحرف الـ 128 من الإصدار الأصلي لـ ASCII هي المعيار، وفي أي ترميز آخر ستجدها بالتأكيد وستظهر بهذا الترتيب.

لكن الحقيقة هي أنه بمساعدة بايت واحد من المعلومات، لا يمكنك تشفير 128، بل ما يصل إلى 256 قيمة مختلفة (اثنان أس ثمانية يساوي 256)، وبالتالي، بعد الإصدار الأساسي من Asuka، تم إنشاء مجموعة كاملة ظهرت سلسلة من ترميزات ASCII الموسعة، والتي كان من الممكن فيها، بالإضافة إلى 128 حرفًا أساسيًا، يمكن أيضًا تشفيرها باستخدام أحرف الترميز الوطنية (على سبيل المثال، الروسية).

ربما يكون من المفيد هنا أن نقول المزيد عن أنظمة الأعداد المستخدمة في الوصف. أولاً، كما تعلمون جميعاً، الكمبيوتر يعمل فقط مع الأرقام الموجودة في النظام الثنائي، أي مع الأصفار والواحدات ("الجبر البوليني"، إذا أخذه أي شخص في معهد أو مدرسة). ، كل منها اثنان أس، بدءًا من الصفر، وحتى اثنين إلى السابع:

ليس من الصعب أن نفهم أن جميع المجموعات الممكنة من الأصفار والواحدات في مثل هذا التصميم يمكن أن تكون 256 فقط. إن تحويل رقم من النظام الثنائي إلى النظام العشري أمر بسيط للغاية. كل ما عليك فعله هو جمع كل القوى التي يتمتع بها اثنان مع القوى التي تعلوهما.

في مثالنا، يتبين أن هذا يساوي 1 (2 أس صفر) زائد 8 (اثنان أس 3)، زائد 32 (اثنان أس خمسة)، زائد 64 (أس ستة)، زائد 128 (للقوة السابعة). المجموع هو 233 بالتدوين العشري. كما ترون، كل شيء بسيط جدا.

ولكن إذا نظرت عن كثب إلى الجدول الذي يحتوي على أحرف ASCII، فسترى أنها ممثلة بترميز سداسي عشري. على سبيل المثال، تتوافق "العلامة النجمية" مع الرقم السداسي العشري 2A في لغة Aski. ربما تعلم أنه في نظام الأرقام السداسية العشرية، بالإضافة إلى الأرقام العربية، يتم أيضًا استخدام الحروف اللاتينية من A (يعني عشرة) إلى F (يعني خمسة عشر).

حسنًا، لتحويل رقم ثنائي إلى رقم سداسي عشري، فإنهم يلجأون إلى الطريقة البسيطة والمرئية التالية. يتم تقسيم كل بايت من المعلومات إلى جزأين من أربع بتات، كما هو موضح في لقطة الشاشة أعلاه. الذي - التي. في كل نصف بايت، يمكن ترميز ستة عشر قيمة فقط (اثنتان إلى القوة الرابعة) بطريقة ثنائية، والتي يمكن تمثيلها بسهولة كرقم سداسي عشري.

علاوة على ذلك، في النصف الأيسر من البايت، يجب حساب الدرجات مرة أخرى بدءًا من الصفر، وليس كما هو موضح في لقطة الشاشة. ونتيجة لذلك، من خلال حسابات بسيطة، نحصل على أن الرقم E9 مشفر في لقطة الشاشة. آمل أن يكون مسار تفكيري وحل هذا اللغز واضحًا لك. حسنًا، دعونا الآن نواصل الحديث عن ترميز النص.

إصدارات موسعة من ترميزات Asuka - CP866 وKOI8-R مع رسومات زائفة

لذلك، بدأنا نتحدث عن ASCII، الذي كان بمثابة نقطة البداية لتطوير جميع الترميزات الحديثة (Windows 1251، Unicode، UTF 8).

في البداية، كان يحتوي على 128 حرفًا فقط من الأبجدية اللاتينية والأرقام العربية وشيء آخر، ولكن في النسخة الموسعة أصبح من الممكن استخدام جميع القيم الـ 256 التي يمكن تشفيرها في بايت واحد من المعلومات. أولئك. أصبح من الممكن إضافة رموز حروف لغتك إلى الأسكي.

سنحتاج هنا إلى الاستطراد مرة أخرى لشرح سبب الحاجة إلى ترميز النص على الإطلاق وسبب أهميته. يتم تشكيل الأحرف الموجودة على شاشة الكمبيوتر الخاص بك على أساس شيئين - مجموعات من النماذج المتجهة (التمثيلات) لأحرف مختلفة (توجد في ملفات ذات ) والتعليمة البرمجية التي تسمح لك بالانسحاب من هذه المجموعة من النماذج المتجهة (ملف الخط ) بالضبط الحرف الذي يجب إدراجه في المكان الصحيح.

ومن الواضح أن الخطوط نفسها هي المسؤولة عن الأشكال المتجهة، لكن نظام التشغيل والبرامج المستخدمة فيه هي المسؤولة عن التشفير. أولئك. سيكون أي نص على جهاز الكمبيوتر الخاص بك عبارة عن مجموعة من البايتات، كل منها يشفر حرفًا واحدًا من هذا النص بالذات.

البرنامج الذي يعرض هذا النص على الشاشة (محرر النصوص، المتصفح، وما إلى ذلك)، عند تحليل الكود، يقرأ ترميز الحرف التالي ويبحث عن نموذج المتجه المقابل في ملف الخط المطلوب، والذي يتم توصيله لعرض هذا وثيقة نصية. كل شيء بسيط ومبتذل.

هذا يعني أنه من أجل تشفير أي حرف نحتاجه (على سبيل المثال، من الأبجدية الوطنية)، يجب استيفاء شرطين - يجب أن يكون الشكل المتجه لهذا الحرف بالخط المستخدم ويمكن ترميز هذا الحرف بترميزات ASCII الموسعة في بايت واحد. لذلك، هناك مجموعة كاملة من هذه الخيارات. فقط لترميز أحرف اللغة الروسية، هناك عدة أنواع من Aska الموسعة.

على سبيل المثال، ظهر CP866 في الأصل، والذي كان لديه القدرة على استخدام أحرف من الأبجدية الروسية وكان نسخة موسعة من ASCII.

أولئك. يتطابق الجزء العلوي منه تمامًا مع الإصدار الأساسي من Aska (128 حرفًا لاتينيًا وأرقامًا وحماقة أخرى)، والذي يظهر في لقطة الشاشة أعلاه مباشرةً، ولكن الجزء السفلي من الجدول مع ترميز CP866 كان له المظهر المشار إليه في لقطة الشاشة أدناه مباشرةً وسمح لك بتشفير 128 علامة أخرى (الحروف الروسية وجميع أنواع الصور الزائفة):

كما ترى، في العمود الأيمن الأرقام تبدأ بـ 8، لأن... تشير الأرقام من 0 إلى 7 إلى الجزء الأساسي من ASCII (انظر لقطة الشاشة الأولى). الذي - التي. سيكون للحرف الروسي "M" في CP866 الرمز 9C (يوجد عند تقاطع الصف المقابل مع 9 والعمود مع الرقم C في نظام الأرقام السداسي العشري)، والذي يمكن كتابته في بايت واحد من المعلومات، و إذا كان هناك خط مناسب بأحرف روسية، فستظهر هذه الرسالة في النص دون مشاكل.

من أين أتت الكثير من الرسومات الزائفة في CP866؟ بيت القصيد هو أن هذا الترميز للنص الروسي تم تطويره مرة أخرى في تلك السنوات الأشعث عندما لم تكن أنظمة التشغيل الرسومية منتشرة على نطاق واسع كما هي الآن. وفي Dosa وأنظمة تشغيل النصوص المماثلة، مكنت الرسوم الزائفة من تنويع تصميم النصوص بطريقة أو بأخرى على الأقل، وبالتالي فإن CP866 وجميع أقرانه الآخرين من فئة الإصدارات الموسعة من Asuka كثيرة فيه.

تم توزيع CP866 بواسطة شركة IBM، ولكن بالإضافة إلى ذلك، تم تطوير عدد من الترميزات لأحرف اللغة الروسية، على سبيل المثال، يمكن تصنيف KOI8-R على أنه نفس النوع (ASCII الممتد):

يظل مبدأ تشغيله هو نفسه مبدأ CP866 الذي تم وصفه سابقًا - حيث يتم تشفير كل حرف في النص بواسطة بايت واحد. تُظهر لقطة الشاشة النصف الثاني من جدول KOI8-R، لأنه يتوافق النصف الأول تمامًا مع Asuka الأساسية، والتي تظهر في لقطة الشاشة الأولى في هذه المقالة.

من بين ميزات ترميز KOI8-R، يمكن الإشارة إلى أن الحروف الروسية في جدولها ليست بالترتيب الأبجدي، كما فعلوا ذلك، على سبيل المثال، في CP866.

إذا نظرت إلى لقطة الشاشة الأولى (للجزء الأساسي، والذي تم تضمينه في جميع الترميزات الموسعة)، فستلاحظ أن الحروف الروسية في KOI8-R موجودة في نفس خلايا الجدول مثل الحروف المقابلة للأبجدية اللاتينية من الجزء الأول من الجدول. وقد تم ذلك لتسهيل التبديل من الأحرف الروسية إلى الأحرف اللاتينية عن طريق التخلص من بت واحد فقط (اثنان إلى القوة السابعة أو 128).

Windows 1251 - الإصدار الحديث من ASCII وسبب ظهور الشقوق

يرجع التطوير الإضافي لترميزات النص إلى حقيقة أن أنظمة التشغيل الرسومية كانت تكتسب شعبية واختفت الحاجة إلى استخدام الرسوم الزائفة فيها بمرور الوقت. ونتيجة لذلك، نشأت مجموعة كاملة، والتي، في جوهرها، كانت لا تزال نسخًا موسعة من Asuka (يتم تشفير حرف واحد من النص ببايت واحد فقط من المعلومات)، ولكن بدون استخدام الرموز الزائفة.

وهي تنتمي إلى ما يسمى بترميزات ANSI، والتي تم تطويرها من قبل معهد المعايير الأمريكية. في اللغة الشائعة، تم استخدام الاسم السيريلي أيضًا للإصدار الذي يدعم اللغة الروسية. مثال على ذلك سيكون.

لقد اختلف بشكل إيجابي عن CP866 و KOI8-R المستخدم سابقًا في أن مكان الرموز الزائفة فيه تم أخذه من خلال رموز الطباعة الروسية المفقودة (باستثناء علامة اللكنة)، وكذلك الرموز المستخدمة في اللغات السلافية القريبة من الروسية (الأوكرانية والبيلاروسية وغيرها):

نظرًا لهذه الوفرة من ترميزات اللغة الروسية، كان مصنعو الخطوط ومصنعو البرامج يعانون من الصداع باستمرار، وكثيرًا ما نواجه أنا وأنت، أيها القراء الأعزاء، مشكلة مع نفس الأخطاء سيئة السمعة عندما يكون هناك ارتباك مع الإصدار المستخدم في النص.

في كثير من الأحيان خرجوا عند إرسال واستقبال الرسائل عبر البريد الإلكتروني، الأمر الذي يستلزم إنشاء جداول تحويل معقدة للغاية، والتي، في الواقع، لا يمكن أن تحل هذه المشكلة بشكل أساسي، وغالبا ما يستخدم المستخدمون للمراسلات لتجنب الحيل سيئة السمعة عند استخدام الترميزات الروسية مثل CP866 أو KOI8-R أو Windows 1251.

وفي الواقع، فإن التشققات التي ظهرت بدلاً من النص الروسي كانت نتيجة الاستخدام غير الصحيح لتشفير هذه اللغة، والذي لم يتوافق مع الترميز الذي تم تشفير الرسالة النصية به في الأصل.

لنفترض أنك إذا حاولت عرض الأحرف المشفرة باستخدام CP866 باستخدام جدول رموز Windows 1251، فسوف تظهر نفس هذه الهراء (مجموعة لا معنى لها من الأحرف)، لتحل محل نص الرسالة بالكامل.

غالبًا ما ينشأ موقف مماثل في المنتديات أو المدونات عندما يتم حفظ نص بأحرف روسية عن طريق الخطأ في ترميز خاطئ يتم استخدامه على الموقع افتراضيًا، أو في محرر نصوص خاطئ، مما يضيف الكمامات إلى الكود غير المرئية العين المجردة.

في النهاية، سئم الكثير من الناس من هذا الوضع مع الكثير من الترميزات والحماقة الزاحفة باستمرار، وظهرت المتطلبات الأساسية لإنشاء تباين عالمي جديد من شأنه أن يحل محل جميع الترميزات الموجودة وسيحل أخيرًا مشكلة المظهر من النصوص غير القابلة للقراءة. بالإضافة إلى ذلك، كانت هناك مشكلة اللغات مثل الصينية، حيث كان عدد أحرف اللغة أكثر بكثير من 256.

Unicode - الترميزات العالمية UTF 8 و16 و32

لا يمكن وصف هذه الآلاف من أحرف مجموعة لغات جنوب شرق آسيا في بايت واحد من المعلومات المخصصة لترميز الأحرف في الإصدارات الموسعة من ASCII. نتيجة لذلك، تم إنشاء اتحاد يسمى Unicode (Unicode Consortium) بالتعاون مع العديد من قادة صناعة تكنولوجيا المعلومات (أولئك الذين ينتجون البرامج، والذين يقومون بتشفير الأجهزة، والذين يقومون بإنشاء الخطوط) الذين كانوا مهتمين بظهور ترميز نص عالمي.

الإصدار الأول الذي تم إصداره تحت رعاية Unicode Consortium كان UTF 32. الرقم الموجود في اسم التشفير يعني عدد البتات المستخدمة لتشفير حرف واحد. 32 بت تساوي 4 بايت من المعلومات التي ستكون مطلوبة لتشفير حرف واحد في ترميز UTF العالمي الجديد.

ونتيجة لذلك، فإن نفس الملف الذي يحتوي على نص مشفر في الإصدار الموسع من ASCII وفي UTF-32، في الحالة الأخيرة، سيكون له حجم (وزن) أكبر بأربع مرات. هذا أمر سيء، ولكن الآن لدينا الفرصة لتشفير عدد من الأحرف باستخدام UTF يساوي اثنين إلى قوة الثلاثين ثانية (مليارات الأحرف التي ستغطي أي قيمة ضرورية حقًا بهامش هائل).

لكن العديد من البلدان التي لديها لغات المجموعة الأوروبية لم تكن بحاجة إلى استخدام هذا العدد الهائل من الأحرف في الترميز على الإطلاق، ومع ذلك، عند استخدام UTF-32، فإنها تلقت دون سبب زيادة في وزن المستندات النصية بمقدار أربعة أضعاف، ونتيجة لذلك، زيادة في حجم حركة المرور على الإنترنت وحجم البيانات المخزنة. وهذا كثير ولا يستطيع أحد تحمل مثل هذه الهدر.

ونتيجة لتطوير Unicode، ظهر UTF-16، والذي تبين أنه ناجح جدًا لدرجة أنه تم اعتماده افتراضيًا كمساحة أساسية لجميع الأحرف التي نستخدمها. ويستخدم بايتين لترميز حرف واحد. دعونا نرى كيف يبدو هذا الشيء.

في نظام التشغيل Windows، يمكنك اتباع المسار "ابدأ" - "البرامج" - "البرامج الملحقة" - "أدوات النظام" - "جدول الأحرف". ونتيجة لذلك، سيتم فتح جدول يتضمن الأشكال المتجهة لجميع الخطوط المثبتة على نظامك. إذا قمت بتحديد مجموعة أحرف Unicode في "الخيارات المتقدمة"، فستتمكن من رؤية النطاق الكامل للأحرف المضمنة فيه لكل خط على حدة.

بالمناسبة، من خلال النقر على أي منها، يمكنك رؤية رمزها المكون من بايتين بتنسيق UTF-16، والذي يتكون من أربعة أرقام سداسية عشرية:

كم عدد الأحرف التي يمكن ترميزها في UTF-16 باستخدام 16 بت؟ 65,536 (اثنان أس ستة عشر)، وهذا هو الرقم الذي تم اعتماده كمساحة أساسية في Unicode. بالإضافة إلى ذلك، هناك طرق لتشفير حوالي مليوني حرف باستخدامه، لكنها اقتصرت على مساحة موسعة تبلغ مليون حرف من النص.

ولكن حتى هذه النسخة الناجحة من ترميز Unicode لم تجلب الكثير من الرضا لأولئك الذين كتبوا، على سبيل المثال، البرامج باللغة الإنجليزية فقط، لأنه بالنسبة لهم، بعد الانتقال من النسخة الموسعة من ASCII إلى UTF-16، تضاعف وزن المستندات ( بايت واحد لكل حرف في Aski وبايتان لنفس الحرف في YUTF-16).

كان الأمر على وجه التحديد لإرضاء الجميع وكل شيء في اتحاد Unicode، حيث تقرر التوصل إلى ترميز متغير الطول. كان يسمى UTF-8. على الرغم من الثمانية الموجودة في اسمها، إلا أنها في الواقع ذات طول متغير، أي. يمكن ترميز كل حرف من النص في تسلسل يتراوح طوله من واحد إلى ستة بايت.

من الناحية العملية، يستخدم UTF-8 النطاق من واحد إلى أربعة بايت فقط، لأنه لم يعد من الممكن حتى من الناحية النظرية تخيل أي شيء يتجاوز أربعة بايت من التعليمات البرمجية. يتم ترميز جميع الأحرف اللاتينية فيه في بايت واحد، تمامًا كما هو الحال في ASCII القديم الجيد.

ما هو جدير بالملاحظة هو أنه في حالة تشفير الأبجدية اللاتينية فقط، فحتى تلك البرامج التي لا تفهم Unicode ستظل تقرأ ما تم ترميزه في YTF-8. أولئك. تم نقل الجزء الأساسي من Asuka ببساطة إلى هذا الإنشاء لاتحاد Unicode.

يتم ترميز الأحرف السيريلية في UTF-8 ببايتتين، وعلى سبيل المثال، يتم ترميز الأحرف الجورجية بثلاث بايتات. قام اتحاد Unicode، بعد إنشاء UTF 16 و8، بحل المشكلة الرئيسية - الآن لدينا مساحة رمز واحدة في خطوطنا. والآن يمكن لمصنعيها فقط ملئها بأشكال متجهة من أحرف النص بناءً على نقاط قوتها وقدراتها. والآن يأتون في مجموعات.

في "جدول الأحرف" أعلاه، يمكنك أن ترى أن الخطوط المختلفة تدعم أعدادًا مختلفة من الأحرف. يمكن أن تكون بعض الخطوط الغنية بـ Unicode ثقيلة جدًا. لكنهم يختلفون الآن ليس في حقيقة أنهم تم إنشاؤهم لترميزات مختلفة، ولكن في حقيقة أن الشركة المصنعة للخط قامت أو لم تملأ مساحة الكود المفرد بالكامل بأشكال متجهة معينة.

كلمات مجنونة بدلا من الحروف الروسية - كيفية اصلاحها

دعونا الآن نرى كيف يظهر krakozyabrs بدلاً من النص، أو بمعنى آخر، كيفية تحديد الترميز الصحيح للنص الروسي. في الواقع، يتم تعيينه في البرنامج الذي تقوم فيه بإنشاء أو تحرير هذا النص أو التعليمات البرمجية باستخدام أجزاء النص.

لتحرير الملفات النصية وإنشائها، أنا شخصيًا أستخدم برنامجًا جيدًا جدًا، في رأيي، . ومع ذلك، يمكنها تسليط الضوء على بناء جملة مئات من لغات البرمجة والترميز الأخرى، كما أن لديها القدرة على التوسع باستخدام المكونات الإضافية. اقرأ مراجعة مفصلة لهذا البرنامج الرائع على الرابط المقدم.

يوجد في القائمة العلوية لبرنامج Notepad++ عنصر "التشفيرات"، حيث ستتاح لك الفرصة لتحويل خيار موجود إلى الخيار المستخدم افتراضيًا على موقعك:

في حالة وجود موقع على Joomla 1.5 وما فوق، وكذلك في حالة وجود مدونة على WordPress، يجب عليك اختيار خيار UTF 8 بدون BOM لتجنب ظهور التشققات. ما هي بادئة BOM؟

الحقيقة هي أنه عندما قاموا بتطوير ترميز YUTF-16، لسبب ما قرروا إرفاق شيء مثل القدرة على كتابة رمز الحرف بالتسلسل المباشر (على سبيل المثال، 0A15) والعكس (150A) . ولكي تفهم البرامج في أي تسلسل لقراءة الرموز، تم اختراع BOM (علامة ترتيب البايت أو، بمعنى آخر، التوقيع)، والذي تم التعبير عنه بإضافة ثلاث بايتات إضافية إلى بداية المستندات.

في ترميز UTF-8، لم يتم توفير BOMs في اتحاد Unicode، وبالتالي فإن إضافة التوقيع (تلك البايتات الثلاثة الإضافية سيئة السمعة في بداية المستند) يمنع ببساطة بعض البرامج من قراءة الكود. لذلك، عند حفظ الملفات بتنسيق UTF، يجب علينا دائمًا تحديد الخيار بدون BOM (بدون توقيع). وبالتالي، سوف تحمي نفسك مقدما من الزحف من krakozyabrs.

ما هو جدير بالملاحظة هو أن بعض البرامج في Windows لا يمكنها القيام بذلك (لا يمكنها حفظ النص بتنسيق UTF-8 بدون BOM)، على سبيل المثال، نفس Windows Notepad سيئ السمعة. فهو يحفظ المستند بتنسيق UTF-8، لكنه لا يزال يضيف التوقيع (ثلاثة بايتات إضافية) إلى بدايته. علاوة على ذلك، ستكون هذه البايتات هي نفسها دائمًا - اقرأ الكود بالتسلسل المباشر. ولكن على الخوادم، بسبب هذا الشيء الصغير، قد تنشأ مشكلة - سوف يخرج المحتالون.

لذلك، لا تستخدم بأي حال من الأحوال مفكرة Windows العادية لتحرير المستندات الموجودة على موقعك، إذا كنت لا تريد ظهور الشقوق. أعتقد أن محرر Notepad ++ المذكور بالفعل هو الخيار الأفضل والأبسط، والذي ليس له أي عيوب عمليًا ويتكون فقط من المزايا.

في Notepad++، عند تحديد ترميز، سيكون لديك خيار تحويل النص إلى ترميز UCS-2، وهو قريب جدًا بطبيعته من معيار Unicode. أيضًا في برنامج "المفكرة" سيكون من الممكن تشفير النص بتنسيق ANSI، أي. فيما يتعلق باللغة الروسية، سيكون Windows 1251، الذي وصفناه بالفعل أعلاه، من أين تأتي هذه المعلومات؟

إنه مسجل في سجل نظام التشغيل Windows الخاص بك - وهو الترميز الذي تختاره في حالة ANSI، والذي تختاره في حالة OEM (بالنسبة للغة الروسية سيكون CP866). إذا قمت بتعيين لغة افتراضية أخرى على جهاز الكمبيوتر الخاص بك، فسيتم استبدال هذه الترميزات بتشفيرات مماثلة من فئة ANSI أو OEM لنفس اللغة.

بعد حفظ المستند في برنامج Notepad++ بالترميز الذي تحتاجه أو فتح المستند من الموقع لتحريره، يمكنك رؤية اسمه في الركن الأيمن السفلي من المحرر:

لتجنب الأخطاء، بالإضافة إلى الإجراءات الموضحة أعلاه، سيكون من المفيد كتابة معلومات حول هذا الترميز في رأس الكود المصدري لجميع صفحات الموقع حتى لا يكون هناك أي ارتباك على الخادم أو المضيف المحلي.

بشكل عام، تستخدم جميع لغات ترميز النص التشعبي باستثناء Html إعلان XML خاصًا يحدد ترميز النص.

قبل تحليل الكود، يعرف المتصفح الإصدار المستخدم ومدى حاجته بالضبط لتفسير رموز الأحرف الخاصة بتلك اللغة. ولكن ما هو جدير بالملاحظة هو أنه إذا قمت بحفظ المستند في Unicode الافتراضي، فيمكن حذف إعلان XML هذا (سيعتبر الترميز UTF-8 إذا لم يكن هناك BOM أو UTF-16 إذا كان هناك BOM).

في حالة مستند HTML، يتم استخدام عنصر Meta للإشارة إلى التشفير، والذي يتم وضعه بين علامتي الفتح والإغلاق:

... ...

يختلف هذا الإدخال تمامًا عن ذلك الذي تم اعتماده في عام 2011، ولكنه متوافق تمامًا مع معيار Html 5 الجديد الذي يتم تقديمه ببطء، وسيتم فهمه تمامًا بشكل صحيح بواسطة أي متصفحات مستخدمة حاليًا.

من الناحية النظرية، سيكون من الأفضل وضع عنصر Meta الذي يشير إلى تشفير مستند Html في أعلى مستوى ممكن في رأس المستند، بحيث يتم في ذلك الوقت مصادفة الحرف الأول الذي لا ينتمي إلى ANSI الأساسي في النص (والذي تتم قراءتها دائمًا بشكل صحيح وبأي شكل من الأشكال)، يجب أن يكون لدى المتصفح بالفعل معلومات حول كيفية تفسير رموز هذه الأحرف.

كل التوفيق لك! نراكم قريبا على صفحات موقع المدونة

يمكنك مشاهدة المزيد من مقاطع الفيديو بالانتقال إلى ");">

أنت قد تكون مهتم

ما هي عناوين URL، وكيف تختلف الروابط المطلقة والنسبية لموقع ما؟
OpenServer - خادم محلي حديث ومثال لكيفية استخدامه لتثبيت WordPress على جهاز كمبيوتر
ما هو Chmod، وما هي الأذونات التي يمكن تعيينها للملفات والمجلدات (777، 755، 666) وكيفية القيام بذلك عبر PHP
بحث ياندكس حسب الموقع والمتجر عبر الإنترنت

Excel لـ Office 365 Word لـ Office 365 Outlook لـ Office 365 PowerPoint لـ Office 365 Publisher لـ Office 365 Excel 2019 Word 2019 Outlook 2019 PowerPoint 2019 OneNote 2016 Publisher 2019 Visio Professional 2019 Visio Standard 2019 Excel 2016 Word 2016 Outlook 2016 PowerPoint 2016 الناشر 2016 Visio 2013 Visio Professional 2016 Visio Standard 2016 Excel 2013 Word 2013 Outlook 2013 PowerPoint 2013 Publisher 2013 Excel 2010 Word 2010 Outlook 2010 PowerPoint 2010 OneNote 2010 Publisher 2010 Visio 2010 Excel 2007 Word 2007 Outlook 20 07 PowerPoint 2007 الناشر 2007 الوصول 2007 Visio 2007 OneNote 2007 مكتب 2010 Visio Standard 2007 Visio Standard 2010 أقل

في هذه المقالة: قم بإدراج حرف ASCII أو Unicode في مستند

إذا كنت تحتاج فقط إلى إدخال بعض الأحرف أو الرموز الخاصة، فيمكنك استخدام اختصارات لوحة المفاتيح. للحصول على قائمة بأحرف ASCII، راجع الجداول التالية أو المقالة إدراج الحروف الهجائية الوطنية باستخدام اختصارات لوحة المفاتيح.

ملحوظات:

إدراج أحرف ASCII

لإدراج حرف ASCII، اضغط مع الاستمرار على المفتاح ALT أثناء إدخال رمز الحرف. على سبيل المثال، لإدراج رمز الدرجة (°)، اضغط مع الاستمرار على المفتاح ALT، ثم أدخل 0176 على لوحة المفاتيح الرقمية.

لإدخال الأرقام، استخدم لوحة المفاتيح الرقمية بدلاً من الأرقام الموجودة على لوحة المفاتيح الرئيسية. إذا كنت بحاجة إلى إدخال أرقام على لوحة المفاتيح الرقمية، فتأكد من تشغيل مؤشر NUM LOCK.

إدراج أحرف Unicode

لإدراج حرف Unicode، أدخل رمز الحرف، ثم اضغط على ALT وX. على سبيل المثال، لإدراج رمز الدولار ($)، أدخل 0024 واضغط على ALT وX. للتعرف على كافة رموز أحرف Unicode، راجع .

هام: لا تدعم بعض برامج Microsoft Office، مثل PowerPoint وInfoPath، تحويل رموز Unicode إلى أحرف. إذا كنت بحاجة إلى إدراج حرف Unicode في أحد هذه البرامج، فاستخدم .

ملحوظات:

    إذا ظهر حرف Unicode غير صحيح بعد الضغط على ALT+X، فحدد الرمز الصحيح، ثم اضغط على ALT+X مرة أخرى.

    بالإضافة إلى ذلك، يجب عليك إدخال "U+" قبل الرمز. على سبيل المثال، إذا قمت بإدخال "1U+B5" ثم ضغطت على ALT+X، فسيتم عرض النص "1μ"، وإذا أدخلت "1B5" ثم ضغطت على ALT+X، فسيتم عرض الرمز "Ƶ".

باستخدام جدول الرموز

جدول الأحرف هو برنامج مضمن في Microsoft Windows يسمح لك بعرض الأحرف المتوفرة للخط المحدد.

باستخدام جدول الرموز، يمكنك نسخ الرموز الفردية أو مجموعة الرموز إلى الحافظة ولصقها في أي برنامج يدعم عرض تلك الرموز. فتح جدول الرموز

    في نظام التشغيل Windows 10، أدخل كلمة "رمز" في مربع البحث الموجود على شريط المهام وحدد جدول الرموز من نتائج البحث.

    في نظام التشغيل Windows 8، اكتب كلمة "رمز" على شاشة البدء وحدد جدول الرموز من نتائج البحث.

    في نظام التشغيل Windows 7، انقر فوق الزر ابدأ، وحدد كافة البرامج، والملحقات، وأدوات النظام، ثم انقر فوق مخطط توزيع الأحرف.

يتم تجميع الأحرف حسب الخط. انقر فوق قائمة الخطوط لتحديد مجموعة الأحرف المناسبة. لتحديد رمز، انقر فوقه، ثم انقر فوق الزر "تحديد". لإدراج رمز، انقر بزر الماوس الأيمن فوق الموقع المطلوب في المستند وحدد "لصق".

رموز الأحرف المستخدمة بشكل متكرر

للحصول على قائمة كاملة بالأحرف، راجع الكمبيوتر أو جدول رموز أحرف ASCII أو جداول أحرف Unicode المنظمة حسب المجموعة.

الصورة الرمزية

الصورة الرمزية

عملة

الرموز القانونية

الرموز الرياضية

الكسور

علامات الترقيم ورموز اللهجات

رموز الشكل

رموز التشكيل شائعة الاستخدام

للحصول على قائمة كاملة بالحروف الرسومية والرموز المقابلة، راجع.

الصورة الرمزية

الصورة الرمزية

أحرف تحكم ASCII غير قابلة للطباعة

يتم ترقيم الأحرف المستخدمة للتحكم في بعض الأجهزة الطرفية، مثل الطابعات، من 0 إلى 31 في جدول ASCII. على سبيل المثال، حرف تغذية الصفحة/الصفحة الجديدة هو الرقم 12. يخبر هذا الحرف الطابعة بالانتقال إلى بداية الصفحة التالية.

جدول أحرف التحكم ASCII غير المطبوعة

عدد عشري

لافتة

عدد عشري

لافتة

تحرير قناة البيانات

بداية العنوان

أول كود للتحكم بالجهاز

بداية النص

كود التحكم بالجهاز الثاني

نهاية النص

رمز التحكم بالجهاز الثالث

نهاية الإرسال

كود التحكم بالجهاز الرابع

الخماسية

تأكيد سلبي

تأكيد

وضع الإرسال المتزامن

إشارة صوتية

نهاية كتلة البيانات المرسلة

الجدولة الأفقية

نهاية وسائل الإعلام

تغذية الخط/خط جديد

رمز الاستبدال

علامة التبويب العمودية

يزيد عن

ترجمة الصفحة/صفحة جديدة

اثني عشر

فاصل الملف

إرجاع

فاصل المجموعة

التحول دون حفظ البتات

فاصل السجل

تحول الحفاظ على البت

خمسة عشر

فاصل البيانات

ووفقا للاتحاد الدولي للاتصالات، في عام 2016، استخدم ثلاثة مليارات ونصف المليار شخص الإنترنت بشكل منتظم. معظمهم لا يفكرون حتى في حقيقة أن أي رسائل يرسلونها عبر أجهزة الكمبيوتر أو الأجهزة المحمولة، بالإضافة إلى النصوص التي يتم عرضها على جميع أنواع الشاشات، هي في الواقع مجموعات من 0 و1. ويسمى هذا التمثيل للمعلومات بالتشفير . فهو يضمن ويسهل إلى حد كبير تخزينها ومعالجتها ونقلها. وفي عام 1963، تم تطوير ترميز ASCII الأمريكي، وهو موضوع هذا المقال.

تقديم المعلومات على جهاز الكمبيوتر

من وجهة نظر أي كمبيوتر إلكتروني، النص عبارة عن مجموعة من الأحرف الفردية. ولا تشمل هذه الحروف الحروف فحسب، بما في ذلك الأحرف الكبيرة، ولكن أيضًا علامات الترقيم والأرقام. بالإضافة إلى ذلك، يتم استخدام الأحرف الخاصة "="، و"&"، و"(" والمسافات).

تسمى مجموعة الأحرف التي يتكون منها النص الأبجدية، ويسمى عددها العدد الأساسي (يشار إليه بالحرف N). لتحديده، يتم استخدام التعبير N = 2^b، حيث b هو عدد البتات أو وزن المعلومات لرمز معين.

لقد ثبت أن الأبجدية التي تحتوي على 256 حرفًا يمكن أن تمثل جميع الأحرف الضرورية.

وبما أن 256 يمثل القوة الثامنة لاثنين، فإن وزن كل حرف هو 8 بت.

تسمى وحدة القياس المكونة من 8 بتات 1 بايت، لذلك من المعتاد القول أن أي حرف في النص المخزن على الكمبيوتر يستهلك بايتًا واحدًا من الذاكرة.

كيف تتم عملية الترميز؟

يتم إدخال أي نصوص في ذاكرة الكمبيوتر الشخصي باستخدام مفاتيح لوحة المفاتيح التي تُكتب عليها الأرقام والحروف وعلامات الترقيم والرموز الأخرى. يتم نقلها إلى ذاكرة الوصول العشوائي في رمز ثنائي، أي أن كل حرف يرتبط برمز عشري مألوف لدى البشر، من 0 إلى 255، والذي يتوافق مع رمز ثنائي - من 00000000 إلى 11111111.

يسمح ترميز الأحرف بالبايت للمعالج الذي يقوم بمعالجة النص بالوصول إلى كل حرف على حدة. في الوقت نفسه، 256 حرفًا كافية لتمثيل أي معلومات رمزية.

ترميز الأحرف ASCII

يرمز هذا الاختصار باللغة الإنجليزية إلى رمز تبادل المعلومات.

حتى في فجر الحوسبة، أصبح من الواضح أنه كان من الممكن التوصل إلى مجموعة واسعة من الطرق لتشفير المعلومات. ومع ذلك، لنقل المعلومات من كمبيوتر إلى آخر، كان من الضروري تطوير معيار موحد. لذلك، في عام 1963، ظهر جدول ترميز ASCII في الولايات المتحدة الأمريكية. في ذلك، يرتبط أي رمز من أبجدية الكمبيوتر برقمه التسلسلي في التمثيل الثنائي. تم استخدام ASCII في الأصل فقط في الولايات المتحدة وأصبح فيما بعد معيارًا دوليًا لأجهزة الكمبيوتر.

تنقسم رموز ASCII إلى جزأين. يعتبر النصف الأول فقط من هذا الجدول هو المعيار الدولي. يتضمن أحرفًا بأرقام تسلسلية من 0 (مرمزة بـ 00000000) إلى 127 (مرمزة بـ 01111111).

رقم سري

ترميز النص ASCII

رمز

0000 0000 - 0001 1111

تسمى الأحرف التي يتراوح عددها N من 0 إلى 31 بأحرف التحكم. وتتمثل وظيفتها في "إدارة" عملية عرض النص على شاشة أو جهاز طباعة، وإعطاء إشارة صوتية، وما إلى ذلك.

0010 0000 - 0111 1111

الأحرف من N من 32 إلى 127 (الجزء القياسي من الجدول) - الحروف الكبيرة والصغيرة من الأبجدية اللاتينية، والأرقام العاشرة، وعلامات الترقيم، بالإضافة إلى الأقواس المختلفة والرموز التجارية وغيرها. يمثل الحرف 32 مسافة.

1000 0000 - 1111 1111

يمكن أن يكون للأحرف ذات N من 128 إلى 255 (الجزء البديل من الجدول أو صفحة الرموز) متغيرات مختلفة، كل منها له رقم خاص به. يتم استخدام صفحة الرموز لتحديد الحروف الهجائية الوطنية التي تختلف عن اللاتينية. على وجه الخصوص، بمساعدتها يتم تنفيذ ترميز ASCII للأحرف الروسية.

في الجدول، يتم كتابة الترميزات بالأحرف الكبيرة وتتبع بعضها البعض بالترتيب الأبجدي، وتكون الأرقام بترتيب تصاعدي. يظل هذا المبدأ هو نفسه بالنسبة للأبجدية الروسية.

أحرف التحكم

تم إنشاء جدول ترميز ASCII في الأصل لتلقي المعلومات وإرسالها عبر جهاز لم يتم استخدامه لفترة طويلة، مثل المبرقة. وفي هذا الصدد، تم تضمين أحرف غير قابلة للطباعة في مجموعة الأحرف، واستخدامها كأوامر للتحكم في هذا الجهاز. تم استخدام أوامر مماثلة في طرق مراسلة ما قبل الكمبيوتر مثل شفرة مورس وما إلى ذلك.

أكثر أحرف المبرقة شيوعًا هو NUL (00). ولا يزال يستخدم حتى اليوم في معظم لغات البرمجة للإشارة إلى نهاية السطر.

أين يتم استخدام ترميز ASCII؟

إن الكود القياسي الأمريكي ليس ضروريًا فقط لإدخال المعلومات النصية على لوحة المفاتيح. كما أنها تستخدم في الرسومات. على وجه الخصوص، في ASCII Art Maker، تمثل صور الامتدادات المتنوعة مجموعة من أحرف ASCII.

هناك نوعان من هذه المنتجات: تلك التي تؤدي وظيفة محرري الرسوم عن طريق تحويل الصور إلى نص وتلك التي تحول "الرسومات" إلى رسومات ASCII. على سبيل المثال، يعد الرمز التعبيري الشهير مثالًا رئيسيًا لرمز الترميز.

يمكن أيضًا استخدام ASCII عند إنشاء مستند HTML. وفي هذه الحالة يمكنك إدخال مجموعة معينة من الأحرف، وعند عرض الصفحة سيظهر على الشاشة رمز يتوافق مع هذا الرمز.

يعد ASCII ضروريًا أيضًا لإنشاء مواقع ويب متعددة اللغات، حيث يتم استبدال الأحرف غير المضمنة في جدول وطني محدد برموز ASCII.

بعض الملامح

تم استخدام ASCII في الأصل لتشفير المعلومات النصية باستخدام 7 بتات (تم ترك واحدة فارغة)، ولكنه يعمل اليوم كـ 8 بتات.

تختلف الحروف الموجودة في الأعمدة الموجودة بالأعلى والأسفل عن بعضها البعض في جزء واحد فقط. وهذا يقلل بشكل كبير من تعقيد عملية التدقيق.

استخدام ASCII في Microsoft Office

إذا لزم الأمر، يمكن استخدام هذا النوع من ترميز معلومات النص في برامج تحرير النصوص من Microsoft مثل Notepad وOffice Word. ومع ذلك، قد لا تتمكن من استخدام بعض الوظائف عند الكتابة في هذه الحالة. على سبيل المثال، لن تتمكن من استخدام نص غامق لأن ترميز ASCII يحافظ فقط على معنى المعلومات، متجاهلاً مظهرها وشكلها العام.

التوحيد القياسي

اعتمدت منظمة ISO معايير ISO 8859. تحدد هذه المجموعة ترميزات ثمانية بت لمجموعات لغات مختلفة. على وجه التحديد، ISO 8859-1 هو جدول ASCII موسع للولايات المتحدة ودول أوروبا الغربية. والمواصفة ISO 8859-5 عبارة عن جدول يستخدم للأبجدية السيريلية، بما في ذلك اللغة الروسية.

لعدد من الأسباب التاريخية، تم استخدام معيار ISO 8859-5 لفترة قصيرة جدًا.

بالنسبة للغة الروسية، يتم استخدام الترميزات التالية فعليًا في الوقت الحالي:

  • CP866 (صفحة الرموز 866) أو DOS،والذي يُطلق عليه غالبًا ترميز GOST البديل. تم استخدامه بنشاط حتى منتصف التسعينيات من القرن الماضي. في الوقت الحالي لا يتم استخدامه عمليا.
  • كوي-8.تم تطوير هذا التشفير في السبعينيات والثمانينيات، وهو حاليًا المعيار المقبول عمومًا لرسائل البريد الإلكتروني على شبكة RuNet. ويستخدم على نطاق واسع في أنظمة التشغيل يونكس، بما في ذلك لينكس. النسخة "الروسية" من KOI-8 تسمى KOI-8R. بالإضافة إلى ذلك، هناك إصدارات للغات السيريلية الأخرى، مثل الأوكرانية.
  • صفحة الرموز 1251 (CP 1251، Windows - 1251).تم تطويره بواسطة Microsoft لتوفير الدعم للغة الروسية في بيئة Windows.

كانت الميزة الرئيسية لمعيار CP866 الأول هي الحفاظ على الأحرف الزائفة في نفس المواضع كما هو الحال في Extended ASCII. وهذا جعل من الممكن تشغيل برامج نصية أجنبية الصنع، مثل برنامج Norton Commander الشهير، دون تعديلات. حاليًا، يتم استخدام CP866 للبرامج التي تم تطويرها لنظام Windows والتي تعمل في وضع نص ملء الشاشة أو في نوافذ نصية، بما في ذلك FAR Manager.

تعد نصوص الكمبيوتر المكتوبة بترميز CP866 نادرة جدًا هذه الأيام، ولكنها هي التي يتم استخدامها لأسماء الملفات الروسية في نظام التشغيل Windows.

"يونيكود"

في الوقت الحالي، هذا الترميز هو الأكثر استخدامًا. يتم تقسيم رموز Unicode إلى مناطق. الأول (U+0000 إلى U+007F) يتضمن أحرف ASCII مع الرموز. ويلي ذلك مناطق الأحرف الخاصة بالنصوص الوطنية المختلفة، بالإضافة إلى علامات الترقيم والرموز الفنية. بالإضافة إلى ذلك، يتم حجز بعض رموز Unicode في حالة الحاجة إلى تضمين أحرف جديدة في المستقبل.

الآن أنت تعلم أنه في ASCII، يتم تمثيل كل حرف كمجموعة من 8 أصفار وآحاد. بالنسبة لغير المتخصصين، قد تبدو هذه المعلومات غير ضرورية وغير مثيرة للاهتمام، لكن ألا تريد أن تعرف ما الذي يجري "في أدمغة" حاسوبك الشخصي؟!

يفهم الكمبيوتر عملية تحويلها إلى نموذج يسمح بنقل هذه البيانات أو تخزينها أو معالجتها تلقائيًا بشكل أكثر ملاءمة. وتستخدم جداول مختلفة لهذا الغرض. كان ASCII هو أول نظام تم تطويره في الولايات المتحدة للعمل مع النص الإنجليزي، والذي انتشر لاحقًا في جميع أنحاء العالم. المقالة أدناه مخصصة لوصفها وميزاتها وخصائصها واستخدامها مرة أخرى.

عرض وتخزين المعلومات في جهاز الكمبيوتر

يتم تشكيل الرموز الموجودة على شاشة الكمبيوتر أو هذه الأداة الرقمية المحمولة أو تلك بناءً على مجموعات من الأشكال المتجهة لأحرف مختلفة ورمز يسمح لك بالعثور على الرمز الذي يجب إدراجه في المكان المناسب. وهو يمثل سلسلة من البتات. وبالتالي، يجب أن يتوافق كل حرف بشكل فريد مع مجموعة من الأصفار والواحدات، والتي تظهر بترتيب فريد معين.

كيف بدأ كل شيء

تاريخياً، كانت أجهزة الكمبيوتر الأولى باللغة الإنجليزية. لتشفير المعلومات الرمزية فيها، كان يكفي استخدام 7 بتات فقط من الذاكرة، في حين تم تخصيص بايت واحد يتكون من 8 بتات لهذا الغرض. وكان عدد الأحرف التي يفهمها الكمبيوتر في هذه الحالة 128 حرفاً، وشملت هذه الأحرف الأبجدية الإنجليزية وعلامات الترقيم والأرقام وبعض الأحرف الخاصة. كان الترميز المكون من سبعة بتات باللغة الإنجليزية مع الجدول المقابل (صفحة الرموز)، والذي تم تطويره في عام 1963، يسمى الكود القياسي الأمريكي لتبادل المعلومات. عادة، كان الاختصار "ترميز ASCII" ولا يزال يستخدم للدلالة عليه.

الانتقال إلى التعددية اللغوية

مع مرور الوقت، أصبحت أجهزة الكمبيوتر مستخدمة على نطاق واسع في البلدان غير الناطقة باللغة الإنجليزية. وفي هذا الصدد، كانت هناك حاجة إلى ترميزات تسمح باستخدام اللغات الوطنية. تقرر عدم إعادة اختراع العجلة واتخاذ ASCII كأساس. تم توسيع جدول الترميز في الإصدار الجديد بشكل ملحوظ. أتاح استخدام البت الثامن ترجمة 256 حرفًا إلى لغة الكمبيوتر.

وصف

يحتوي ترميز ASCII على جدول مقسم إلى جزأين. يعتبر النصف الأول فقط معيارًا دوليًا مقبولًا بشكل عام. ويشمل:

  • أحرف ذات أرقام تسلسلية من 0 إلى 31، مشفرة بتسلسلات من 00000000 إلى 00011111. وهي مخصصة لأحرف التحكم التي تتحكم في عملية عرض النص على الشاشة أو الطابعة، وإصدار إشارة صوتية، وما إلى ذلك.
  • تشكل الأحرف ذات NN في الجدول من 32 إلى 127، والمشفرة بالتسلسلات من 00100000 إلى 01111111، الجزء القياسي من الجدول. وتشمل هذه المسافة (N 32)، وحروف الأبجدية اللاتينية (أحرف صغيرة وكبيرة)، والأرقام المكونة من عشرة أرقام من 0 إلى 9، وعلامات الترقيم، والأقواس ذات الأنماط المختلفة والرموز الأخرى.
  • أحرف ذات أرقام تسلسلية من 128 إلى 255، مشفرة بتسلسلات من 10000000 إلى 11111111. وتشمل هذه الحروف الأبجدية الوطنية غير اللاتينية. هذا هو الجزء البديل من جدول ASCII الذي يستخدم لتحويل الأحرف الروسية إلى نموذج كمبيوتر.

بعض الخصائص

تتضمن ميزات ترميز ASCII الفرق بين الأحرف "A" - "Z" للأحرف الصغيرة والكبيرة بمقدار بت واحد فقط. يعمل هذا الظرف على تبسيط تحويل السجل إلى حد كبير، بالإضافة إلى التحقق مما إذا كان ينتمي إلى نطاق معين من القيم. بالإضافة إلى ذلك، يتم تمثيل جميع الحروف في نظام ترميز ASCII بأرقام تسلسلية خاصة بها في الأبجدية، والتي يتم كتابتها بـ 5 أرقام في نظام الأرقام الثنائية، يسبقها 011 2 للأحرف الصغيرة و010 2 للأحرف الكبيرة.

إحدى ميزات ترميز ASCII هي تمثيل 10 أرقام - "0" - "9". في نظام الأرقام الثاني تبدأ بالرقم 00112 وتنتهي بقيمتين رقميتين. وبالتالي، فإن 0101 2 يعادل الرقم العشري خمسة، لذا تتم كتابة الحرف "5" كـ 0011 01012. واستنادًا إلى ما سبق، يمكنك بسهولة تحويل أرقام BCD إلى سلسلة ASCII عن طريق إضافة تسلسل البت 00112 إلى كل قضمة على غادر.

"يونيكود"

كما تعلم، يلزم وجود آلاف الأحرف لعرض النصوص بلغات مجموعة جنوب شرق آسيا. لا يمكن وصف هذا العدد منها بأي شكل من الأشكال في بايت واحد من المعلومات، لذلك حتى الإصدارات الموسعة من ASCII لم تعد قادرة على تلبية الاحتياجات المتزايدة للمستخدمين من مختلف البلدان.

وبالتالي، نشأت الحاجة إلى إنشاء ترميز نص عالمي، تم تطويره، بالتعاون مع العديد من قادة صناعة تكنولوجيا المعلومات العالمية، من قبل اتحاد Unicode. أنشأ متخصصوها نظام UTF 32، حيث تم تخصيص 32 بت لتشفير حرف واحد، مما يشكل 4 بايت من المعلومات. وكان العيب الرئيسي هو الزيادة الحادة في مقدار الذاكرة المطلوبة بما يصل إلى 4 مرات، الأمر الذي أدى إلى العديد من المشاكل.

في الوقت نفسه، بالنسبة لمعظم البلدان التي تنتمي لغاتها الرسمية إلى المجموعة الهندية الأوروبية، فإن عدد الأحرف الذي يساوي 232 أكثر من اللازم.

نتيجة لمزيد من العمل من قبل المتخصصين من اتحاد Unicode، ظهر ترميز UTF-16. لقد أصبح خيار تحويل المعلومات الرمزية الذي يناسب الجميع سواء من حيث حجم الذاكرة المطلوبة أو عدد الأحرف المشفرة. ولهذا السبب تم اعتماد UTF-16 افتراضيًا ويتطلب حجز 2 بايت لحرف واحد.

حتى هذا الإصدار المتقدم والناجح إلى حد ما من Unicode كان به بعض العيوب، وبعد الانتقال من الإصدار الموسع من ASCII إلى UTF-16، تضاعف وزن المستند.

وفي هذا الصدد، تقرر استخدام ترميز UTF-8 المتغير الطول. في هذه الحالة، يتم ترميز كل حرف من النص المصدر كتسلسل يتراوح طوله من 1 إلى 6 بايت.

اتصل بالرمز القياسي الأمريكي لتبادل المعلومات

يتم تشفير جميع الأحرف اللاتينية ذات الطول المتغير UTF-8 في بايت واحد، كما هو الحال في نظام التشفير ASCII.

الميزة الخاصة لـ YTF-8 هي أنه في حالة النص باللغة اللاتينية دون استخدام أحرف أخرى، حتى البرامج التي لا تفهم Unicode ستظل قادرة على قراءتها. بمعنى آخر، يصبح ترميز نص ASCII الأساسي ببساطة جزءًا من UTF الجديد المتغير الطول. تشغل الأحرف السيريلية في YTF-8 2 بايت، وعلى سبيل المثال، الأحرف الجورجية - 3 بايت. من خلال إنشاء UTF-16 و8، تم حل المشكلة الرئيسية المتمثلة في إنشاء مساحة رمز واحدة في الخطوط. منذ ذلك الحين، أصبح بإمكان مصنعي الخطوط ملء الجدول فقط بنماذج متجهة لأحرف النص بناءً على احتياجاتهم.

تفضل أنظمة التشغيل المختلفة ترميزات مختلفة. لتتمكن من قراءة وتحرير النصوص المكتوبة بترميز مختلف، يتم استخدام برامج تحويل النص الروسية. تحتوي بعض برامج تحرير النصوص على محولات ترميز مدمجة وتسمح لك بقراءة النص بغض النظر عن التشفير.

الآن أنت تعرف عدد الأحرف الموجودة في ترميز ASCII وكيف ولماذا تم تطويره. وبطبيعة الحال، اليوم معيار يونيكود هو الأكثر انتشارا في العالم. ومع ذلك، يجب ألا ننسى أنه يعتمد على ASCII، لذا ينبغي تقدير مساهمة مطوريه في مجال تكنولوجيا المعلومات.

تسمى مجموعة الأحرف التي يُكتب بها النص الأبجدية.

عدد الحروف في الأبجدية هو قوة.

صيغة لتحديد كمية المعلومات: ن = 2 ب,

حيث N هي قوة الأبجدية (عدد الأحرف)،

ب – عدد البتات (الوزن المعلوماتي للرمز).

يمكن للأبجدية التي تبلغ سعتها 256 حرفًا أن تستوعب جميع الأحرف الضرورية تقريبًا. تسمى هذه الأبجدية كافٍ.

لأن 256 = 2 8، فإن وزن الحرف الواحد هو 8 بت.

أعطيت وحدة القياس 8 بت الاسم 1 بايت:

1 بايت = 8 بت.

يستهلك الرمز الثنائي لكل حرف في نص الكمبيوتر بايت واحد من الذاكرة.

كيف يتم تمثيل المعلومات النصية في ذاكرة الكمبيوتر؟

تعد سهولة ترميز الأحرف بايت بايت أمرًا واضحًا لأن البايت هو أصغر جزء قابل للعنونة من الذاكرة، وبالتالي يمكن للمعالج الوصول إلى كل حرف على حدة عند معالجة النص. ومن ناحية أخرى، فإن 256 حرفًا يعد عددًا كافيًا لتمثيل مجموعة واسعة من المعلومات الرمزية.

الآن يطرح السؤال، أي رمز ثنائي مكون من ثمانية بتات سيتم تخصيصه لكل حرف.

من الواضح أن هذا أمر مشروط، يمكنك التوصل إلى العديد من طرق التشفير.

يتم ترقيم كافة الأحرف الأبجدية للكمبيوتر من 0 إلى 255. ويتوافق كل رقم مع رمز ثنائي مكون من ثمانية بتات من 00000000 إلى 11111111. هذا الرمز هو ببساطة الرقم التسلسلي للحرف في نظام الأرقام الثنائية.

يسمى الجدول الذي يتم فيه تعيين أرقام تسلسلية لجميع أحرف الأبجدية الخاصة بالكمبيوتر بجدول الترميز.

تستخدم أنواع مختلفة من أجهزة الكمبيوتر جداول ترميز مختلفة.

أصبح الجدول هو المعيار الدولي لأجهزة الكمبيوتر أسكي(اقرأ أسكي) (الكود القياسي الأمريكي لتبادل المعلومات).

ينقسم جدول رموز ASCII إلى قسمين.

النصف الأول فقط من الجدول هو المعيار الدولي، أي. رموز بأرقام من 0 (00000000)، حتى 127 (01111111).

هيكل جدول ترميز ASCII
رقم سري شفرة رمز
0 - 31 00000000 - 00011111

عادةً ما تسمى الرموز ذات الأرقام من 0 إلى 31 برموز التحكم.
وتتمثل وظيفتها في التحكم في عملية عرض النص على الشاشة أو الطباعة، وإصدار إشارة صوتية، وترميز النص، وما إلى ذلك.

32 - 127 00100000 - 01111111

الجزء القياسي من الجدول (الإنجليزية). يتضمن ذلك الأحرف الصغيرة والكبيرة من الأبجدية اللاتينية، والأرقام العشرية، وعلامات الترقيم، وجميع أنواع الأقواس، والرموز التجارية وغيرها.
الحرف 32 عبارة عن مساحة، أي. موضع فارغ في النص.
تنعكس جميع العلامات الأخرى في علامات معينة.

128 - 255 10000000 - 11111111

الجزء البديل من الجدول (بالروسية).
النصف الثاني من جدول رموز ASCII، المسمى صفحة الرموز (128 رمزًا، بدءًا من 10000000 وينتهي بـ 11111111)، يمكن أن يحتوي على خيارات مختلفة، كل خيار له رقم خاص به.
يتم استخدام صفحة الرموز بشكل أساسي لاستيعاب الحروف الهجائية الوطنية غير اللاتينية. في الترميزات الوطنية الروسية، يتم وضع أحرف من الأبجدية الروسية في هذا الجزء من الجدول.

النصف الأول من جدول رموز ASCII

يرجى ملاحظة أنه في جدول الترميز، يتم ترتيب الحروف (الأحرف الكبيرة والصغيرة) حسب الترتيب الأبجدي، ويتم ترتيب الأرقام بترتيب تصاعدي. يسمى هذا التقيد بالترتيب المعجمي في ترتيب الرموز بمبدأ الترميز المتسلسل للأبجدية.

بالنسبة لأحرف الأبجدية الروسية، يلاحظ أيضا مبدأ الترميز المتسلسل.

النصف الثاني من جدول رموز ASCII

لسوء الحظ، يوجد حاليًا خمسة ترميزات سيريلية مختلفة (KOI8-R وWindows.MS-DOS وMacintosh وISO). ولهذا السبب، غالبا ما تنشأ مشاكل عند نقل النص الروسي من كمبيوتر إلى آخر، ومن نظام برمجي إلى آخر.

من الناحية التاريخية، كان أحد المعايير الأولى لترميز الحروف الروسية على أجهزة الكمبيوتر هو KOI8 ("رمز تبادل المعلومات، 8 بت"). تم استخدام هذا الترميز مرة أخرى في السبعينيات على أجهزة الكمبيوتر من سلسلة الكمبيوتر ES، ومن منتصف الثمانينات بدأ استخدامه في الإصدارات الروسية الأولى من نظام التشغيل UNIX.

منذ أوائل التسعينيات، وقت هيمنة نظام التشغيل MS DOS، ظل ترميز CP866 ("CP" يعني "صفحة الرموز"، "صفحة الرموز").

تستخدم أجهزة كمبيوتر Apple التي تعمل بنظام التشغيل Mac OS ترميز Mac الخاص بها.

بالإضافة إلى ذلك، وافقت منظمة المعايير الدولية (ISO) على ترميز آخر يسمى ISO 8859-5 كمعيار للغة الروسية.

الترميز الأكثر شيوعًا المستخدم حاليًا هو Microsoft Windows، والمختصر CP1251.

منذ أواخر التسعينيات، تم حل مشكلة توحيد ترميز الأحرف من خلال إدخال معيار دولي جديد يسمى يونيكود. هذا ترميز 16 بت، أي. يخصص 2 بايت من الذاكرة لكل حرف. وبطبيعة الحال، وهذا يزيد من حجم الذاكرة التي تشغلها 2 مرات. لكن جدول التعليمات البرمجية هذا يسمح بإدراج ما يصل إلى 65536 حرفًا. تتضمن المواصفات الكاملة لمعيار Unicode جميع الأبجديات الموجودة والمنقرضة والمصنوعة في العالم، بالإضافة إلى العديد من الرموز الرياضية والموسيقية والكيميائية وغيرها.

دعونا نحاول استخدام جدول ASCII لتخيل الشكل الذي ستبدو عليه الكلمات في ذاكرة الكمبيوتر. التمثيل الداخلي للكلمات في ذاكرة الحاسوب

يحدث أحيانًا أنه لا يمكن قراءة نص يتكون من أحرف الأبجدية الروسية المستلمة من كمبيوتر آخر - يظهر نوع من "التعويذة" على شاشة الشاشة. يحدث هذا لأن أجهزة الكمبيوتر تستخدم ترميزات أحرف مختلفة للغة الروسية.