एएनएसआई और यूनिकोड जैसे चरित्र एनकोडिंग क्या हैं, और वे कैसे भिन्न होते हैं?

UNCACHED CONTENT

ASCII, UTF-8, ISO-8859… आपने इन अजीबोगरीब मुनियों को घूमते हुए देखा होगा, लेकिन वास्तव में इसका क्या मतलब है? आगे पढ़िए कि हम बताते हैं कि कौन सा वर्ण एन्कोडिंग है और ये समक्रमिक उस सादे पाठ से संबंधित हैं जिसे हम स्क्रीन पर देखते हैं।

मौलिक बिल्डिंग ब्लॉक्स

जब हम लिखित भाषा के बारे में बात करते हैं, तो हम अक्षरों को शब्दों के निर्माण खंड होने के बारे में बात करते हैं, जो तब वाक्य, पैराग्राफ और इसी तरह का निर्माण करते हैं। पत्र प्रतीक हैं जो ध्वनियों का प्रतिनिधित्व करते हैं। जब आप भाषा के बारे में बात करते हैं, तो आप उन ध्वनियों के समूह के बारे में बात कर रहे हैं जो किसी प्रकार का अर्थ बनाने के लिए एक साथ आते हैं। प्रत्येक भाषा प्रणाली में नियमों और परिभाषाओं का एक जटिल समूह होता है जो उन अर्थों को नियंत्रित करता है। यदि आपके पास एक शब्द है, तो यह तब तक बेकार है जब तक आप यह नहीं जानते कि यह किस भाषा का है और आप इसका उपयोग दूसरों के साथ करते हैं जो उस भाषा को बोलते हैं।

(ग्रांथा, तुलु, और मलयालम लिपियों की छवि, से छवि विकिपीडिया )

कंप्यूटर की दुनिया में, हम "वर्ण" शब्द का उपयोग करते हैं। एक चरित्र एक अमूर्त अवधारणा की तरह है, जिसे विशिष्ट मापदंडों द्वारा परिभाषित किया गया है, लेकिन यह अर्थ की मौलिक इकाई है। लैटिन ‘ए’ ग्रीक ’अल्फा’ या अरबी ‘अलिफ’ के समान नहीं है क्योंकि उनके अलग-अलग संदर्भ हैं - वे अलग-अलग भाषाओं से हैं और थोड़ा अलग उच्चारण हैं - इसलिए हम कह सकते हैं कि वे अलग-अलग वर्ण हैं। एक चरित्र के दृश्य प्रतिनिधित्व को "ग्लिफ़" कहा जाता है और ग्लिफ़ के विभिन्न सेटों को फोंट कहा जाता है। पात्रों के समूह एक "सेट" या एक "प्रदर्शनों की सूची" से संबंधित हैं।

जब आप एक पैराग्राफ टाइप करते हैं और आप फ़ॉन्ट बदलते हैं, तो आप अक्षरों के ध्वन्यात्मक मानों को नहीं बदल रहे हैं, आप यह देख रहे हैं कि आप कैसे दिख रहे हैं। यह सिर्फ कॉस्मेटिक है (लेकिन महत्वहीन नहीं है!)। कुछ भाषाएं, जैसे प्राचीन मिस्र और चीनी, में विचारधाराएं हैं; ये ध्वनियों के बजाय पूरे विचारों का प्रतिनिधित्व करते हैं, और उनके उच्चारण समय और दूरी के अनुसार भिन्न हो सकते हैं। यदि आप एक वर्ण को दूसरे के लिए प्रतिस्थापित करते हैं, तो आप एक विचार को प्रतिस्थापित कर रहे हैं। यह केवल पत्र बदलने से अधिक है, यह एक विचारधारा बदल रहा है।

अक्षरों को सांकेतिक अक्षरों में बदलना

(छवि से विकिपीडिया )

जब आप कीबोर्ड पर कुछ टाइप करते हैं, या एक फाइल लोड करते हैं, तो कंप्यूटर को कैसे पता चलता है कि क्या प्रदर्शित करना है? यह किस वर्ण एन्कोडिंग के लिए है आपके कंप्यूटर पर पाठ वास्तव में पत्र नहीं है, यह युग्मित अल्फ़ान्यूमेरिक मूल्यों की एक श्रृंखला है। चरित्र एन्कोडिंग एक कुंजी के रूप में कार्य करता है जिसके लिए मान किस वर्ण के अनुरूप होते हैं, बहुत कुछ यह है कि ऑर्थोग्राफी किस प्रकार के अक्षरों के अनुरूप है। मोर्स कोड एक तरह का कैरेक्टर एन्कोडिंग है। यह बताता है कि बीप्स जैसे लंबी और छोटी इकाइयों के समूह किस प्रकार वर्णों का प्रतिनिधित्व करते हैं। मोर्स कोड में, अक्षर सिर्फ अंग्रेजी अक्षर, संख्या और पूर्ण विराम हैं। कई कंप्यूटर वर्ण एन्कोडिंग हैं जो अक्षरों, संख्याओं, उच्चारण चिह्न, विराम चिह्न, अंतर्राष्ट्रीय प्रतीकों और इतने पर अनुवाद करते हैं।

अक्सर इस विषय पर, "कोड पृष्ठ" शब्द का भी उपयोग किया जाता है। वे अनिवार्य रूप से चरित्र एन्कोडिंग हैं जैसा कि विशिष्ट कंपनियों द्वारा उपयोग किया जाता है, अक्सर मामूली संशोधनों के साथ। उदाहरण के लिए, विंडोज 1252 कोड पेज (जिसे पहले ANSI 1252 के रूप में जाना जाता है) ISO-8859-1 का संशोधित रूप है। वे ज्यादातर मानक और संशोधित चरित्र एन्कोडिंग को संदर्भित करने के लिए एक आंतरिक प्रणाली के रूप में उपयोग किए जाते हैं जो समान प्रणालियों के लिए विशिष्ट हैं। आरंभ में, वर्ण एन्कोडिंग इतना महत्वपूर्ण नहीं था क्योंकि कंप्यूटर एक दूसरे के साथ संवाद नहीं करते थे। इंटरनेट के प्रमुख होने और नेटवर्किंग के एक सामान्य घटना होने के साथ, यह हमारे दिन-प्रतिदिन के जीवन का एक महत्वपूर्ण हिस्सा बन गया है, यहां तक कि इसे साकार किए बिना।

कई अलग-अलग प्रकार

(छवि से सरह सोसिाक )

वहाँ विभिन्न चरित्र एन्कोडिंग के बहुत सारे हैं, और उसके लिए बहुत सारे कारण हैं। आप किस चरित्र एन्कोडिंग का उपयोग करने के लिए चुनते हैं, यह इस बात पर निर्भर करता है कि आपकी ज़रूरतें क्या हैं। यदि आप रूसी में संवाद करते हैं, तो यह एक चरित्र एन्कोडिंग का उपयोग करने के लिए समझ में आता है जो सिरिलिक अच्छी तरह से समर्थन करता है। यदि आप कोरियाई में संवाद करते हैं, तो आप कुछ ऐसा चाहते हैं जो हंगुल और हंजा का प्रतिनिधित्व करे। यदि आप एक गणितज्ञ हैं, तो आप ऐसा कुछ चाहते हैं जिसमें सभी वैज्ञानिक और गणितीय प्रतीकों का अच्छी तरह से प्रतिनिधित्व किया गया हो, साथ ही साथ ग्रीक और लैटिन ग्लिफ़ भी। यदि आप एक मसखरा हैं, तो शायद आप इससे लाभान्वित हों उल्टा पाठ । और, यदि आप चाहते हैं कि उन सभी प्रकार के दस्तावेज़ों को किसी भी व्यक्ति द्वारा देखा जाए, तो आप ऐसा एन्कोडिंग चाहते हैं जो बहुत ही सामान्य और आसानी से सुलभ हो।

आइए कुछ अधिक सामान्य लोगों पर एक नज़र डालें।

(ASCII तालिका का अंश, छवि से ास्कीटाब्ले.कॉम )

ASCII - अमेरिकन स्टैंडर्ड कोड फॉर इंफॉर्मेशन इंटरचेंज पुराने कैरेक्टर एनकोडिंग में से एक है। यह मूल रूप से टेलीग्राफिक कोड के आधार पर तैयार किया गया था और समय के साथ-साथ अधिक प्रतीकों और कुछ पुराने-गैर-मुद्रित नियंत्रण वर्णों को शामिल करने के लिए विकसित हुआ। यह संभवतः आधुनिक प्रणालियों के संदर्भ में उतना ही बुनियादी है, जितना कि बिना उच्चारण पात्रों के लैटिन वर्णमाला तक सीमित। इसकी 7-बिट एन्कोडिंग केवल 128 वर्णों के लिए अनुमति देती है, यही वजह है कि दुनिया भर में कई अनौपचारिक संस्करण हैं।
आईएसओ 8859 - मानकीकरण के लिए अंतर्राष्ट्रीय संगठन चरित्र एन्कोडिंग का सबसे व्यापक रूप से उपयोग किया जाने वाला समूह संख्या 8859 है। प्रत्येक विशिष्ट एन्कोडिंग को एक संख्या द्वारा निर्दिष्ट किया जाता है, जिसे अक्सर वर्णनात्मक मॉनीकर द्वारा उपसर्ग किया जाता है, उदा। ISO-8859-3 (लैटिन -3), ISO-8859-6 (लैटिन / अरबी)। यह ASCII का सुपरसेट है, जिसका अर्थ है कि एन्कोडिंग में पहले 128 मान ASCII के समान हैं। हालाँकि, यह 8-बिट है, और 256 वर्णों के लिए अनुमति देता है, इसलिए यह वहाँ से दूर बनाता है और वर्णों का एक बहुत व्यापक सरणी शामिल करता है, जिसमें प्रत्येक विशिष्ट एन्कोडिंग मापदंड के एक अलग सेट पर ध्यान केंद्रित करता है। लैटिन -1 में उच्चारण अक्षरों और प्रतीकों का एक समूह शामिल था, लेकिन बाद में इसे लैटिन -9 नामक एक संशोधित सेट के साथ बदल दिया गया, जिसमें यूरो प्रतीक जैसे अपडेट किए गए ग्लिफ़ शामिल हैं।

(तिब्बती लिपि का अंश, यूनिकोड v4, से यूनिकोड.ऑर्ग )

यूनिकोड - इस एन्कोडिंग मानक का उद्देश्य सार्वभौमिकता है। इसमें वर्तमान में कई खंडों में आयोजित 93 लिपियों को शामिल किया गया है, जिसमें कई और कार्य भी हैं। यूनिकोड अन्य वर्ण सेटों की तुलना में अलग तरीके से काम करता है जिसमें सीधे ग्लिफ़ के लिए कोडिंग के बजाय, प्रत्येक मान को "कोड बिंदु" पर आगे निर्देशित किया जाता है। ये हेक्साडेसिमल मान हैं जो वर्णों से मेल खाते हैं लेकिन ग्लिफ़ स्वयं प्रोग्राम द्वारा अलग तरीके से प्रदान किए जाते हैं, जैसे कि आपका वेब ब्राउज़र। ये कोड बिंदु आमतौर पर निम्नानुसार दर्शाए गए हैं: U + 0040 (जो अनुवाद करता है ‘@’ )। यूनिकोड मानक के तहत विशिष्ट एनकोडिंग UTF-8 और UTF-16 हैं। UTF-8 ASCII के साथ अधिकतम संगतता के लिए अनुमति देने का प्रयास करता है। यह 8-बिट है, लेकिन एक प्रतिस्थापन तंत्र और प्रति चरित्र के कई जोड़े मूल्यों के माध्यम से सभी वर्णों के लिए अनुमति देता है। UTF-16 मानक के साथ एक अधिक पूर्ण 16-बिट संगतता के लिए सही ASCII संगतता को खोदता है।
आईएसओ 10646 - यह एक वास्तविक एन्कोडिंग नहीं है, बस यूनिकोड का एक सेट है जिसे आईएसओ द्वारा मानकीकृत किया गया है। यह सबसे महत्वपूर्ण है क्योंकि यह HTML द्वारा उपयोग किए गए चरित्र प्रदर्शनों की सूची है। यूनिकोड द्वारा प्रदान किए गए कुछ और अधिक उन्नत कार्य जो बाएं से दाएं स्क्रिप्टिंग के साथ-साथ टकराव और दाएं-बाएं की अनुमति देते हैं, गायब है। फिर भी, यह इंटरनेट पर उपयोग के लिए बहुत अच्छी तरह से काम करता है क्योंकि यह विभिन्न प्रकार की लिपियों के उपयोग की अनुमति देता है और ब्राउज़र को ग्लाइकल्स की व्याख्या करने की अनुमति देता है। इससे स्थानीयकरण कुछ हद तक आसान हो जाता है।

मुझे किस एन्कोडिंग का उपयोग करना चाहिए?

खैर, ASCII अधिकांश अंग्रेजी बोलने वालों के लिए काम करता है, लेकिन बहुत अधिक के लिए नहीं। अधिक बार आप ISO-8859-1 देख रहे होंगे, जो अधिकांश पश्चिमी यूरोपीय भाषाओं के लिए काम करता है। ISO-8859 के अन्य संस्करण सिरिलिक, अरबी, ग्रीक या अन्य विशिष्ट लिपियों के लिए काम करते हैं। हालाँकि, यदि आप एक ही दस्तावेज़ में या एक ही वेब पेज पर कई स्क्रिप्ट प्रदर्शित करना चाहते हैं, तो UTF-8 बहुत बेहतर संगतता की अनुमति देता है। यह उन लोगों के लिए भी वास्तव में अच्छी तरह से काम करता है जो उचित विराम चिह्न, गणित प्रतीकों या ऑफ-द-कफ वर्णों का उपयोग करते हैं, जैसे कि वर्गों और चेकबॉक्स .

(एक दस्तावेज़ में कई भाषाएँ, का स्क्रीनशॉट गुजरातसमाचार.कॉम )

हालांकि, प्रत्येक सेट में कमियां हैं। ASCII अपने विराम चिह्नों में सीमित है, इसलिए यह टाइपोग्राफिक रूप से सही संपादन के लिए अविश्वसनीय रूप से अच्छी तरह से काम नहीं करता है। कभी शब्द से कॉपी / पेस्ट टाइप करें केवल ग्लिफ़ के कुछ अजीब संयोजन के लिए? यह ISO-8859 की खामी है, या अधिक सही ढंग से, ओएस-विशिष्ट कोड पेजों के साथ इसकी अंतर-संचालनशीलता (हम आपको, Microsoft देख रहे हैं!)। UTF-8 की बड़ी कमी संपादन और प्रकाशन अनुप्रयोगों में उचित समर्थन की कमी है। एक और समस्या यह है कि ब्राउज़र अक्सर व्याख्या नहीं करते हैं और बस UTF-8 एन्कोडेड वर्ण का बाइट ऑर्डर चिह्न प्रदर्शित करते हैं। इससे अवांछित ग्लिफ़ प्रदर्शित होते हैं। और निश्चित रूप से, एक एन्कोडिंग की घोषणा करना और एक वेब पेज पर उन्हें ठीक से घोषित / संदर्भित किए बिना किसी दूसरे से वर्णों का उपयोग करना, ब्राउज़रों के लिए उन्हें सही तरीके से प्रस्तुत करना और खोज इंजन के लिए उन्हें उचित रूप से अनुक्रमित करना मुश्किल बनाता है।

अपने स्वयं के दस्तावेजों, पांडुलिपियों और इसके आगे के लिए, आप जो भी काम करना चाहते हैं उसका उपयोग कर सकते हैं। जहां तक वेब जाता है, हालांकि, ऐसा लगता है कि ज्यादातर लोग UTF-8 संस्करण का उपयोग करने पर सहमत होते हैं जो बाइट ऑर्डर मार्क का उपयोग नहीं करता है, लेकिन यह पूरी तरह से एकमत नहीं है। जैसा कि आप देख सकते हैं, प्रत्येक वर्ण एन्कोडिंग का अपना उपयोग, संदर्भ और ताकत और कमजोरियां हैं। एक अंतिम-उपयोगकर्ता के रूप में, आपको शायद इससे निपटना नहीं है, लेकिन अब यदि आप चुनते हैं तो आप अतिरिक्त कदम उठा सकते हैं।

.entry-सामग्री .entry-पाद लेख

एएनएसआई और यूनिकोड जैसे चरित्र एनकोडिंग क्या हैं, और वे कैसे भिन्न होते हैं?

मौलिक बिल्डिंग ब्लॉक्स

अक्षरों को सांकेतिक अक्षरों में बदलना

कई अलग-अलग प्रकार

मुझे किस एन्कोडिंग का उपयोग करना चाहिए?

Cryptography Fundamentals - 03 Character Encodings ASCII , ANSI , UNICODE

What Is The Differences Between ANSI And Unicode

Unicode And Character Encoding

ASCII And Unicode Character Sets

Character Encoding And Unicode Tutorial

What Is Unicode? And Why Do I Need To Use Unicode?

Unicode, UTF 8 And ASCII

Character Encodings (Jack)

ANSI And Unicode Encoding, TCHAR LPSTR LPCSTR LPWSTR LPCWSTR LPTSTR LPCTSTR

Characters, Symbols And The Unicode Miracle - Computerphile

Code Pages, Character Encoding, Unicode, UTF-8 And The BOM - Computer Stuff They Didn't Teach You #2

Character Encoding

क्लाउड और इंटरनेट - सर्वाधिक लोकप्रिय लेख

जब आप उन्हें स्विच करते हैं, तो रीलोडिंग टैब्स से क्रोम को कैसे रोकें

फेसबुक मैसेंजर के चैट को निजीकृत कैसे करें

सांकेतिक लिंक के साथ क्लाउड पर किसी भी फ़ोल्डर को कैसे सिंक करें

परिवर्तित इकाइयों और मुद्रा के लिए सर्वश्रेष्ठ मुफ्त कार्यक्रम और वेबसाइटें

वेंट्रिलो के लिए एक शुरुआती गाइड, गेमर्स के लिए वीओआईपी ऐप

समस्या निवारण और ऐडवर्ड्स को इंटरनेट एक्सप्लोरर 8 में प्रबंधित करें

बैकअप करने के लिए जीमेल के साथ बैकअप महत्वपूर्ण फाइलें ईमेल करें

OS X पर फ़ायरफ़ॉक्स में ड्रॉप-डाउन नियंत्रण के लिए टैब काम क्यों नहीं करता है?

श्रेणियाँ