Τι είναι οι κωδικοποιήσεις χαρακτήρων όπως το ANSI και το Unicode και πώς διαφέρουν;

Sep 28, 2025
Cloud και Διαδίκτυο
ΑΠΕΛΕΥΘΕΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ

ASCII, UTF-8, ISO-8859… Μπορεί να έχετε δει αυτά τα παράξενα monikers να κυμαίνονται, αλλά τι σημαίνουν πραγματικά; Διαβάστε παρακάτω καθώς εξηγούμε τι είναι η κωδικοποίηση χαρακτήρων και πώς αυτά τα ακρωνύμια σχετίζονται με το απλό κείμενο που βλέπουμε στην οθόνη.

Βασικά δομικά στοιχεία

Όταν μιλάμε για γραπτή γλώσσα, μιλάμε για γράμματα που αποτελούν τα δομικά στοιχεία των λέξεων, τα οποία στη συνέχεια δημιουργούν προτάσεις, παραγράφους και ούτω καθεξής. Τα γράμματα είναι σύμβολα που αντιπροσωπεύουν τους ήχους. Όταν μιλάτε για γλώσσα, μιλάτε για ομάδες ήχων που ενώνονται για να σχηματίσουν κάποιο νόημα. Κάθε γλωσσικό σύστημα έχει ένα σύνθετο σύνολο κανόνων και ορισμών που διέπουν αυτές τις έννοιες. Εάν έχετε μια λέξη, είναι άχρηστη, εκτός αν γνωρίζετε από ποια γλώσσα προέρχεται και τη χρησιμοποιείτε με άλλους που μιλούν αυτήν τη γλώσσα.

(Σύγκριση σεναρίων Grantha, Tulu και Malayalam, Εικόνα από Βικιπαίδεια )

Στον κόσμο των υπολογιστών, χρησιμοποιούμε τον όρο «χαρακτήρας». Ένας χαρακτήρας είναι ένα είδος αφηρημένης έννοιας, που ορίζεται από συγκεκριμένες παραμέτρους, αλλά είναι η θεμελιώδης ενότητα του νοήματος. Το λατινικό «Α» δεν είναι το ίδιο με ένα ελληνικό «άλφα» ή ένα αραβικό «alif» επειδή έχουν διαφορετικά περιβάλλοντα - προέρχονται από διαφορετικές γλώσσες και έχουν ελαφρώς διαφορετικές προφορές - έτσι μπορούμε να πούμε ότι είναι διαφορετικοί χαρακτήρες. Η οπτική αναπαράσταση ενός χαρακτήρα ονομάζεται «γλύφος» και διαφορετικά σύνολα γλύφων ονομάζονται γραμματοσειρές. Ομάδες χαρακτήρων ανήκουν σε ένα «σύνολο» ή «ρεπερτόριο».

Όταν πληκτρολογείτε μια παράγραφο και αλλάζετε τη γραμματοσειρά, δεν αλλάζετε τις φωνητικές τιμές των γραμμάτων, αλλάζετε την εμφάνισή τους. Είναι απλώς καλλυντικό (αλλά όχι ασήμαντο!). Ορισμένες γλώσσες, όπως οι αρχαίοι Αιγύπτιοι και οι Κινέζοι, έχουν ιδεογράμματα. Αυτά αντιπροσωπεύουν ολόκληρες ιδέες αντί για ήχους και οι προφορές τους μπορεί να διαφέρουν με την πάροδο του χρόνου και της απόστασης. Αν αντικαταστήσετε έναν χαρακτήρα με έναν άλλο, αντικαθιστάτε μια ιδέα. Είναι κάτι περισσότερο από την απλή αλλαγή γραμμάτων, αλλάζει ένα ιδεόγραμμα.

Κωδικοποίηση χαρακτήρων

(Εικόνα από Βικιπαίδεια )

Όταν πληκτρολογείτε κάτι στο πληκτρολόγιο ή φορτώνετε ένα αρχείο, πώς ξέρει ο υπολογιστής τι να εμφανίσει; Γι 'αυτό είναι η κωδικοποίηση χαρακτήρων. Το κείμενο στον υπολογιστή σας δεν είναι στην πραγματικότητα γράμματα, είναι μια σειρά ζευγαρωμένων αλφαριθμητικών τιμών. Η κωδικοποίηση χαρακτήρων ενεργεί ως κλειδί για το οποίο οι τιμές αντιστοιχούν σε ποιους χαρακτήρες, όπως το πώς υπαγορεύει η ορθογραφία ποιοι ήχοι αντιστοιχούν σε ποια γράμματα. Ο κωδικός Morse είναι ένα είδος κωδικοποίησης χαρακτήρων. Εξηγεί πώς ομάδες μεγάλων και μικρών μονάδων όπως ηχητικά σήματα αντιπροσωπεύουν χαρακτήρες. Στον κώδικα Morse, οι χαρακτήρες είναι απλώς αγγλικά γράμματα, αριθμοί και τελείες. Υπάρχουν πολλές κωδικοποιήσεις χαρακτήρων υπολογιστών που μεταφράζονται σε γράμματα, αριθμούς, σημεία έμφασης, σημεία στίξης, διεθνή σύμβολα και ούτω καθεξής.

Συχνά σε αυτό το θέμα, χρησιμοποιείται επίσης ο όρος «σελίδες κώδικα». Είναι ουσιαστικά κωδικοποιήσεις χαρακτήρων όπως χρησιμοποιούνται από συγκεκριμένες εταιρείες, συχνά με μικρές τροποποιήσεις. Για παράδειγμα, η σελίδα κώδικα των Windows 1252 (παλαιότερα γνωστή ως ANSI 1252) είναι μια τροποποιημένη μορφή του ISO-8859-1. Χρησιμοποιούνται κυρίως ως εσωτερικό σύστημα για να αναφέρονται σε τυπικές και τροποποιημένες κωδικοποιήσεις χαρακτήρων που είναι συγκεκριμένες για τα ίδια συστήματα. Νωρίς, η κωδικοποίηση χαρακτήρων δεν ήταν τόσο σημαντική επειδή οι υπολογιστές δεν επικοινωνούσαν μεταξύ τους. Καθώς το Διαδίκτυο φεύγει σε εξέχουσα θέση και η δικτύωση είναι ένα κοινό φαινόμενο, έχει γίνει όλο και πιο σημαντικό για την καθημερινή μας ζωή χωρίς να το συνειδητοποιούμε καν.

Πολλοί διαφορετικοί τύποι

(Εικόνα από sarah sosiak )

Υπάρχουν πολλές διαφορετικές κωδικοποιήσεις χαρακτήρων εκεί έξω, και υπάρχουν πολλοί λόγοι για αυτό. Ο κωδικός που επιλέγετε να χρησιμοποιήσετε εξαρτάται από τις ανάγκες σας. Εάν επικοινωνείτε στα ρωσικά, είναι λογικό να χρησιμοποιείτε κωδικοποίηση χαρακτήρων που υποστηρίζει καλά τα κυριλλικά. Εάν επικοινωνείτε στα Κορεάτικα, τότε θα θέλετε κάτι που να αντιπροσωπεύει καλά τον Χανγκούλ και τη Χάντζα. Εάν είστε μαθηματικός, τότε θέλετε κάτι που να έχει όλα τα επιστημονικά και μαθηματικά σύμβολα, καθώς και τους ελληνικούς και λατινικούς γλύφους. Αν είσαι φάρσα, ίσως να επωφεληθείς αναποδογυρισμένο κείμενο . Και, εάν θέλετε όλα αυτά τα είδη εγγράφων να προβάλλονται από οποιοδήποτε συγκεκριμένο άτομο, θέλετε μια κωδικοποίηση που είναι αρκετά κοινή και εύκολα προσβάσιμη.

Ας ρίξουμε μια ματιά σε μερικές από τις πιο κοινές.

(Απόσπασμα πίνακα ASCII, Εικόνα από ασκηιταβλε.κομ )

  • ASCII - Ο αμερικανικός τυποποιημένος κώδικας για την ανταλλαγή πληροφοριών είναι ένας από τους παλαιότερους κωδικοποιήσεις χαρακτήρων. Αρχικά σχεδιάστηκε με βάση τηλεγραφικούς κωδικούς και εξελίχθηκε με την πάροδο του χρόνου ώστε να περιλαμβάνει περισσότερα σύμβολα και μερικούς ξεπερασμένους μη τυπωμένους χαρακτήρες ελέγχου. Είναι πιθανότατα τόσο βασικό όσο μπορείτε να αποκτήσετε όσον αφορά τα σύγχρονα συστήματα, καθώς περιορίζεται στο λατινικό αλφάβητο χωρίς τονισμένους χαρακτήρες. Η κωδικοποίηση 7-bit επιτρέπει μόνο 128 χαρακτήρες, γι 'αυτό υπάρχουν πολλές ανεπίσημες παραλλαγές σε όλο τον κόσμο.
  • ISO-8859 - Η πιο ευρέως χρησιμοποιούμενη ομάδα κωδικοποιήσεων χαρακτήρων του Διεθνούς Οργανισμού Τυποποίησης είναι ο αριθμός 8859. Κάθε συγκεκριμένη κωδικοποίηση ορίζεται από έναν αριθμό, συχνά προθεματικό από ένα περιγραφικό moniker, π.χ. ISO-8859-3 (Λατινικά-3), ISO-8859-6 (Λατινικά / Αραβικά). Είναι ένα υπερσύνολο του ASCII, που σημαίνει ότι οι πρώτες 128 τιμές στην κωδικοποίηση είναι ίδιες με το ASCII. Ωστόσο, είναι 8-bit και επιτρέπει 256 χαρακτήρες, οπότε δημιουργείται από εκεί και περιλαμβάνει μια πολύ ευρύτερη σειρά χαρακτήρων, με κάθε συγκεκριμένη κωδικοποίηση να εστιάζει σε ένα διαφορετικό σύνολο κριτηρίων. Το Latin-1 περιελάμβανε μια δέσμη τονισμένων γραμμάτων και συμβόλων, αλλά αργότερα αντικαταστάθηκε με ένα αναθεωρημένο σύνολο που ονομάζεται Latin-9 το οποίο περιλαμβάνει ενημερωμένους γλύφους όπως το σύμβολο του Ευρώ

(Απόσπασμα θιβετιανού σεναρίου, Unicode v4, από υνικόδη.οργ )

  • Unicode - Αυτό το πρότυπο κωδικοποίησης στοχεύει στην καθολικότητα. Αυτή τη στιγμή περιλαμβάνει 93 σενάρια οργανωμένα σε πολλά μπλοκ, με πολλά περισσότερα στα έργα. Το Unicode λειτουργεί διαφορετικά από άλλα σύνολα χαρακτήρων, αντί να κωδικοποιεί απευθείας για έναν γλύφο, κάθε τιμή κατευθύνεται περαιτέρω σε ένα «σημείο κώδικα» Αυτές είναι δεκαεξαδικές τιμές που αντιστοιχούν σε χαρακτήρες, αλλά οι ίδιοι οι γλύφοι παρέχονται με ανεξάρτητο τρόπο από το πρόγραμμα, όπως το πρόγραμμα περιήγησης ιστού. Αυτά τα σημεία κώδικα απεικονίζονται συνήθως ως εξής: U + 0040 (το οποίο μεταφράζεται σε ‘@’ ). Συγκεκριμένες κωδικοποιήσεις σύμφωνα με το πρότυπο Unicode είναι UTF-8 και UTF-16. Το UTF-8 επιχειρεί να επιτρέψει τη μέγιστη συμβατότητα με το ASCII. Είναι 8-bit, αλλά επιτρέπει όλους τους χαρακτήρες μέσω ενός μηχανισμού αντικατάστασης και πολλαπλών ζευγών τιμών ανά χαρακτήρα. Το UTF-16 χαράζει τέλεια συμβατότητα ASCII για πιο ολοκληρωμένη συμβατότητα 16-bit με το πρότυπο.
  • ISO-10646 - Δεν πρόκειται για πραγματική κωδικοποίηση, απλώς ένα σύνολο χαρακτήρων του Unicode που έχει τυποποιηθεί από το ISO. Είναι κυρίως σημαντικό γιατί είναι το ρεπερτόριο χαρακτήρων που χρησιμοποιείται από το HTML Λείπουν ορισμένες από τις πιο προηγμένες λειτουργίες που παρέχονται από το Unicode, οι οποίες επιτρέπουν την ταξινόμηση και τη δέσμευση από δεξιά προς τα αριστερά παράλληλα από τα αριστερά προς τα δεξιά. Ωστόσο, λειτουργεί πολύ καλά για χρήση στο Διαδίκτυο, καθώς επιτρέπει τη χρήση μιας μεγάλης ποικιλίας σεναρίων και επιτρέπει στο πρόγραμμα περιήγησης να ερμηνεύει τους γλύφους. Αυτό καθιστά τον εντοπισμό κάπως πιο εύκολο.

Τι κωδικοποίηση πρέπει να χρησιμοποιήσω;

Λοιπόν, το ASCII λειτουργεί για τους περισσότερους αγγλόφωνους, αλλά όχι για πολλά άλλα. Τις περισσότερες φορές θα βλέπετε το ISO-8859-1, το οποίο λειτουργεί για τις περισσότερες γλώσσες της Δυτικής Ευρώπης. Οι άλλες εκδόσεις του ISO-8859 λειτουργούν για κυριλλικά, αραβικά, ελληνικά ή άλλα συγκεκριμένα σενάρια. Ωστόσο, εάν θέλετε να εμφανίσετε πολλά σενάρια στο ίδιο έγγραφο ή στην ίδια ιστοσελίδα, το UTF-8 επιτρέπει πολύ καλύτερη συμβατότητα. Λειτουργεί επίσης πολύ καλά για άτομα που χρησιμοποιούν σωστά σημεία στίξης, μαθηματικά σύμβολα ή χαρακτήρες εκτός μανσέτας, όπως τετράγωνα και πλαίσια ελέγχου .

(Πολλές γλώσσες σε ένα έγγραφο, Στιγμιότυπο οθόνης του γυγαρατσαμάχαρ.κομ )

Υπάρχουν όμως μειονεκτήματα σε κάθε σετ. Το ASCII είναι περιορισμένο στα σημεία στίξης, οπότε δεν λειτουργεί εξαιρετικά καλά για τυπογραφικά σωστές τροποποιήσεις. Πληκτρολογήσατε ποτέ αντίγραφο / επικόλληση από το Word μόνο για να έχετε κάποιο περίεργο συνδυασμό γλύφων; Αυτό είναι το μειονέκτημα του ISO-8859, ή πιο σωστά, η υποτιθέμενη διαλειτουργικότητά του με συγκεκριμένες λειτουργικές σελίδες κώδικα (εξετάζουμε ΕΣΕΙΣ, Microsoft!). Το σημαντικότερο μειονέκτημα του UTF-8 είναι η έλλειψη κατάλληλης υποστήριξης στην επεξεργασία και δημοσίευση εφαρμογών. Ένα άλλο πρόβλημα είναι ότι τα προγράμματα περιήγησης συχνά δεν ερμηνεύουν και απλώς εμφανίζουν το σήμα παραγγελίας byte ενός κωδικοποιημένου χαρακτήρα UTF-8. Αυτό έχει ως αποτέλεσμα την εμφάνιση ανεπιθύμητων γλύφων. Και φυσικά, η δήλωση μιας κωδικοποίησης και η χρήση χαρακτήρων από μια άλλη χωρίς να τις δηλώσετε / αναφέρετε σωστά σε μια ιστοσελίδα καθιστά δύσκολο για τα προγράμματα περιήγησης να τα καταστήσουν σωστά και για τις μηχανές αναζήτησης να τα ευρετήσουν κατάλληλα.

Για τα δικά σας έγγραφα, χειρόγραφα και ούτω καθεξής, μπορείτε να χρησιμοποιήσετε ό, τι χρειάζεστε για να ολοκληρώσετε τη δουλειά. Όσον αφορά τον Ιστό, ωστόσο, φαίνεται ότι οι περισσότεροι άνθρωποι συμφωνούν να χρησιμοποιήσουν μια έκδοση UTF-8 που δεν χρησιμοποιεί σήμα παραγγελίας byte, αλλά αυτό δεν είναι εντελώς ομόφωνο. Όπως μπορείτε να δείτε, κάθε κωδικοποίηση χαρακτήρων έχει τη δική του χρήση, το περιβάλλον και τα δυνατά και αδύνατα σημεία. Ως τελικός χρήστης, πιθανότατα δεν θα χρειαστεί να το αντιμετωπίσετε, αλλά τώρα μπορείτε να κάνετε το επιπλέον βήμα προς τα εμπρός αν το επιλέξετε.

περιεχόμενο .entry-υποσέλιδο

Cryptography Fundamentals - 03 Character Encodings ASCII , ANSI , UNICODE

What Is The Differences Between ANSI And Unicode

Unicode And Character Encoding

ASCII And Unicode Character Sets

Character Encoding And Unicode Tutorial

What Is Unicode? And Why Do I Need To Use Unicode?

Unicode, UTF 8 And ASCII

Character Encodings (Jack)

ANSI And Unicode Encoding, TCHAR LPSTR LPCSTR LPWSTR LPCWSTR LPTSTR LPCTSTR

Characters, Symbols And The Unicode Miracle - Computerphile

Code Pages, Character Encoding, Unicode, UTF-8 And The BOM - Computer Stuff They Didn't Teach You #2

Character Encoding


Cloud και Διαδίκτυο - Τα πιο δημοφιλή άρθρα

Πώς να δημιουργήσετε αντίγραφα ασφαλείας και να επαναφέρετε τα μηνύματα WhatsApp με το Google Drive

Cloud και Διαδίκτυο Mar 21, 2025

ΑΠΕΛΕΥΘΕΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ Το WhatsApp είναι ένας πολύ καλός τρόπος για να μείνετε σε επαφή με τα αγαπ�..


Είστε ήδη ανεμιστήρας Spotify; Εδώ είναι 6 νέες δυνατότητες που ίσως έχετε χάσει

Cloud και Διαδίκτυο Nov 4, 2024

ΑΠΕΛΕΥΘΕΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ Το Spotify είχε μια μεγάλη χρονιά: αυτοί χτύπησε περισσότερους από 80 ε..


Πώς να μοιραστείτε τις φωτογραφίες σας iCloud με φίλους που δεν χρησιμοποιούν προϊόντα της Apple

Cloud και Διαδίκτυο Apr 17, 2025

ΑΠΕΛΕΥΘΕΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ Μοιράζεστε απασχολημένα φωτογραφίες διακοπών σε μια ροή φωτογραφιών i..


Μείνετε υγιείς ελαχιστοποιώντας όλες τις ενοχλητικές ειδοποιήσεις στο smartphone και τον υπολογιστή σας

Cloud και Διαδίκτυο Feb 14, 2025

Τα smartphone και οι υπολογιστές είναι μηχανήματα δημιουργίας ειδοποιήσεων Κάθε εφαρμογή θέλει να σας �..


Προσθέστε μια συνάρτηση QuickNote στον Firefox

Cloud και Διαδίκτυο Dec 15, 2024

Θα θέλατε να έχετε ένα ενσωματωμένο σημειωματάριο για το πρόγραμμα περιήγησης Firefox; Δείτε πόσο χρήσιμο μ..


Εκτελέστε εφαρμογές Web από την επιφάνεια εργασίας σας με το Mozilla Prism

Cloud και Διαδίκτυο Aug 29, 2025

Θέλετε να αποκτήσετε γρήγορα και εύκολα πρόσβαση στα αγαπημένα σας e-mail, κοινωνικούς λογαριασμούς και ισ..


Κάντε το Outlook να σταματήσει να χρησιμοποιεί τις ροές RSS του Internet Explorer

Cloud και Διαδίκτυο Jun 8, 2025

Έχετε παρατηρήσει ποτέ ότι το Microsoft Outlook χρησιμοποιεί τις ροές από την κοινή λίστα ροών IE7 ή IE8; Εάν δεν χρη..


Ενημέρωση Lazy Links της Δευτέρας από τα ιστολόγια How-To Geek

Cloud και Διαδίκτυο Sep 18, 2025

ΑΠΕΛΕΥΘΕΡΩΣΗ ΠΕΡΙΕΧΟΜΕΝΟΥ Αποφάσισα να χρησιμοποιήσω την τεμπελιά μου ως δικαιολογία για να προωθή�..


Κατηγορίες