Mitä ovat merkkikoodaukset, kuten ANSI ja Unicode, ja miten ne eroavat toisistaan?

Sep 28, 2025
Pilvi ja Internet
SÄHKÖISETTÖTÖN SISÄLTÖ

ASCII, UTF-8, ISO-8859… Olet ehkä nähnyt näiden outojen monikertojen kelluvan, mutta mitä ne oikeastaan ​​tarkoittavat? Lue, kun selitämme merkkien koodausta ja miten nämä lyhenteet liittyvät näytöllä näkyvään pelkkään tekstiin.

Peruselementit

Kun puhumme kirjoitetusta kielestä, puhumme siitä, että kirjaimet ovat sanojen rakennuspalikoita, jotka sitten rakentavat lauseita, kappaleita ja niin edelleen. Kirjaimet ovat symboleja, jotka edustavat ääniä. Kun puhut kielestä, puhut ääniryhmistä, jotka muodostavat yhdessä jonkinlaisen merkityksen. Jokaisella kielijärjestelmällä on monimutkainen joukko sääntöjä ja määritelmiä, jotka hallitsevat näitä merkityksiä. Jos sinulla on sana, se on hyödytön, ellet tiedä, mistä kielestä se tulee, ja käytät sitä muiden sitä kieltä puhuvien kanssa.

(Vertailu Granthan, Tulun ja Malajalamin käsikirjoituksista, Kuva Wikipedia )

Tietokoneiden maailmassa käytämme termiä "merkki". Hahmo on eräänlainen abstrakti käsite, jonka määrittelevät tietyt parametrit, mutta se on merkityksen perusyksikkö. Latinalainen A-kirjain ei ole sama kuin kreikan alfa tai arabialainen alif, koska niillä on erilainen konteksti - ne ovat eri kieliltä ja niillä on hieman erilaiset ääntämiset - joten voimme sanoa, että ne ovat erilaisia ​​merkkejä. Hahmon visuaalista esitystä kutsutaan "kuvaksi" ja erilaisia ​​kuvioryhmiä kutsutaan fonteiksi. Merkkiryhmät kuuluvat "sarjaan" tai "ohjelmistoon".

Kun kirjoitat kappaleen ja vaihdat kirjasinta, et muuta kirjainten foneettisia arvoja, vaan niiden ulkoasua. Se on vain kosmeettista (mutta ei merkityksetöntä!). Joillakin kielillä, kuten muinaisella egyptiläisellä ja kiinalla, on ideogrammit; nämä edustavat kokonaisia ​​ideoita äänien sijaan, ja niiden ääntämiset voivat vaihdella ajan ja etäisyyden mukaan. Jos korvaat yhden merkin toisella, korvataan idea. Se on muutakin kuin vain kirjainten muuttaminen, ideogrammin muuttaminen.

Merkkien koodaus

(Kuva Wikipedia )

Kun kirjoitat jotain näppäimistöön tai lataat tiedoston, mistä tietokone tietää mitä näytetään? Tähän merkkikoodaus on tarkoitettu. Tietokoneesi teksti ei itse asiassa ole kirjaimia, vaan sarja pareitettuja aakkosnumeerisia arvoja. Merkkikoodaus toimii avaimena, jonka arvot vastaavat mitä merkkejä, aivan kuten ortografia sanelee, mitkä äänet vastaavat mitä kirjaimia. Morse-koodi on eräänlainen merkkikoodaus. Siinä selitetään, kuinka pitkät ja lyhyet yksiköt, kuten äänimerkit, edustavat merkkejä. Morse-koodissa merkit ovat vain englanninkielisiä kirjaimia, numeroita ja pisteitä. On olemassa monia tietokonemerkkikoodauksia, jotka kääntyvät kirjaimiksi, numeroiksi, korostusmerkeiksi, välimerkkeiksi, kansainvälisiksi symboleiksi ja niin edelleen.

Usein tästä aiheesta käytetään myös termiä "koodisivut". Ne ovat lähinnä tiettyjen yritysten käyttämiä merkkikoodauksia, usein pienin muutoksin. Esimerkiksi Windows 1252 -koodisivu (aiemmin tunnettu nimellä ANSI 1252) on ISO-8859-1: n muokattu muoto. Niitä käytetään enimmäkseen sisäisenä järjestelmänä viittaamaan vakio- ja muokattuihin merkkikoodauksiin, jotka ovat ominaisia ​​samoille järjestelmille. Varhaisessa vaiheessa merkkien koodaus ei ollut niin tärkeää, koska tietokoneet eivät olleet yhteydessä toisiinsa. Internetin noustessa esiin ja verkostoituminen on yleistä, ja siitä on tullut yhä tärkeämpi jokapäiväisessä elämässämme edes ymmärtämättä sitä.

Monia erilaisia

(Kuva sarah sosiak )

Siellä on paljon erilaisia ​​merkkikoodauksia, ja siihen on paljon syitä. Minkä merkkikoodauksen valitset käyttöösi, riippuu tarpeistasi. Jos puhut venäjän kielellä, on järkevää käyttää merkkikoodausta, joka tukee hyvin kyrillistä. Jos puhut koreaksi, haluat jotain, joka edustaa hyvin Hangulia ja Hanjaa. Jos olet matemaatikko, haluat jotain, jossa kaikki tieteelliset ja matemaattiset symbolit sekä kreikkalaiset ja latinalaiset kuviot ovat hyvin edustettuina. Jos olet kepponen, saatat hyötyä siitä ylösalaisin teksti . Ja jos haluat, että kuka tahansa henkilö voi tarkastella kaikkia tämäntyyppisiä asiakirjoja, haluat melko tavallisen ja helposti saatavilla olevan koodauksen.

Katsotaanpa joitain yleisempiä.

(Ote ASCII - taulukosta, kuva asciitable.com )

  • ASCII - American Standard Code for Information Interchange on yksi vanhimmista merkkikoodauksista. Se kehitettiin alun perin lennätinkoodien perusteella ja kehittyi ajan myötä sisällyttämään enemmän symboleja ja joitain nyt vanhentuneita ei-tulostettuja ohjausmerkkejä. Se on luultavasti yhtä yksinkertainen kuin saat nykyaikaisissa järjestelmissä, koska se rajoittuu latinalaisiin aakkosiin ilman aksenttimerkkejä. Sen 7-bittinen koodaus sallii vain 128 merkkiä, minkä vuoksi ympäri maailmaa on käytössä useita epävirallisia variantteja.
  • ISO-8859 - Kansainvälisen standardointijärjestön yleisimmin käytetty merkkikoodausten ryhmä on numero 8859. Jokainen erityinen koodaus on merkitty numerolla, jonka etuliitteenä on usein kuvaileva monikerta, esim. ISO-8859-3 (Latin-3), ISO-8859-6 (Latin / Arabia). Se on ASCII-sarja, mikä tarkoittaa, että koodauksen 128 ensimmäistä arvoa ovat samat kuin ASCII. Se on kuitenkin 8-bittinen ja sallii 256 merkkiä, joten se rakentaa sieltä ja sisältää paljon laajemman merkkivalikoiman, jossa jokainen erityinen koodaus keskittyy erilaisiin kriteereihin. Latin-1 sisälsi joukon korostettuja kirjaimia ja symboleja, mutta se korvattiin myöhemmin uudistetulla Latin-9 -sarjalla, joka sisältää päivitetyt kuviot, kuten Euro-symboli.

(Ote Tiibetin käsikirjoituksesta, Unicode v4, sivulta unicode.org )

  • Unicode - Tämän koodausstandardin tavoitteena on universaalisuus. Se sisältää tällä hetkellä 93 komentosarjaa, jotka on järjestetty useisiin lohkoihin, ja paljon enemmän töissä. Unicode toimii eri tavalla kuin muut merkistöjoukot siinä, että jokainen arvo ohjataan glyfin koodaamisen sijaan edelleen "koodipisteeseen". Nämä ovat heksadesimaaliarvoja, jotka vastaavat merkkejä, mutta ohjelmaa, kuten verkkoselaimesi, tarjoaa itse kuviot erillään. Nämä koodipisteet kuvataan yleisesti seuraavasti: U + 0040 (mikä tarkoittaa ‘@’ ). Erityiset koodaukset Unicode-standardin alla ovat UTF-8 ja UTF-16. UTF-8 yrittää sallia maksimaalisen yhteensopivuuden ASCII: n kanssa. Se on 8-bittinen, mutta sallii kaikki merkit korvausmekanismin ja useita arvopareja merkkiä kohden. UTF-16 ojittaa täydellisen ASCII-yhteensopivuuden täydellisempään 16-bittiseen yhteensopivuuteen standardin kanssa.
  • ISO-10646 - Tämä ei ole varsinainen koodaus, vain ISO-standardoitu Unicode-merkistö. Se on enimmäkseen tärkeää, koska se on hahmoryhmä, jota HTML käyttää. Jotkut Unicoden tarjoamista kehittyneemmistä toiminnoista, jotka mahdollistavat lajittelun ja oikealta vasemmalle vasemmalta oikealle -koodauksen, puuttuvat. Silti se toimii erittäin hyvin Internetissä, koska se sallii useiden komentosarjojen käytön ja antaa selaimen tulkita kuviot. Tämä tekee lokalisoinnista hieman helpompaa.

Mitä koodausta minun pitäisi käyttää?

No, ASCII toimii useimmille englanninkielisille, mutta ei paljon muuta. Useammin näet ISO-8859-1: n, joka toimii useimmilla Länsi-Euroopan kielillä. Muut ISO-8859-versiot toimivat kyrillisillä, arabialaisilla, kreikkalaisilla tai muilla erityisillä skripteillä. Jos kuitenkin haluat näyttää useita komentosarjoja samassa asiakirjassa tai samalla verkkosivulla, UTF-8 mahdollistaa paljon paremman yhteensopivuuden. Se toimii myös hyvin ihmisille, jotka käyttävät oikeita välimerkkejä, matematiikkasymboleja tai mansetin ulkopuolisia merkkejä, kuten ruudut ja valintaruudut .

(Useita kieliä yhdessä asiakirjassa, kuvakaappaus gujaratsamachar.com )

Jokaisessa sarjassa on kuitenkin haittoja. ASCII: n välimerkkejä on rajoitettu, joten se ei toimi uskomattoman hyvin typografisesti oikeissa muokkauksissa. Oletko koskaan kirjoittanut kopioi / liitä vain Wordista, jotta sinulla on outo yhdistelmä kuvioita? Tämä on ISO-8859: n haittapuoli, tai tarkemmin sanottuna, sen oletettu yhteentoimivuus käyttöjärjestelmäkohtaisten koodisivujen kanssa (katsomme sinua, Microsoft!). UTF-8: n suurin haittapuoli on riittävän tuen puute sovellusten muokkauksessa ja julkaisemisessa. Toinen ongelma on, että selaimet eivät usein tulkitse UTF-8-koodatun merkin tavujärjestysmerkkiä. Tämän seurauksena ei-toivotut kuviot näytetään. Ja tietysti yhden koodauksen ilmoittaminen ja toisen merkkien käyttö ilmoittamatta tai viittaamatta niihin oikein verkkosivulla vaikeuttaa selainten renderointia ja hakukoneiden indeksoinnin asianmukaisesti.

Omissa asiakirjoissasi, käsikirjoituksissasi ja niin edelleen voit käyttää mitä tarvitset työn tekemiseen. Verkosta huolimatta näyttää siltä, ​​että useimmat ihmiset sopivat käyttävänsä UTF-8-versiota, joka ei käytä tavujärjestysmerkkiä, mutta se ei ole täysin yksimielistä. Kuten näette, jokaisella merkkikoodauksella on oma käyttö, konteksti sekä vahvuudet ja heikkoudet. Loppukäyttäjänä sinun ei todennäköisesti tarvitse käsitellä tätä, mutta nyt voit ottaa ylimääräisen askeleen eteenpäin, jos niin haluat.

.entry-sisältö .entry-alatunniste

Cryptography Fundamentals - 03 Character Encodings ASCII , ANSI , UNICODE

What Is The Differences Between ANSI And Unicode

Unicode And Character Encoding

ASCII And Unicode Character Sets

Character Encoding And Unicode Tutorial

What Is Unicode? And Why Do I Need To Use Unicode?

Unicode, UTF 8 And ASCII

Character Encodings (Jack)

ANSI And Unicode Encoding, TCHAR LPSTR LPCSTR LPWSTR LPCWSTR LPTSTR LPCTSTR

Characters, Symbols And The Unicode Miracle - Computerphile

Code Pages, Character Encoding, Unicode, UTF-8 And The BOM - Computer Stuff They Didn't Teach You #2

Character Encoding


Pilvi ja Internet - Suosituimmat artikkelit

Kuinka käyttää YouTuben jono-ominaisuutta

Pilvi ja Internet Nov 13, 2024

Hiljainen lukija Toisin kuin Netflix, YouTubea ei koskaan suunniteltu oikeaan katseluun. Voit asentaa laajennuksia, mutta ne eivät koskaan toimineet hyvin. N..


Kuinka vaatia moderaattorin hyväksyntää Facebook-ryhmän viesteille

Pilvi ja Internet Sep 8, 2025

SÄHKÖISETTÖTÖN SISÄLTÖ Oletuksena kuka tahansa jäsen voi lähettää mitä tahansa haluamaasi Facebook-ryhmiin. Tämä tarkoittaa, että he voivat lähettää hirvittävän..


Kuinka saada ilmoitus, kun viiva-painike tilaa jotain

Pilvi ja Internet Aug 7, 2025

Amazonin viiva-painikkeet ovat kätevä tapa tilata tarvikkeita, jotka sinun on ostettava säännöllisesti. Paina nappia ja pari päivää myöhemmin paketti ilmestyy kotiovellesi...


Kuinka mukauttaa Slackin ulkoasua teemojen avulla

Pilvi ja Internet Oct 7, 2025

SÄHKÖISETTÖTÖN SISÄLTÖ Monet käyttävät Slackia päivittäiseen ammatilliseen kommunikaatioon sekä yksinkertaisesti tuulen leviämiseen. Saman vanhan käyttöliittymän k..


Kuinka hallita Android-valokuviasi Chromesta SnapPea-valokuvien avulla

Pilvi ja Internet May 4, 2025

SÄHKÖISETTÖTÖN SISÄLTÖ Valokuvien ottaminen Android-puhelimellasi on hienoa, mutta on aika, jolloin sinun on saatettava nämä valokuvat tietokoneellesi. Hieman aikaa sitten..


Orange Firefox -valikon kohtien mukauttaminen

Pilvi ja Internet Jan 30, 2025

Yksi Firefoxin hienoista asioista on se, että se on täysin muokattavissa. Näytimme äskettäin miten muuta oranssin Firefox-valikkopainikkeen ulkoasua . Voit myös..


Parhaat sivustot ja ohjelmistot aivoriihiin ja ajatusten kartoitukseen

Pilvi ja Internet Nov 17, 2024

SÄHKÖISETTÖTÖN SISÄLTÖ Ajatuskartta on kaavio, jonka avulla voit visuaalisesti hahmotella tietoja, mikä auttaa sinua järjestymään, ratkaisemaan ongelmia ja tekemään p�..


Lähetä kuvia Photobucketiin helposti

Pilvi ja Internet Oct 9, 2025

SÄHKÖISETTÖTÖN SISÄLTÖ Oletko etsinyt nopeaa ja helppoa tapaa lisätä kuvia Photobucket-tilillesi? Nyt voit käyttää Firefoxin Photobucket Uploader -laajennusta. Peru..


Luokat