Mã hóa ký tự như ANSI và Unicode là gì, và chúng khác nhau như thế nào?

Sep 28, 2025
Đám mây và Internet
NỘI DUNG KHÔNG ĐƯỢC CHỨNG MINH

ASCII, UTF-8, ISO-8859… Bạn có thể đã thấy những biệt danh kỳ lạ này nổi xung quanh, nhưng chúng thực sự có nghĩa là gì? Đọc tiếp khi chúng tôi giải thích mã hóa ký tự là gì và cách các từ viết tắt này liên quan đến văn bản thuần túy mà chúng ta thấy trên màn hình.

Khối xây dựng cơ bản

Khi chúng ta nói về ngôn ngữ viết, chúng ta nói về các chữ cái là các khối xây dựng của từ, sau đó xây dựng câu, đoạn văn, v.v. Chữ cái là biểu tượng đại diện cho âm thanh. Khi bạn nói về ngôn ngữ, bạn đang nói về các nhóm âm thanh kết hợp với nhau để tạo thành một loại ý nghĩa nào đó. Mỗi hệ thống ngôn ngữ có một tập hợp các quy tắc và định nghĩa phức tạp chi phối các ý nghĩa đó. Nếu bạn có một từ, nó sẽ vô dụng trừ khi bạn biết ngôn ngữ đó là từ gì và bạn sử dụng nó với những người nói ngôn ngữ đó.

(So ​​sánh các tập lệnh Grantha, Tulu và Malayalam, Hình ảnh từ Wikipedia )

Trong thế giới máy tính, chúng tôi sử dụng thuật ngữ "ký tự". Một ký tự là một khái niệm trừu tượng, được xác định bởi các tham số cụ thể, nhưng nó là đơn vị cơ bản của ý nghĩa. Chữ ‘A’ trong tiếng Latinh không giống với chữ ‘alpha’ trong tiếng Hy Lạp hoặc chữ ‘alif’ trong tiếng Ả Rập vì chúng có ngữ cảnh khác nhau - chúng đến từ các ngôn ngữ khác nhau và có cách phát âm hơi khác nhau - vì vậy chúng ta có thể nói rằng chúng là các ký tự khác nhau. Biểu diễn trực quan của một ký tự được gọi là “glyph” và các bộ glyph khác nhau được gọi là phông chữ. Các nhóm nhân vật thuộc về một “tập hợp” hoặc “tiết mục”.

Khi bạn nhập một đoạn văn và bạn thay đổi phông chữ, bạn sẽ không thay đổi giá trị ngữ âm của các chữ cái, bạn sẽ thay đổi giao diện của chúng. Nó chỉ là mỹ phẩm (nhưng không phải là không quan trọng!). Một số ngôn ngữ, như tiếng Ai Cập cổ đại và tiếng Trung Quốc, có chữ tượng hình; chúng thể hiện toàn bộ ý tưởng thay vì âm thanh và cách phát âm của chúng có thể thay đổi theo thời gian và khoảng cách. Nếu bạn thay thế một ký tự này cho một ký tự khác, bạn đang thay thế một ý tưởng. Nó không chỉ là thay đổi các chữ cái, nó còn thay đổi một biểu tượng.

Mã hóa ký tự

(Hình ảnh từ Wikipedia )

Khi bạn gõ một cái gì đó trên bàn phím hoặc tải một tập tin, làm thế nào máy tính biết được nội dung sẽ hiển thị? Đó là cách mã hóa ký tự. Văn bản trên máy tính của bạn thực ra không phải là các chữ cái, nó là một chuỗi các giá trị chữ và số được ghép nối. Mã hóa ký tự hoạt động như một khóa cho các giá trị tương ứng với ký tự nào, giống như cách chính tả ra lệnh âm thanh nào tương ứng với các chữ cái nào. Mã Morse là một loại mã hóa ký tự. Nó giải thích cách các nhóm đơn vị dài và ngắn như tiếng bíp đại diện cho các ký tự. Trong mã Morse, các ký tự chỉ là chữ cái tiếng Anh, số và các điểm dừng đầy đủ. Có nhiều bảng mã ký tự máy tính dịch thành chữ cái, số, dấu trọng âm, dấu câu, ký hiệu quốc tế, v.v.

Thường trong chủ đề này, thuật ngữ "các trang mã" cũng được sử dụng. Về cơ bản, chúng là mã hóa ký tự được sử dụng bởi các công ty cụ thể, thường có những sửa đổi nhỏ. Ví dụ: trang mã Windows 1252 (trước đây gọi là ANSI 1252) là một dạng sửa đổi của ISO-8859-1. Chúng chủ yếu được sử dụng như một hệ thống nội bộ để chỉ các mã hóa ký tự tiêu chuẩn và được sửa đổi dành riêng cho cùng một hệ thống. Ban đầu, mã hóa ký tự không quá quan trọng vì các máy tính không giao tiếp với nhau. Với việc Internet ngày càng trở nên nổi bật và việc kết nối mạng là một sự xuất hiện phổ biến, nó ngày càng trở nên quan trọng trong cuộc sống hàng ngày của chúng ta mà chúng ta không hề nhận ra.

Nhiều loại khác nhau

(Hình ảnh từ sarah sosiak )

Có rất nhiều bảng mã ký tự khác nhau trên mạng và có rất nhiều lý do cho điều đó. Bạn chọn sử dụng bảng mã ký tự nào tùy thuộc vào nhu cầu của bạn. Nếu bạn giao tiếp bằng tiếng Nga, bạn nên sử dụng bảng mã ký tự hỗ trợ tốt Cyrillic. Nếu bạn giao tiếp bằng tiếng Hàn, thì bạn sẽ muốn thứ gì đó đại diện cho Hangul và Hanja. Nếu bạn là một nhà toán học, thì bạn muốn một thứ gì đó có tất cả các ký hiệu khoa học và toán học được thể hiện tốt, cũng như các ký tự chữ Hy Lạp và Latinh. Nếu bạn là một người thích chơi khăm, có thể bạn sẽ được lợi từ văn bản lộn ngược . Và, nếu bạn muốn tất cả các loại tài liệu đó được xem bởi bất kỳ người nào nhất định, bạn cần có một kiểu mã hóa khá phổ biến và dễ truy cập.

Chúng ta hãy xem xét một số cái phổ biến hơn.

(Trích bảng ASCII, Hình ảnh từ asciitable.com )

  • ASCII - Mã tiêu chuẩn Mỹ để trao đổi thông tin là một trong những cách mã hóa ký tự cũ hơn. Ban đầu nó được phát minh ra dựa trên các mã điện báo và phát triển theo thời gian để bao gồm nhiều ký hiệu hơn và một số ký tự điều khiển không in được hiện đã lỗi thời. Nó có thể là cơ bản nhất mà bạn có thể hiểu được về các hệ thống hiện đại, vì nó chỉ giới hạn trong bảng chữ cái Latinh không có các ký tự có dấu. Mã hóa 7-bit của nó chỉ cho phép 128 ký tự, đó là lý do tại sao có một số biến thể không chính thức được sử dụng trên khắp thế giới.
  • ISO-8859 - Nhóm mã hóa ký tự được sử dụng rộng rãi nhất của Tổ chức Tiêu chuẩn hóa Quốc tế là số 8859. Mỗi mã hóa cụ thể được chỉ định bởi một số, thường được bắt đầu bằng biệt danh mô tả, ví dụ: ISO-8859-3 (Latinh-3), ISO-8859-6 (Latinh / Ả Rập). Đây là một tập hợp siêu của ASCII, có nghĩa là 128 giá trị đầu tiên trong bảng mã giống như ASCII. Tuy nhiên, nó là 8-bit và cho phép 256 ký tự, vì vậy nó xây dựng từ đó và bao gồm một loạt các ký tự rộng hơn nhiều, với mỗi mã hóa cụ thể tập trung vào một bộ tiêu chí khác nhau. Latin-1 bao gồm một loạt các chữ cái và ký hiệu có dấu, nhưng sau đó đã được thay thế bằng một bộ sửa đổi có tên Latin-9 bao gồm các ký hiệu được cập nhật như ký hiệu Euro.

(Trích văn tự Tây Tạng, Unicode v4, từ unicode.org )

  • Unicode - Chuẩn mã hóa này hướng đến tính phổ quát. Nó hiện bao gồm 93 tập lệnh được sắp xếp thành nhiều khối, với nhiều tập lệnh khác đang được thực hiện. Unicode hoạt động khác với các bộ ký tự khác ở chỗ thay vì mã hóa trực tiếp cho một glyph, mỗi giá trị được hướng xa hơn đến một “điểm mã”. Đây là các giá trị thập lục phân tương ứng với các ký tự nhưng bản thân các ký tự được cung cấp theo cách riêng biệt bởi chương trình, chẳng hạn như trình duyệt web của bạn. Các điểm mã này thường được mô tả như sau: U + 0040 (có nghĩa là ‘@’ ). Các bảng mã cụ thể theo tiêu chuẩn Unicode là UTF-8 và UTF-16. UTF-8 cố gắng cho phép tương thích tối đa với ASCII. Nó là 8 bit, nhưng cho phép tất cả các ký tự thông qua cơ chế thay thế và nhiều cặp giá trị cho mỗi ký tự. UTF-16 loại bỏ khả năng tương thích ASCII hoàn hảo để có khả năng tương thích 16 bit hoàn chỉnh hơn với tiêu chuẩn.
  • ISO-10646 - Đây không phải là một bảng mã thực tế, chỉ là một bộ ký tự của Unicode đã được tiêu chuẩn hóa bởi ISO. Điều này chủ yếu quan trọng bởi vì đó là kho ký tự được HTML sử dụng. Thiếu một số chức năng nâng cao hơn được cung cấp bởi Unicode cho phép đối chiếu và tập lệnh từ phải sang trái cùng với từ trái sang phải. Tuy nhiên, nó hoạt động rất tốt để sử dụng trên Internet vì nó cho phép sử dụng nhiều loại script và cho phép trình duyệt diễn giải các glyph. Điều này làm cho việc bản địa hóa dễ dàng hơn.

Tôi nên sử dụng mã hóa nào?

Chà, ASCII phù hợp với hầu hết người nói tiếng Anh, nhưng không phù hợp với nhiều người khác. Bạn sẽ thấy ISO-8859-1 thường xuyên hơn, hoạt động cho hầu hết các ngôn ngữ Tây Âu. Các phiên bản khác của ISO-8859 hoạt động cho các chữ viết Kirin, Ả Rập, Hy Lạp hoặc các chữ viết cụ thể khác. Tuy nhiên, nếu bạn muốn hiển thị nhiều tập lệnh trong cùng một tài liệu hoặc trên cùng một trang web, UTF-8 cho phép khả năng tương thích tốt hơn nhiều. Nó cũng hoạt động thực sự hiệu quả đối với những người sử dụng dấu câu thích hợp, các ký hiệu toán học hoặc các ký tự khác, chẳng hạn như hình vuông và hộp kiểm .

(Nhiều ngôn ngữ trong một tài liệu, Ảnh chụp màn hình của gujaratsamachar.com )

Tuy nhiên, mỗi bộ đều có những hạn chế. ASCII bị hạn chế về dấu câu, vì vậy nó không hoạt động cực kỳ hiệu quả cho các chỉnh sửa chính xác về mặt đánh máy. Bạn đã bao giờ chỉ gõ copy / paste từ Word để có một số kết hợp glyphs kỳ lạ chưa? Đó là nhược điểm của ISO-8859, hay chính xác hơn, khả năng hoạt động tương hỗ được cho là của nó với các trang mã dành riêng cho hệ điều hành (chúng tôi đang xem xét BẠN, Microsoft!). Hạn chế lớn của UTF-8 là thiếu hỗ trợ thích hợp trong việc chỉnh sửa và xuất bản các ứng dụng. Một vấn đề khác là các trình duyệt thường không diễn giải và chỉ hiển thị dấu thứ tự byte của một ký tự được mã hóa UTF-8. Điều này dẫn đến các glyph không mong muốn được hiển thị. Và tất nhiên, việc khai báo một bảng mã này và sử dụng các ký tự từ một bảng mã khác mà không khai báo / tham chiếu chúng đúng cách trên một trang web sẽ khiến trình duyệt khó hiển thị chúng một cách chính xác và các công cụ tìm kiếm lập chỉ mục chúng một cách thích hợp.

Đối với các tài liệu, bản thảo, v.v. của riêng bạn, bạn có thể sử dụng bất cứ thứ gì bạn cần để hoàn thành công việc. Tuy nhiên, theo như trên web, có vẻ như hầu hết mọi người đều đồng ý về việc sử dụng phiên bản UTF-8 không sử dụng dấu thứ tự byte, nhưng điều đó không hoàn toàn nhất trí. Như bạn có thể thấy, mỗi bảng mã ký tự có cách sử dụng, bối cảnh và điểm mạnh và điểm yếu riêng. Với tư cách là người dùng cuối, bạn có thể sẽ không phải giải quyết vấn đề này, nhưng giờ đây bạn có thể thực hiện thêm một bước nữa nếu muốn.

Cryptography Fundamentals - 03 Character Encodings ASCII , ANSI , UNICODE

What Is The Differences Between ANSI And Unicode

Unicode And Character Encoding

ASCII And Unicode Character Sets

Character Encoding And Unicode Tutorial

What Is Unicode? And Why Do I Need To Use Unicode?

Unicode, UTF 8 And ASCII

Character Encodings (Jack)

ANSI And Unicode Encoding, TCHAR LPSTR LPCSTR LPWSTR LPCWSTR LPTSTR LPCTSTR

Characters, Symbols And The Unicode Miracle - Computerphile

Code Pages, Character Encoding, Unicode, UTF-8 And The BOM - Computer Stuff They Didn't Teach You #2

Character Encoding


Đám mây và Internet - Các bài báo phổ biến nhất

Cách xem Lịch iCloud của bạn trên Android

Đám mây và Internet Sep 18, 2025

Nếu bạn sống cuộc sống của mình trên cả Android và iOS, bạn sẽ có thời gian dễ dàng hơn nếu sử dụng các dịch vụ của Google. Hầu hết tấ..


Các ứng dụng nhắn tin tốt nhất cho Android

Đám mây và Internet Jul 10, 2025

NỘI DUNG KHÔNG ĐƯỢC CHỨNG MINH Trong hơn một thập kỷ qua, cuộc gọi điện thoại đã không còn là hình thức giao tiếp chính của chúng ta với h..


Cách ngăn video Twitter tự động phát

Đám mây và Internet Jun 27, 2025

NỘI DUNG KHÔNG ĐƯỢC CHỨNG MINH Theo mặc định, khi bạn cuộn qua Dòng thời gian Twitter của mình, video sẽ bắt đầu tự động phát. Rất may, chú..


Cách theo dõi nguồn cấp dữ liệu Twitter trong trình đọc RSS của bạn

Đám mây và Internet May 15, 2025

Trình đọc RSS là một cách tuyệt vời để cập nhật tin tức. Thật không may, nhiều trang web đã rời xa RSS và chuyển sang chỉ xuất bản tất cả ..


Cách sử dụng Trello để biến việc quản lý dự án trở thành một làn gió mới

Đám mây và Internet Jun 8, 2025

NỘI DUNG KHÔNG ĐƯỢC CHỨNG MINH Trello có thể là một cách tuyệt vời để quản lý các dự án, giao tiếp với nhóm của bạn, sắp xếp các ý tư..


Cách tạo và quản lý danh bạ trong Outlook 2013

Đám mây và Internet Dec 3, 2024

NỘI DUNG KHÔNG ĐƯỢC CHỨNG MINH Outlook sẽ không được sử dụng nhiều nếu bạn không có danh bạ. Chắc chắn, bạn có thể nhập địa ch..


Cách bật Trình đọc PDF tích hợp của Firefox

Đám mây và Internet Sep 7, 2025

NỘI DUNG KHÔNG ĐƯỢC CHỨNG MINH Firefox 15 bao gồm một trình đọc PDF hoàn toàn mới được tích hợp trong trình duyệt – đối với nhữ..


Cách sử dụng các toán tử tìm kiếm nâng cao của Bing: 8 mẹo để có tìm kiếm tốt hơn

Đám mây và Internet Mar 1, 2025

NỘI DUNG KHÔNG ĐƯỢC CHỨNG MINH Google có thể vẫn là công cụ tìm kiếm hàng đầu, nhưng Bing đang bắt đầu đứng vững. Bing có nhiều toán tử ..


Thể loại