מהן קידודי תווים כמו ANSI ו- Unicode, וכיצד הם נבדלים?

Sep 28, 2025
ענן ואינטרנט
תוכן ללא הכנסה

ASCII, UTF-8, ISO-8859 ... אולי ראיתם את הכינויים המוזרים האלה צפים, אבל מה הם בעצם מתכוונים? המשך לקרוא כאשר אנו מסבירים מהו קידוד תווים וכיצד ראשי תיבות אלה קשורים לטקסט הפשוט שאנו רואים על המסך.

אבני בניין בסיסיות

כשאנחנו מדברים על שפה כתובה, אנחנו מדברים על האותיות שהן אבני הבניין של מילים, שבונות אז משפטים, פסקאות וכו '. אותיות הן סמלים המייצגים צלילים. כשאתה מדבר על שפה, אתה מדבר על קבוצות צלילים שמתאחדות ליצירת משמעות כלשהי. לכל מערכת שפות יש מערכת מורכבת של כללים והגדרות השולטים במשמעויות אלה. אם יש לך מילה, זה חסר תועלת אלא אם כן אתה יודע מאיזו שפה אתה משתמש ואתה משתמש עם אחרים הדוברים את השפה הזו.

(השוואה בין סקריפטים של גרנתה, טולו ומלאיים, תמונה מתוך ויקיפדיה )

בעולם המחשבים אנו משתמשים במונח "אופי". דמות היא סוג של מושג מופשט, המוגדר על ידי פרמטרים ספציפיים, אך היא יחידת המשמעות הבסיסית. הלטיני 'A' אינו זהה ל'אלפא 'היווני או' alif 'בערבית מכיוון שיש להם הקשרים שונים - הם משפות שונות ויש להם הגייה שונה במקצת - כך שנוכל לומר שהם תווים שונים. הייצוג החזותי של דמות נקרא "גליף" וסטים שונים של גליפים נקראים גופנים. קבוצות דמויות שייכות ל"סט "או ל"רפרטואר".

כשאתה מקליד פיסקה ומשנה את הגופן, אתה לא משנה את הערכים הפונטיים של האותיות, אתה משנה את המראה שלהם. זה פשוט קוסמטי (אבל לא חשוב!). בשפות מסוימות, כמו מצרים וסינית עתיקה, יש אידיאוגרמות; אלה מייצגים רעיונות שלמים במקום צלילים, והגייתם יכולה להשתנות לאורך זמן ומרחק. אם אתה מחליף דמות אחת לדמות אחרת, אתה מחליף רעיון. זה יותר מסתם החלפת אותיות, זה שינוי אידיאוגרמה.

קידוד תווים

(תמונה מ ויקיפדיה )

כשאתה מקליד משהו במקלדת או טוען קובץ, איך המחשב יודע מה להציג? לשם כך נועד קידוד תווים. טקסט במחשב שלך אינו למעשה אותיות, אלא סדרה של ערכים אלפאנומריים משויכים. קידוד הדמויות משמש כמפתח שעבורו הערכים תואמים לאילו תווים, בדומה לאופן שבו הכתיבה מכתיבה אילו צלילים תואמים לאילו אותיות. קוד מורס הוא מעין קידוד תווים. זה מסביר כיצד קבוצות של יחידות ארוכות וקצרות כגון צפצופים מייצגות תווים. בקוד מורס, התווים הם רק אותיות באנגלית, מספרים ונקודות נקודה. ישנם קידודים רבים של תווי מחשב המתורגמים לאותיות, מספרים, סימני מבטא, סימני פיסוק, סמלים בינלאומיים וכן הלאה.

לעתים קרובות בנושא זה משתמשים גם במונח "דפי קוד". הם למעשה קידודים אופיים המשמשים חברות ספציפיות, לעתים קרובות עם שינויים קלים. לדוגמה, דף הקוד של Windows 1252 (בעבר נקרא ANSI 1252) הוא צורה שונה של ISO-8859-1. הם משמשים בעיקר כמערכת פנימית להתייחס לקידודי תווים סטנדרטיים ומשתנים הספציפיים לאותן מערכות. בשלב מוקדם קידוד הדמויות לא היה כל כך חשוב מכיוון שמחשבים לא התקשרו זה עם זה. כשהאינטרנט עולה לגדולה והרשת היא תופעה שכיחה, היא הפכה לחשובה יותר ויותר בחיי היום יום שלנו מבלי שאנו בכלל מבינים זאת.

סוגים רבים ושונים

(תמונה מ שרה סוסיאק )

יש שם הרבה קידודי אופי שונים, ויש לכך הרבה סיבות. איזה קידוד תווים בחרת להשתמש תלוי מה הצרכים שלך. אם אתה מתקשר ברוסית, זה הגיוני להשתמש בקידוד תווים שתומך היטב בקירילית. אם אתה מתקשר בקוריאנית, אז תרצה משהו שמייצג היטב את האנגול ואת האנג'ה. אם אתה מתמטיקאי, אתה רוצה משהו שמייצגים היטב את כל הסמלים המדעיים והמתמטיים, כמו גם את הגליפים היוונים והלטיניים. אם אתה מעשה קונדס, אולי תרוויח מזה טקסט הפוך . ואם אתה רוצה שכל אדם מסוים יראה את כל סוגי המסמכים האלה, אתה רוצה קידוד די נפוץ ונגיש בקלות.

בואו נסתכל על כמה מהנפוצות יותר.

(קטע מטבלת ASCII, תמונה מתוך asciitable.com )

  • ASCII - הקוד הסטנדרטי האמריקאי למחלף מידע הוא אחד מקידודי התווים הישנים יותר. במקור הוא תוכנן על בסיס קודים טלגרפיים והתפתח עם הזמן כדי לכלול יותר סמלים וכמה תווי שליטה שאינם מיושנים כעת. זה כנראה בסיסי ככל שתוכל לקבל מבחינת מערכות מודרניות, מכיוון שהוא מוגבל לאלף-בית הלטיני ללא תווים מודגשים. קידוד 7 סיביות שלו מאפשר 128 תווים בלבד, ולכן ישנם מספר גרסאות לא רשמיות בשימוש ברחבי העולם.
  • ISO-8859 - קבוצת קידוד הדמויות הנפוצה ביותר של הארגון הבינלאומי לתקינה היא מספר 8859. כל קידוד ספציפי מיועד על ידי מספר, לרוב קידומת כינוי תיאורי, למשל. ISO-8859-3 (לטינית -3), ISO-8859-6 (לטינית / ערבית). זוהי קבוצה-על של ASCII, כלומר 128 הערכים הראשונים בקידוד זהים ל- ASCII. זה 8 סיביות, עם זאת, ומאפשר 256 תווים, כך שהוא מצטבר משם וכולל מגוון רחב יותר של תווים, כאשר כל קידוד ספציפי מתמקד במערך שונה של קריטריונים. לטינית -1 כללה חבורה של אותיות וסמלים מודגשים, אך מאוחר יותר הוחלפה במערך מתוקן שנקרא לטיני -9 הכולל גליפים מעודכנים כמו סמל האירו.

(קטע מהתסריט הטיבטי, Unicode v4, מתוך unicode.org )

  • יוניקוד - תקן קידוד זה מכוון לאוניברסליות. נכון לעכשיו הוא כולל 93 תסריטים המאורגנים בכמה בלוקים, עם רבים נוספים בעבודות. יוניקוד פועלת באופן שונה מקבוצות תווים אחרות, שבמקום קידוד ישיר של גליף, כל ערך מופנה ל"נקודת קוד ". אלו הם ערכים הקסדצימליים התואמים לתווים אך הגליפים עצמם מסופקים באופן מנותק על ידי התוכנית, כגון דפדפן האינטרנט שלך. נקודות קוד אלה מתוארות בדרך כלל כדלקמן: U + 0040 (שמתרגם ל- ‘@’ ). קידודים ספציפיים בתקן Unicode הם UTF-8 ו- UTF-16. UTF-8 מנסה לאפשר תאימות מרבית ל- ASCII. זה 8 סיביות, אבל מאפשר את כל התווים באמצעות מנגנון החלפה ומספר זוגות ערכים לכל תו. תעלות UTF-16 תואמות ASCII מושלמות לתאימות מלאה של 16 סיביות עם התקן.
  • ISO-10646 - זה לא קידוד בפועל, אלא רק ערכת תווים של Unicode שתוקנה על ידי ה- ISO. זה בעיקר חשוב כי זה רפרטואר הדמויות המשמש HTML. כמה מהפונקציות המתקדמות יותר המסופקות על ידי Unicode המאפשרות איסוף ומימין לשמאל לצד סקריפטים משמאל לימין חסרות. ובכל זאת, זה עובד טוב מאוד לשימוש באינטרנט מכיוון שהוא מאפשר שימוש במגוון רחב של סקריפטים ומאפשר לדפדפן לפרש את הגליפים. זה מקל על לוקליזציה.

באיזה קידוד עלי להשתמש?

ובכן, ASCII עובד עבור מרבית דוברי האנגלית, אך לא עבור הרבה אחרים. לעתים קרובות יותר תראה את ISO-8859-1, שעובד ברוב השפות במערב אירופה. הגרסאות האחרות של ISO-8859 עובדות עבור תסריטים קיריליים, ערבים, יוונים או אחרים. עם זאת, אם ברצונך להציג מספר סקריפטים באותו מסמך או באותו דף אינטרנט, UTF-8 מאפשר תאימות טובה בהרבה. זה גם עובד טוב מאוד עבור אנשים המשתמשים בפיסוק נכון, בסמלים במתמטיקה או בתווים מחוץ לשרוול, כגון ריבועים ותיבות סימון .

(מספר שפות במסמך אחד, צילום מסך של gujaratsamachar.com )

ישנם חסרונות לכל סט, עם זאת. ASCII מוגבל בסימני הפיסוק שלו, כך שהוא לא עובד בצורה מדהימה לעריכה נכונה טיפוגרפית. הקלדת פעם העתק / הדבק מ- Word רק כדי שיהיה לך שילוב מוזר של גליפים? זהו החיסרון של ISO-8859, או יותר נכון, יכולת ההפעלה כביכול שלו עם דפי קוד ספציפיים למערכת ההפעלה (אנחנו מסתכלים עליך, מיקרוסופט!). החיסרון העיקרי של UTF-8 הוא חוסר תמיכה נכונה בעריכה ובפרסום יישומים. בעיה נוספת היא שלעתים קרובות דפדפנים לא מפרשים ורק מציגים את סימן סדר בתים של תו מקודד UTF-8. כתוצאה מכך מוצגים גליפים לא רצויים. וכמובן, הכרזה על קידוד אחד ושימוש בתווים של אחרים מבלי להכריז / להפנות אותם כראוי בדף אינטרנט מקשה על הדפדפנים לעבד אותם בצורה נכונה ולמנועי חיפוש להוסיף אותם לאינדקס כראוי.

למסמכים, כתבי יד וכדומה בעצמך, אתה יכול להשתמש בכל מה שאתה צריך כדי לבצע את העבודה. ככל שהאינטרנט מגיע, נראה שרוב האנשים מסכימים להשתמש בגרסת UTF-8 שאינה משתמשת בסימן הזמנת בתים, אך זה לא תמימי דעים לחלוטין. כפי שאתה יכול לראות, לכל קידוד תווים השימוש, ההקשר והחוזק והחולשה שלו. כמשתמש קצה, ככל הנראה לא תצטרך להתמודד עם זה, אך כעת תוכל לקחת את הצעד הנוסף קדימה אם תבחר בכך.

תוכן כניסה . כניסה תחתונה

Cryptography Fundamentals - 03 Character Encodings ASCII , ANSI , UNICODE

What Is The Differences Between ANSI And Unicode

Unicode And Character Encoding

ASCII And Unicode Character Sets

Character Encoding And Unicode Tutorial

What Is Unicode? And Why Do I Need To Use Unicode?

Unicode, UTF 8 And ASCII

Character Encodings (Jack)

ANSI And Unicode Encoding, TCHAR LPSTR LPCSTR LPWSTR LPCWSTR LPTSTR LPCTSTR

Characters, Symbols And The Unicode Miracle - Computerphile

Code Pages, Character Encoding, Unicode, UTF-8 And The BOM - Computer Stuff They Didn't Teach You #2

Character Encoding


ענן ואינטרנט - המאמרים הפופולריים ביותר

גופנים ותוספי דפדפן המסייעים לסובלים מדיסלקציה לקרוא את האינטרנט

ענן ואינטרנט Nov 18, 2024

תוכן ללא הכנסה סטודיו G-Stock / Shutterstock דיסלקציה היא מצב למידה המאופיין בקשיים בקרי..


אפל אחסון iCloud של $ 0.99 $ מעליב

ענן ואינטרנט Nov 27, 2024

תוכן ללא הכנסה מחיר ה- iPhone XS של אפל 999 דולר, אך זה לא הסוף לכך. בקרוב תתחיל לראות אזהרות כי אחסון ה- iClou..


איך "לנמנם" מישהו במשך 30 יום בפייסבוק

ענן ואינטרנט Jan 9, 2025

תוכן ללא הכנסה עד כה, לא הייתה שום דרך להסיר מישהו באופן זמני מפיד החדשות שלך בפייסבוק. אתה יכול לחס..


כיצד להסיר כתובות אתרים מהצעות אוטומטיות ב- Chrome, Firefox ו- Internet Explorer

ענן ואינטרנט Feb 22, 2025

תוכן ללא הכנסה כולנו קרה: אתה מתחיל להקליד כתובת URL לפני כל החברים שלך, רק כדי לראות הצעות אוטומטיות..


כיצד לתקן איזון לבן ירוד בתמונות שלך באמצעות עיבוד לאחר

ענן ואינטרנט Oct 4, 2025

תוכן ללא הכנסה שבוע שעבר סיפרנו לך הכל על איזון לבן במצלמה וכיצד לתקן בעיות צבע ישירות במצלמה �..


גוגל משיקה כלי להסרת תוכנה ואיפוס דפדפן עבור Chrome

ענן ואינטרנט Oct 6, 2025

גוגל השיקה לאחרונה כלי חדש במאבק נגד תוכנות ריגול ותוכנות ריגול, וזה התחלה מצוינת לסייע בניקוי מחשב..


גש וערוך את המסמכים שלך באופן מקוון באמצעות Zoho

ענן ואינטרנט Jun 18, 2025

יש תוכנה כמו Microsoft Office זה נחמד, אבל מה אם אתה רחוק מהמחשב הרגיל שלך? תוכל לגשת ולעבוד על המסמכים שלך בכל מקו..


צמצם את סרגל הכלים של הסימניות לכפתור סרגל כלים

ענן ואינטרנט Nov 19, 2024

אז הפחתת את ממשק המשתמש שלך ב- Firefox כדי להחזיר יותר נדל"ן מסך, אך יש לך הרבה סימניות בסרגל הכלים של הסימניות..


קטגוריות