HTML Unicode (UTF-8) Довідник
Консорціум Unicode
Консорціум Unicode розробляє стандарт Unicode. Їх мета — замінити існуючі набори символів стандартним форматом перетворення Юнікоду (UTF).
Стандарт Юнікод став успішним і реалізований у HTML, XML, Java, JavaScript, електронній пошті, ASP, PHP тощо. Стандарт Юнікод також підтримується в багатьох операційних системах і всіх сучасних браузерах.
Консорціум Unicode співпрацює з провідними організаціями з розробки стандартів, такими як ISO, W3C і ECMA.
Набори символів Unicode
Юнікод можна реалізувати різними наборами символів. Найпоширенішими кодуваннями є UTF-8 та UTF-16:
Набір символів | Опис |
---|---|
UTF-8 | Довжина символу в UTF8 може становити від 1 до 4 байтів. UTF-8 може представляти будь-який символ у стандарті Unicode. UTF-8 зворотно сумісний з ASCII. UTF-8 є кращим кодуванням для електронної пошти та веб-сторінок |
UTF-16 | 16-bit Unicode Transformation Format — це кодування символів змінної довжини для Unicode, здатне кодувати весь репертуар Unicode. UTF-16 використовується в основних операційних системах і середовищах, таких як Microsoft Windows, Java і .NET. |
Порада: Перші 128 символів Unicode (які відповідають один до одного з ASCII) кодуються за допомогою одного октету з тим самим двійковим значенням, що й ASCII, що робить дійсний текст ASCII також дійсним Unicode з кодуванням UTF-8.
HTML 4 підтримує UTF-8. HTML 5 підтримує як UTF-8, так і UTF-16!
Стандарт HTML5: Unicode UTF-8
Оскільки набори символів у ISO-8859 були обмежені за розміром і несумісні в багатомовних середовищах, Консорціум Unicode розробив стандарт Unicode.
Стандарт Unicode охоплює (майже) усі символи, розділові знаки та символи у світі.
Unicode дозволяє обробляти, зберігати та транспортувати текст незалежно від платформи та мови.
Кодування символів за умовчанням у HTML5 – це UTF-8.
Якщо на вебсторінці HTML5 використовується набір символів, відмінний від UTF-8, його слід вказати в тегі <meta>, наприклад:
Приклад
<meta charset="ISO-8859-1">
Різниця між Unicode та UTF-8
Unicode — це набір символів. UTF-8 є кодуванням.
Unicode — це список символів з унікальними десятковими числами (кодовими точками). A = 65, B = 66, C = 67, ....
Цей список десяткових чисел представляє рядок "hello": 104 101 108 108 111
Кодування означає, як ці числа перетворюються на двійкові числа, які зберігаються в комп’ютері:
Кодування UTF-8 зберігатиме "hello" як це (двійковий): 01101000 01100101 01101100 01101100 01101111
Кодування перетворює числа у двійкову форму. Набори символів перетворюють символи на числа.
Коди символів HTML5 UTF-8
Нижче наведено список деяких кодів символів UTF-8, які підтримуються HTML5:
Коди символів | Десятковий | Шістнадцятковий |
---|---|---|
C0 Елементи керування та базова латиниця | 0-127 | 0000-007F |
Елемент керування C1 і додаток Latin-1 | 128-255 | 0080-00FF |
Латинська розширена-A | 256-383 | 0100-017F |
Латинська розширена-B | 384-591 | 0180-024F |
Модифікатори інтервалів | 688-767 | 02B0-02FF |
Діакритичні знаки | 768-879 | 0300-036F |
Грецька і коптська | 880-1023 | 0370-03FF |
Основна кирилиця | 1024-1279 | 0400-04FF |
Додаткова кирилиця | 1280-1327 | 0500-052F |
Загальна пунктуація | 8192-8303 | 2000-206F |
Символи валют | 8352-8399 | 20A0-20CF |
Літеральні символи | 8448-8527 | 2100-214F |
Стрілки | 8592-8703 | 2190-21FF |
Математичні оператори | 8704-8959 | 2200-22FF |
Креслення коробок | 9472-9599 | 2500-257F |
Блокові елементи | 9600-9631 | 2580-259F |
Геометричні фігури | 9632-9727 | 25A0-25FF |
Різні символи | 9728-9983 | 2600-26FF |
Дінгбати | 9984-10175 | 2700-27BF |