НАЙКРАЩИЙ САЙТ ДЛЯ ВЕБ-РОЗРОБНИКІВ

HTML Набори символів

HTML Набір символів HTML ASCII HTML WIN-1252 HTML ISO-8859 HTML Символи HTML UTF-8

HTML UTF-8

Latin Основний Latin Додатковий Latin Розширений A Latin Розширений B Модифіковані літери Діакритичні мітки Грецька і коптська мови Кирилічна основна Кирилічна додаткова

HTML Символи

Загальна пунктуація Валютні символи Букви подібні до символів Стрілки Математичні оператори Блочні малюнки Блочні елементи Геометричні форми Різні символи Телепні Емодзі Емодзі смайли Емодзі тони шкіри

HTML Сутності

HTML4 Сутності HTML5 Сутності A HTML5 Сутності B HTML5 Сутності C HTML5 Сутності D HTML5 Сутності E HTML5 Сутності F HTML5 Сутності G HTML5 Сутності H HTML5 Сутності I HTML5 Сутності J HTML5 Сутності K HTML5 Сутності L HTML5 Сутності M HTML5 Сутності N HTML5 Сутності O HTML5 Сутності P HTML5 Сутності Q HTML5 Сутності R HTML5 Сутності S HTML5 Сутності T HTML5 Сутності U HTML5 Сутності V HTML5 Сутності W HTML5 Сутності X HTML5 Сутності Y HTML5 Сутності Z

HTML Набори символів. Уроки W3Schools українською для початківців

En

HTML Unicode (UTF-8) Довідник


Консорціум Unicode

Консорціум Unicode розробляє стандарт Unicode. Їх мета — замінити існуючі набори символів стандартним форматом перетворення Юнікоду (UTF).

Стандарт Юнікод став успішним і реалізований у HTML, XML, Java, JavaScript, електронній пошті, ASP, PHP тощо. Стандарт Юнікод також підтримується в багатьох операційних системах і всіх сучасних браузерах.

Консорціум Unicode співпрацює з провідними організаціями з розробки стандартів, такими як ISO, W3C і ECMA.


Набори символів Unicode

Юнікод можна реалізувати різними наборами символів. Найпоширенішими кодуваннями є UTF-8 та UTF-16:

Набір символів Опис
UTF-8 Довжина символу в UTF8 може становити від 1 до 4 байтів. UTF-8 може представляти будь-який символ у стандарті Unicode. UTF-8 зворотно сумісний з ASCII. UTF-8 є кращим кодуванням для електронної пошти та веб-сторінок
UTF-16 16-bit Unicode Transformation Format — це кодування символів змінної довжини для Unicode, здатне кодувати весь репертуар Unicode. UTF-16 використовується в основних операційних системах і середовищах, таких як Microsoft Windows, Java і .NET.

Порада: Перші 128 символів Unicode (які відповідають один до одного з ASCII) кодуються за допомогою одного октету з тим самим двійковим значенням, що й ASCII, що робить дійсний текст ASCII також дійсним Unicode з кодуванням UTF-8.

HTML 4 підтримує UTF-8. HTML 5 підтримує як UTF-8, так і UTF-16!


Стандарт HTML5: Unicode UTF-8

Оскільки набори символів у ISO-8859 були обмежені за розміром і несумісні в багатомовних середовищах, Консорціум Unicode розробив стандарт Unicode.

Стандарт Unicode охоплює (майже) усі символи, розділові знаки та символи у світі.

Unicode дозволяє обробляти, зберігати та транспортувати текст незалежно від платформи та мови.

Кодування символів за умовчанням у HTML5 – це UTF-8.

Якщо на вебсторінці HTML5 використовується набір символів, відмінний від UTF-8, його слід вказати в тегі <meta>, наприклад:

Приклад

<meta charset="ISO-8859-1">

Різниця між Unicode та UTF-8

Unicode — це набір символів. UTF-8 є кодуванням.

Unicode — це список символів з унікальними десятковими числами (кодовими точками). A = 65, B = 66, C = 67, ....

Цей список десяткових чисел представляє рядок "hello": 104 101 108 108 111

Кодування означає, як ці числа перетворюються на двійкові числа, які зберігаються в комп’ютері:

Кодування UTF-8 зберігатиме "hello" як це (двійковий): 01101000 01100101 01101100 01101100 01101111

Кодування перетворює числа у двійкову форму. Набори символів перетворюють символи на числа.


Коди символів HTML5 UTF-8

Нижче наведено список деяких кодів символів UTF-8, які підтримуються HTML5:

Коди символів Десятковий Шістнадцятковий
C0 Елементи керування та базова латиниця 0-127 0000-007F
Елемент керування C1 і додаток Latin-1 128-255 0080-00FF
Латинська розширена-A 256-383 0100-017F
Латинська розширена-B 384-591 0180-024F
Модифікатори інтервалів 688-767 02B0-02FF
Діакритичні знаки 768-879 0300-036F
Грецька і коптська 880-1023 0370-03FF
Основна кирилиця 1024-1279 0400-04FF
Додаткова кирилиця 1280-1327 0500-052F
Загальна пунктуація 8192-8303 2000-206F
Символи валют 8352-8399 20A0-20CF
Літеральні символи 8448-8527 2100-214F
Стрілки 8592-8703 2190-21FF
Математичні оператори 8704-8959 2200-22FF
Креслення коробок 9472-9599 2500-257F
Блокові елементи 9600-9631 2580-259F
Геометричні фігури 9632-9727 25A0-25FF
Різні символи 9728-9983 2600-26FF
Дінгбати 9984-10175 2700-27BF