Spec-Zone .ru
спецификации, руководства, описания, API
|
Символ является минимальным модулем текста, у которого есть семантическое значение.
Набор символов является набором символов, которые могли бы использоваться многократными языками. Например, латинский набор символов используется английским языком и большинством европейских языков, хотя греческий набор символов используется только греческим языком.
Кодированный набор символов является набором символов, где каждый символ присваивается уникальное число.
Кодовая точка является значением, которое может использоваться в кодированном наборе символов. Кодовая точка является 32-разрядным int
тип данных, где более низкий 21 бит представляет допустимое значение кодовой точки и верхние 11 битов, 0.
Элемент кода Unicode является 16-разрядным char
значение. Например, вообразите a String
это содержит буквы "abc", сопровождаемая Deseret ДОЛГО я, который представляется с два char
значения. Та строка содержит четыре символа, четыре кодовых точки, но пять элементов кода.
Чтобы выразить символ в Unicode, шестнадцатеричное значение снабжается префиксом строку U +. Допустимый диапазон кодовой точки для стандарта Unicode является U+0000 к U+10FFFF, включительно. Значение кодовой точки для латинского символа A является U+0040. У символьного €, который представляет Европейскую валюту, есть значение кодовой точки U+20AC. У первой буквы в алфавите Deseret, ДЛИННОЕ я, есть значение кодовой точки U+10400.
Следующая таблица показывает значения кодовой точки для нескольких символов:
Символ | Кодовая точка Unicode | Глиф |
---|---|---|
Латинский A | U+0041 |
|
Латинский резкий S | U+00DF |
|
Ханьшуй для Востока | U+6771 |
|
Deseret, ДОЛГО я | U+10400 |
|
Как ранее описано, символы, которые находятся в диапазоне U+10000 к U+10FFFF, вызывают дополнительными символами. Набор символов от U+0000 до U+FFFF иногда упоминается как Основная Многоязычная Плоскость (BMP).
Больше терминологии может быть найдено в Глоссарии Сроков Unicode, перечисленных на Большем количестве информационной страницы.