Spec-Zone .ru
спецификации, руководства, описания, API
След: Интернационализация
Урок: Работа с текстом
Раздел: Unicode
Терминология
Домашняя страница > Интернационализация > Работа с текстом

Терминология

Символ является минимальным модулем текста, у которого есть семантическое значение.

Набор символов является набором символов, которые могли бы использоваться многократными языками. Например, латинский набор символов используется английским языком и большинством европейских языков, хотя греческий набор символов используется только греческим языком.

Кодированный набор символов является набором символов, где каждый символ присваивается уникальное число.

Кодовая точка является значением, которое может использоваться в кодированном наборе символов. Кодовая точка является 32-разрядным int тип данных, где более низкий 21 бит представляет допустимое значение кодовой точки и верхние 11 битов, 0.

Элемент кода Unicode является 16-разрядным char значение. Например, вообразите a String это содержит буквы "abc", сопровождаемая Deseret ДОЛГО я, который представляется с два char значения. Та строка содержит четыре символа, четыре кодовых точки, но пять элементов кода.

Чтобы выразить символ в Unicode, шестнадцатеричное значение снабжается префиксом строку U +. Допустимый диапазон кодовой точки для стандарта Unicode является U+0000 к U+10FFFF, включительно. Значение кодовой точки для латинского символа A является U+0040. У символьного €, который представляет Европейскую валюту, есть значение кодовой точки U+20AC. У первой буквы в алфавите Deseret, ДЛИННОЕ я, есть значение кодовой точки U+10400.

Следующая таблица показывает значения кодовой точки для нескольких символов:

Символ Кодовая точка Unicode Глиф
Латинский A U+0041
Латинский символ A
Латинский резкий S U+00DF
Латинская строчная буква резкий S
Ханьшуй для Востока U+6771
Символ Ханьшуй для восточного, восточного или на восток
Deseret, ДОЛГО я U+10400
Прописная буква Deseret долго я

Как ранее описано, символы, которые находятся в диапазоне U+10000 к U+10FFFF, вызывают дополнительными символами. Набор символов от U+0000 до U+FFFF иногда упоминается как Основная Многоязычная Плоскость (BMP).

Больше терминологии может быть найдено в Глоссарии Сроков Unicode, перечисленных на Большем количестве информационной страницы.


Проблемы с примерами? Попытайтесь Компилировать и Выполнить Примеры: FAQ.
Жалобы? Поздравление? Предложения? Дайте нам свою обратную связь.

Предыдущая страница: Unicode
Следующая страница: Дополнительные Символы как Заместители