Spec-Zone .ru
спецификации, руководства, описания, API
|
public final class Normalizer extends Object
normalize
который преобразовывает текст Unicode в эквивалентную составленную или анализируемую форму, учитывая более легкую сортировку и поиск текста. normalize
метод поддерживает стандартные формы нормализации, описанные в Символы с диакритическими знаками или другими украшениями могут быть закодированы несколькими различными способами в Unicode. Например, возьмите символьный A-acute. В Unicode это может быть закодировано как единственный символ ("составленная" форма):
U+00C1 LATIN CAPITAL LETTER A WITH ACUTEили как два отдельных символа ("анализируемая" форма):
U+0041 LATIN CAPITAL LETTER A U+0301 COMBINING ACUTE ACCENTПользователю Вашей программы, однако, обе из этих последовательностей должны быть обработаны как тот же самый символ "на уровне пользователя" "С акутом". Когда Вы ищете или сравниваете текст, следует гарантировать, что эти две последовательности обрабатываются как эквивалентные. Кроме того, следует обработать символы больше чем с одним диакритическим знаком. Иногда порядок диакритических знаков объединения символа является существенным, в то время как в других последовательностях диакритического знака случаев в различных заказах действительно эквивалентны.
Точно так же строка "ffi" может быть закодирована как три отдельных буквы:
U+0066 LATIN SMALL LETTER F U+0066 LATIN SMALL LETTER F U+0069 LATIN SMALL LETTER Iили как единственный символ
U+FB03 LATIN SMALL LIGATURE FFIffi лигатура не является отличным семантическим символом, и строго говоря это не должно быть в Unicode вообще, но это было включено для совместимости с существующими наборами символов, которые уже обеспечили это. Стандарт Unicode идентифицирует такие символы, давая им разложения "совместимости" в соответствующие семантические символы. Сортируя и ища, Вы будете часто хотеть использовать эти отображения.
normalize
метод помогает решить эти проблемы, преобразовывая текст в канонические составленные и анализируемые формы как показано в первом примере выше. Кроме того, у Вас может быть это, выполняют разложения совместимости так, чтобы можно было обработать символы совместимости то же самое как их эквиваленты. Наконец, normalize
метод перестраивает диакритические знаки в надлежащий канонический порядок, так, чтобы Вы не волновались о перестановке диакритического знака самостоятельно.
W3C обычно рекомендует обмениваться текстами в NFC. Отметьте также, что большинство кодировок символов наследства использует только предварительно составленные формы и часто не кодирует меток объединения. Для преобразования в такие кодировки символов текст Unicode должен быть нормализован к NFC. Для большего количества примеров использования см. Приложение Стандарта Unicode.
Модификатор и Тип | Класс и Описание |
---|---|
static class |
Normalizer. Форма
Это перечисление обеспечивает константы четырех форм нормализации Unicode, которые описываются в
|
Модификатор и Тип | Метод и Описание |
---|---|
static boolean |
isNormalized(CharSequence src, Normalizer.Form form)
Определяет, нормализуется ли данная последовательность значений случайной работы.
|
static String |
normalize(CharSequence src, Normalizer.Form form)
Нормализуйте последовательность значений случайной работы.
|
public static String normalize(CharSequence src, Normalizer.Form form)
src
- Последовательность значений случайной работы, чтобы нормализовать.form
- Форма нормализации; один из Normalizer.Form.NFC
, Normalizer.Form.NFD
, Normalizer.Form.NFKC
, Normalizer.Form.NFKD
NullPointerException
- Если src
или form
нуль.public static boolean isNormalized(CharSequence src, Normalizer.Form form)
src
- Последовательность значений случайной работы, которые будут проверены.form
- Форма нормализации; один из Normalizer.Form.NFC
, Normalizer.Form.NFD
, Normalizer.Form.NFKC
, Normalizer.Form.NFKD
NullPointerException
- Если src
или form
нуль.
Для дальнейшей ссылки API и документации разработчика, см.
Авторское право © 1993, 2011, Oracle и/или его филиалы. Все права защищены.