Spec-Zone .ru
спецификации, руководства, описания, API
След: Существенные Классы
Урок: Регулярные выражения
Поддержка Unicode
Домашняя страница > Существенные Классы > Регулярные выражения

Поддержка Unicode

С JDK 7 выпусков сопоставление с образцом Регулярного выражения развернуло функциональность, чтобы поддерживать Unicode 6.0.

Соответствие Определенной Кодовой точки

Можно соответствовать определенную кодовую точку Unicode, используя escape-последовательность формы \uFFFF, где FFFF шестнадцатеричное значение кодовой точки, которую Вы хотите соответствовать. Например, \u6771 соответствует символ Ханьшуй для востока.

Альтернативно, можно определить кодовую точку, используя стиль Perl шестнадцатеричная нотация, \x{...}. Например:

String hexPattern = "\x{" + Integer.toHexString(codePoint) + "}";

Свойства Символа Unicode

У каждого символа Unicode, в дополнение к его значению, есть определенные атрибуты, или свойства. Можно соответствовать единственный символ, принадлежащий определенной категории с выражением \p{prop}. Можно соответствовать единственный символ, не принадлежащий определенной категории с выражением \P{prop}.

Три поддерживаемых типа свойства являются сценариями, блоками, и "общей" категорией.

Сценарии

Чтобы определить, принадлежит ли кодовая точка определенному сценарию, можно или использовать script ключевое слово, или sc краткая форма, например, \p{script=Hiragana}. Альтернативно, можно снабдить префиксом имя сценария строку Is, такой как \p{IsHiragana}.

Допустимые имена сценария, поддерживаемые Pattern принятые UnicodeScript.forName.

Блоки

Блок может быть определен, используя block ключевое слово, или blk краткая форма, например, \p{block=Mongolian}. Альтернативно, можно снабдить префиксом имя блока строку In, такой как \p{InMongolian}.

Допустимые имена блока, поддерживаемые Pattern принятые UnicodeBlock.forName.

Общая Категория

Категории могут быть определены с дополнительным префиксом Is. Например, IsL соответствует категорию букв Unicode. Категории могут также быть определены при использовании general_category ключевое слово, или краткая форма gc. Например, прописная буква может быть соответствующей, используя general_category=Lu или gc=Lu.

Поддерживаемые категории являются таковыми Из Стандарта Unicode в версии, определенной Character class.


Проблемы с примерами? Попытайтесь Компилировать и Выполнить Примеры: FAQ.
Жалобы? Поздравление? Предложения? Дайте нам свою обратную связь.

Предыдущая страница: Методы Класса PatternSyntaxException
Следующая страница: Дополнительные Ресурсы