Spec-Zone .ru
спецификации, руководства, описания, API
|
С JDK 7 выпусков сопоставление с образцом Регулярного выражения развернуло функциональность, чтобы поддерживать Unicode 6.0.
Можно соответствовать определенную кодовую точку Unicode, используя escape-последовательность формы \uFFFF
, где FFFF
шестнадцатеричное значение кодовой точки, которую Вы хотите соответствовать. Например, \u6771
соответствует символ Ханьшуй для востока.
Альтернативно, можно определить кодовую точку, используя стиль Perl шестнадцатеричная нотация, \x{...}
. Например:
String hexPattern = "\x{" + Integer.toHexString(codePoint) + "}";
У каждого символа Unicode, в дополнение к его значению, есть определенные атрибуты, или свойства. Можно соответствовать единственный символ, принадлежащий определенной категории с выражением \p{prop}
. Можно соответствовать единственный символ, не принадлежащий определенной категории с выражением \P{prop}
.
Три поддерживаемых типа свойства являются сценариями, блоками, и "общей" категорией.
Чтобы определить, принадлежит ли кодовая точка определенному сценарию, можно или использовать script
ключевое слово, или sc
краткая форма, например, \p{script=Hiragana}
. Альтернативно, можно снабдить префиксом имя сценария строку Is
, такой как \p{IsHiragana}
.
Допустимые имена сценария, поддерживаемые Pattern
принятые UnicodeScript.forName
.
Блок может быть определен, используя block
ключевое слово, или blk
краткая форма, например, \p{block=Mongolian}
. Альтернативно, можно снабдить префиксом имя блока строку In
, такой как \p{InMongolian}
.
Допустимые имена блока, поддерживаемые Pattern
принятые UnicodeBlock.forName
Категории могут быть определены с дополнительным префиксом Is
. Например, IsL
соответствует категорию букв Unicode. Категории могут также быть определены при использовании general_category
ключевое слово, или краткая форма gc
. Например, прописная буква может быть соответствующей, используя general_category=Lu
или gc=Lu
.
Поддерживаемые категории являются таковыми Character