|
Spec-Zone .ru
спецификации, руководства, описания, API
|
С JDK 7 выпусков сопоставление с образцом Регулярного выражения развернуло функциональность, чтобы поддерживать Unicode 6.0.
Можно соответствовать определенную кодовую точку Unicode, используя escape-последовательность формы \uFFFF, где FFFF шестнадцатеричное значение кодовой точки, которую Вы хотите соответствовать. Например, \u6771 соответствует символ Ханьшуй для востока.
Альтернативно, можно определить кодовую точку, используя стиль Perl шестнадцатеричная нотация, \x{...}. Например:
String hexPattern = "\x{" + Integer.toHexString(codePoint) + "}";
У каждого символа Unicode, в дополнение к его значению, есть определенные атрибуты, или свойства. Можно соответствовать единственный символ, принадлежащий определенной категории с выражением \p{prop}. Можно соответствовать единственный символ, не принадлежащий определенной категории с выражением \P{prop}.
Три поддерживаемых типа свойства являются сценариями, блоками, и "общей" категорией.
Чтобы определить, принадлежит ли кодовая точка определенному сценарию, можно или использовать script ключевое слово, или sc краткая форма, например, \p{script=Hiragana}. Альтернативно, можно снабдить префиксом имя сценария строку Is, такой как \p{IsHiragana}.
Допустимые имена сценария, поддерживаемые Pattern принятые UnicodeScript.forName.
Блок может быть определен, используя block ключевое слово, или blk краткая форма, например, \p{block=Mongolian}. Альтернативно, можно снабдить префиксом имя блока строку In, такой как \p{InMongolian}.
Допустимые имена блока, поддерживаемые Pattern принятые .
Категории могут быть определены с дополнительным префиксом Is. Например, IsL соответствует категорию букв Unicode. Категории могут также быть определены при использовании general_category ключевое слово, или краткая форма gc. Например, прописная буква может быть соответствующей, используя general_category=Lu или gc=Lu.
Поддерживаемые категории являются таковыми в версии, определенной class.