10.4.4.2. Синтаксис LDML, Поддерживаемый в MySQL

Этот раздел описывает синтаксис LDML, который распознает MySQL. Это - подмножество синтаксиса, описанного в спецификации LDML, доступной в http://www.unicode.org/reports/tr35/, с которым нужно консультироваться для дополнительной информации. MySQL распознает достаточно большое подмножество синтаксиса, что во многих случаях возможно загрузить определение сопоставления с Unicode Общий Репозитарий Данных Локали и вставить соответствующую часть (то есть, часть между <rules> и </rules> теги) в MySQL Index.xml файл. Правила, описанные здесь, все поддерживаются за исключением того, что символьная сортировка происходит только на основном уровне. Правила, которые определяют различия на вторичных или более высоких уровнях вида, распознаются (и таким образом может быть включен в определения сопоставления), но обрабатываются как равенство на основном уровне.

Сервер MySQL генерирует диагностику, когда это находит проблемы, анализируя Index.xml файл. См. Раздел 10.4.4.3, "Диагностика Во время Index.xml Парсинг".

Символьное Представление

Символы, названные в правилах LDML, могут быть записаны буквально или в \unnnn формат, где nnnn шестнадцатеричное значение кодовой точки Unicode. Например, A и á может быть записан буквально или как \u0041 и \u00E1. В пределах шестнадцатеричных значений, цифр A через F не являются чувствительными к регистру; \u00E1 и \u00e1 эквивалентны. Для UCA 4.0.0 сопоставления шестнадцатеричная нотация может использоваться только для символов в Основной Многоязычной Плоскости, не для символов вне диапазона BMP 0000 к FFFF. Для UCA 5.2.0 сопоставления шестнадцатеричная нотация может использоваться для любого символа.

Index.xml сам файл должен быть записан, используя кодирование UTF-8.

Правила синтаксиса

LDML сбросил правила и правила сдвига определить символьное упорядочивание. Упорядочивания даются как ряд правил, которые начинаются с правила сброса, которое устанавливает точку привязки, сопровождаемую правилами сдвига, которые указывают как вид символов относительно точки привязки.

A <reset> правило не определяет упорядочивания в и себя. Вместо этого это "сбрасывает" упорядочивание для последующих правил сдвига заставить их быть взятыми относительно данного символа. Любое из следующих правил сбрасывает последующие правила сдвига, которые будут взяты относительно буквы 'A':
```
<reset>A</reset><reset>\u0041</reset>
```
, <s>, и <t> правила сдвига определяют основные, вторичные, и третичные различия символа от другого символа:
- Используйте первичные различия, чтобы отличить отдельные буквы.
- Используйте вторичные различия, чтобы отличить изменения диакритического знака.
- Используйте третичные различия, чтобы отличить lettercase изменения.
Любое из этих правил определяет основное правило сдвига для 'G' символ:
```
G\u0047
```
 правило сдвига указывает что символьные виды тождественно другому. Следующая причина правил 'b' сортировать то же самое как 'a':
```
<reset>a</reset>b
```

Сокращенный синтаксис сдвига определяет многократные правила сдвига, используя единственную пару тегов. Следующая таблица показывает корреспонденцию между сокращенными правилами синтаксиса и эквивалентными несокращенными правилами.

Таблица 10.2. Сокращенный Синтаксис Сдвига

Сокращенный Синтаксис	Несокращенный Синтаксис
`<pc>xyz</pc>`	`<p>x</p><p>y</p><p>z</p>`
`<sc>xyz</sc>`	`<s>x</s><s>y</s><s>z</s>`
`<tc>xyz</tc>`	`<t>x</t><t>y</t><t>z</t>`
`<ic>xyz</ic>`	`<i>x</i><i>y</i><i>z</i>`

Расширение является правилом сброса, которое устанавливает точку привязки для многократно-символьной последовательности. MySQL поддерживает расширения 2 - 6 символов долго. Следующие правила помещаются 'z' больше в основном уровне чем последовательность трех символов 'abc':
```
<reset>abc</reset>z
```
Сокращение является правилом сдвига что виды многократно-символьная последовательность. MySQL поддерживает сокращения 2 - 6 символов долго. Следующие правила, помещенные последовательность трех символов 'xyz' больше в основном уровне чем 'a':
```
<reset>a</reset>xyz
```
Долгие расширения и долгие сокращения могут использоваться вместе. Эти правила, помещенные последовательность трех символов 'xyz' больше в основном уровне чем последовательность трех символов 'abc':
```
<reset>abc</reset>xyz
```
Нормальное использование синтаксиса расширения <x> плюс <extend> элементы, чтобы определить расширение. Следующие правила, помещенные символ 'k' больше во вторичном уровне чем последовательность 'ch'. Таким образом, 'k' ведет себя, как будто это расширяется до символа после 'c' сопровождаемый 'h':
```
<reset>c</reset><x><s>k</s><extend>h</extend></x>
```
Этот синтаксис разрешает длинные последовательности. Эти правила сортируют последовательность 'ccs' больше в третичном уровне чем последовательность 'cscs':
```
<reset>cs</reset><x><t>ccs</t><extend>cs</extend></x>
```
Спецификация LDML описывает нормальный синтаксис расширения как "хитрый". См. ту спецификацию для деталей.
Предыдущее использование синтаксиса контекста <x> плюс <context> элементы, чтобы определить, что контекст перед символом влияет, как он сортирует. Следующие правила помещаются '-' больше во вторичном уровне чем 'a', но только когда '-' происходит после 'b':
```
<reset>a</reset><x><context>b</context><s>-</s></x>
```
Предыдущий синтаксис контекста может включать <extend> элемент. Эти правила помещаются 'def' больше в основном уровне чем 'aghi', но только когда 'def' прибывает после 'abc':
```
<reset>a</reset><x><context>abc</context>def<extend>ghi</extend></x>
```
Правила сброса разрешают a before атрибут. Обычно, правила сдвига после правила сброса указывают на символы что вид после символа сброса. Правила сдвига после правила сброса, которое имеет before атрибут указывает на символы что вид перед символом сброса. Следующие правила, помещенные символ 'b' сразу прежде 'a' на основном уровне:
```
<reset before="primary">a</reset>b
```
Допустимый before значения атрибута определяют уровень вида по имени или эквивалентное числовое значение:
```
<reset before="primary"><reset before="1"><reset before="secondary"><reset before="2"><reset before="tertiary"><reset before="3">
```

Правило сброса может назвать логическую позицию сброса, а не литеральный символ:

<first_tertiary_ignorable/><last_tertiary_ignorable/><first_secondary_ignorable/><last_secondary_ignorable/><first_primary_ignorable/><last_primary_ignorable/><first_variable/><last_variable/><first_non_ignorable/><last_non_ignorable/><first_trailing/><last_trailing/>

Эти правила помещаются 'z' больше в основном уровне чем неигнорируемые символы, у которых есть Таблица Элемента сопоставления Unicode Значения по умолчанию (DUCET) запись и которые не являются CJK:

<reset><last_non_ignorable/></reset><p>z</p>

Логическим позициям показали кодовые точки в следующей таблице.

Таблица 10.3. Логические Кодовые точки Позиции Сброса

Логическая Позиция	Unicode 4.0.0 Кодовых точки	Unicode 5.2.0 Кодовых точки
`<first_non_ignorable/>`	U+02D0	U+02D0
`<last_non_ignorable/>`	U+A48C	U+1342E
`<first_primary_ignorable/>`	U+0332	U+0332
`<last_primary_ignorable/>`	U+20EA	U+101FD
`<first_secondary_ignorable/>`	U+0000	U+0000
`<last_secondary_ignorable/>`	U+FE73	U+FE73
`<first_tertiary_ignorable/>`	U+0000	U+0000
`<last_tertiary_ignorable/>`	U+FE73	U+FE73
`<first_trailing/>`	U+0000	U+0000
`<last_trailing/>`	U+0000	U+0000
`<first_variable/>`	U+0009	U+0009
`<last_variable/>`	U+2183	U+1D371

<collation> элемент разрешает a shift-after-method атрибут, который влияет на символьное вычисление веса для правил сдвига. У атрибута есть эти разрешенные значения:
- simple: Вычислите символьные веса что касается правил сброса, у которых нет a before атрибут. Это - значение по умолчанию, если атрибут не дается.
- expand: Используйте расширения для сдвигов после правил сброса.
Предположите это '0' и '1' имейте веса 0E29 и 0E2A и мы хотим поместить все основные латинские буквы между '0' и '1':
```
<reset>0</reset><pc>abcdefghijklmnopqrstuvwxyz</pc>
```
Для простого режима сдвига веса вычисляются следующим образом:
```
'a' has weight 0E29+1'b' has weight 0E29+2'c' has weight 0E29+3...
```
Однако, есть недостаточно многие свободные позиции, чтобы поместить 26 символов между '0' и '1'. Результат состоит в том, что цифры и буквы смешиваются.

Чтобы решить это, использовать shift-after-method="expand". Затем веса вычисляются как это:
```
'a' has weight [0E29][233D+1]'b' has weight [0E29][233D+2]'c' has weight [0E29][233D+3]...
```
233D UCA 4.0.0 веса для символа 0xA48C, который является последним неигнорируемым символом (своего рода самый большой символ в сопоставлении, исключая CJK). UCA 5.2.0 подобен, но использование 3ACA, для символа 0x1342E.

Специфичные для MySQL Расширения LDML

В MySQL 5.7 расширение правил LDML разрешает <collation> элемент, чтобы включать дополнительное version атрибут в <collation> теги, чтобы указать на версию UCA, на которой базируется сопоставление. Если version атрибут опускается, его значение по умолчанию 4.0.0. Например, эта спецификация указывает на сопоставление, которое основано на UCA 5.2.0:

<collation id="nnn" name="utf8_xxx_ci" version="5.2.0">...</collation>