10.1.10.5. `utf8` Набор символов (3-байтовый UTF-8 UnicodeEncoding)

UTF-8 (Формат Преобразования Unicode с 8-разрядными модулями) является альтернативным способом хранить данные Unicode. Это реализуется согласно RFC 3629, который описывает последовательности кодирования, которые берут от одного до четырех байтов. (Более старый стандарт для кодирования UTF-8, RFC 2279, описывает последовательности UTF-8, которые берут от одного до шести байтов. RFC 3629 представляет устаревший RFC 2279; по этой причине последовательности с пятью и шестью байтами больше не используются.)

Идея UTF-8 состоит в том, что различные символы Unicode кодируются, используя последовательности байта различных длин:

Основные латинские буквы, цифры, и знаки пунктуации используют один байт.
Большинство европейских и ближневосточных букв сценария, в которые вписываются 2-байтовая последовательность: расширенные латинские буквы (с тильдой, знаком долготы гласного звука, острыми, серьезными и другими диакритическими знаками), Кириллица, греческий язык, армянский язык, иврит, арабский язык, сирийский язык, и другие.
Корейский, китайский, и японские идеограммы используют 3-байтовые или 4-байтовые последовательности.

utf8 набор символов является тем же самым в MySQL 5.7 как прежде 5.7 и имеет точно те же самые характеристики:

Никакая поддержка дополнительных символов (символы BMP только).
Максимум трех байтов на многобайтовый символ.

Точно тот же самый набор символов доступен в utf8 как в ucs2. Таким образом, у них есть тот же самый репертуар.

10.1.10.5. utf8 Набор символов (3-байтовый UTF-8 UnicodeEncoding)

10.1.10.5. `utf8` Набор символов (3-байтовый UTF-8 UnicodeEncoding)