Spec-Zone .ru
спецификации, руководства, описания, API
|
UTF-8 (Формат Преобразования Unicode с 8-разрядными модулями) является альтернативным способом хранить данные Unicode. Это реализуется согласно RFC 3629, который описывает последовательности кодирования, которые берут от одного до четырех байтов. (Более старый стандарт для кодирования UTF-8, RFC 2279, описывает последовательности UTF-8, которые берут от одного до шести байтов. RFC 3629 представляет устаревший RFC 2279; по этой причине последовательности с пятью и шестью байтами больше не используются.)
Идея UTF-8 состоит в том, что различные символы Unicode кодируются, используя последовательности байта различных длин:
Основные латинские буквы, цифры, и знаки пунктуации используют один байт.
Большинство европейских и ближневосточных букв сценария, в которые вписываются 2-байтовая последовательность: расширенные латинские буквы (с тильдой, знаком долготы гласного звука, острыми, серьезными и другими диакритическими знаками), Кириллица, греческий язык, армянский язык, иврит, арабский язык, сирийский язык, и другие.
Корейский, китайский, и японские идеограммы используют 3-байтовые или 4-байтовые последовательности.
utf8
набор символов является тем же самым в MySQL 5.6 как прежде 5.6 и имеет точно
те же самые характеристики:
Никакая поддержка дополнительных символов (символы BMP только).
Максимум трех байтов на многобайтовый символ.
Точно тот же самый набор символов доступен в utf8
как в ucs2
. Таким образом, у них есть тот же самый репертуар.