- UCS-2
-
UTF-16 (англ. Unicode Transformation Format) в информатике — один из способов кодирования символов из Unicode в виде последовательности 16-битных слов. Символы с кодами меньше 0x10000 (216) представляются как есть, а символы с кодами 0x10000–0x10FFFE — в виде последовательности двух 16-битных слов, первое из которых лежит в диапазоне 0xD800–0xDBFF, а второе — 0xDC00–0xDFFF. Легко видеть, что имеется как раз 210 * 210 = 220 таких комбинаций.
||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
DC00 … DFFE DFFF D800 010000 … 0103FE 0103FF D801 010400 … 0107FE 0107FF … … DBFF 10FC00 … 10FFFE Следует отметить, что по стандарту никакие символы не могут иметь коды собственно из диапазона 0xD800–0xDFFF (отмечены рыжим и голубым цветами на диаграмме), так что расшифровка кодировки всегда однозначна. Впрочем, в подавляющем большинстве случаев текст в UTF-16 является просто последовательностью символов из UCS-2 (BMP), т.к. символы Unicode после кода 0x10000 используются крайне редко.
UTF-16LE и UTF-16ВE
Т.к. в современных компьютерах размер байта равен 8 битам, то один «байт» кодировки UTF-16 приходится представлять последовательностью двух 8-битных байтов. Который из двух идёт впереди, старший или младший, зависит от порядка байтов. Систему, совместимую с процессорами UTF-16LE (little endian), а с процессорами m68k и UTF-16ВE (big endian).
UTF-16 в ОС Windows
В API Win32, распространённом в современных версиях операционной системы Microsoft Windows, имеется два способа представления текста: в форме традиционных 8-битных кодовых страниц, и в виде UTF-16.
В файловых системах FAT с поддержкой длинных имён, имена файлов записываются в UTF-16LE.
Ссылки
- Unicode Technical Note #12: Обработка UTF-16 (англ.)
- Unicode FAQ: В чём разница между UCS-2 и UTF-16? (англ.)
- RFC 2781: UTF-16, an encoding of ISO 10646
Кодировки символов Основы → алфавит • текст ( файл • данные ) • набор символов • конверсия Исторические кодировки → Докомп.: семафорная (Макарова) • Морзе • Бодо • МТК-2 Комп.: 6 бит • УПП • EBCDIC ( ДКОИ-8 ) • КОИ-7 • ISO 646 совре-
менное
8-битное
представ-
лениесимволы → управляющие • печатные ) не-ASCII ( псевдографика ) 8бит. код.стр. Разные → Кириллица: КОИ-8 • ГОСТ 19768-87 • ISO 8859 → 1(лат.) 2 3 4 5(кир.) 6 7 8 9 10 11 12 13 14 15(€) 16 Windows → 1251(кир.) 1252 WGL4 IBM&DOS → 850 • 866 «альт.» ( МИК ) Много-
байтныеТрадиционные → GB2312 ) • HTML Unicode → UTF-16 • список символов ( кириллица ) Связанные
темы →интерфейс пользователя • раскладки клавиатур • локаль • перевод строки • шрифт • крокозябры • транслит Утилиты: recode
Wikimedia Foundation. 2010.