Общие вопросы

Статьи, материалы, руководства, учебники о web-разработке и web-дизайну.

Использование кодировки UTF-8

utf-8

UTF-8 (от англ. Unicode Transformation Format — формат преобразования Юникода) — в настоящее время распространённая кодировка, реализующая представление Юникода, совместимое с 8-битным кодированием текста.

Текст, состоящий только из символов с номером меньше 128, при записи в UTF-8 превращается в обычный текст ASCII. И наоборот, в тексте UTF-8 любой байт со значением меньше 128 изображает символ ASCII с тем же кодом. Остальные символы Юникода изображаются последовательностями длиной от 2 до 6 байтов (реально только до 4 байт, поскольку использование кодов больше 221 не планируется), в которых первый байт всегда имеет вид 11xxxxxx, а остальные — 10xxxxxx.

Проще говоря, в формате UTF-8 символы латинского алфавита, знаки препинания и управляющие символы ASCII записываются кодами US-ASCII, а все остальные символы кодируются при помощи нескольких октетов со старшим битом 1. Это приводит к двум эффектам.

  • Даже если программа не распознаёт Юникод, то латинские буквы, арабские цифры и знаки препинания будут отображаться правильно.
  • В случае, если латинские буквы и простейшие знаки препинания (включая пробел) занимают существенный объём текста, UTF-8 даёт выигрыш по объёму по сравнению с UTF-16.

На первый взгляд может показаться, что UTF-16 удобнее, так как в ней большинство символов кодируется ровно двумя байтами. Однако это сводится на нет необходимостью поддержки суррогатных пар, о которых часто забывают при использовании UTF-16, реализовывая лишь поддержку символов UCS-2.

Добавить комментарий


Защитный код
Обновить

GeneticsPro
close

Рассылка 'D-G-S'.ru

Подпишитесь на рассылку новостей сайта 'D-G-S'.ru!

  • Новые расширения Joomla! от сторонних разработчиков.
  • Новые расширения Joomla! от D-G-S.
  • Статьи и новости о CMS Joomla!
  • Статьи о web-разработке и многое другое…
Будьте всегда в курсе событий мира Joomla!
Мы на Facebook
Мы на Twitter
Страница в Google+
Мы ВКонтакте
Наш канал YouTube
FAQ
Инструментарий