Кратко съдържание

Изтегляне 9.03 Mb.

страница	67/73
Дата	21.07.2018
Размер	9.03 Mb.
	#76887

1 ... 63 64 65 66 67 68 69 70 ... 73

Кодиращи схеми

При преноса на текстове по мрежата или записа им във файлове се използват т. нар. кодиращи схеми (encodings). Най-често се използват кодиращите схеми от стандарта UTF (Unicode Transformation Format), дефинирани от Unicode стандартите.

Кодиращи схеми UTF

UTF представляват алгоритмични кодиращи схеми, при които всеки Unicode номер се представя като уникална поредица от 8-битови, 16-битови или 32-битови стойности. От тук произлизат и различните формати за съхранение на текст в Unicode формат в компютърната памет - UTF-8, UTF-16, UTF-32.

Най-разпространеният в Интернет е UTF-8. UTF-16 се използва в Windows и Java, а UTF-32 е популярен в някои UNIX системи. Конвертирането между различните кодиращи схеми се осъществява от бързи алгоритми, работещи без загуба на информация.

Понеже кодирането при UTF схемите е без загуба, съществува взаимоеднозначно съответствие между схемите UTF-8, UTF-16 и UTF-32. Това означава, че всеки текст от UTF-8 може да се преобразува до UTF-16 и след това ако се преобразува обратно до UTF-8, ще се получи оригиналният UTF-8 текст без никакви промени. Съществуват и други кодиращи схеми, които работят със загуба, и при тях няма взаимоеднозначно съответствие между оригинален текст и кодиран текст.

UTF-8

При UTF-8 символите се кодират с 8-битови стойности, като символите с номера до 128 (т. е. ASCII символите) се представят със собствения си Unicode номер, като най-старшият им бит е нула. Останалите символи се кодират с два, три или четири байта по определени правила. Това кодиране се използва за предаване на текст, когато е необходим компресиран запис. UTF-8 кодирането е подходящо за текстове, в които преобладават символите от ASCII таблицата, например за текстове на английски език.

При UTF-8 знаците \u0000 до \u007F се записват с един байт. Това са ASCII символите, използвани в САЩ. Знаците \u0080-\u07FF, които отговарят на символите от европейските, арабските и еврейските езици, се записват с два байта. Знаците в интервала \u0800-\uFFFF се записват с три байта. Всички останали се записват с четири байта.

За източноазиатските езици кодирането UTF-8 е неефективно, защото записва повечето символи с 4 байта.

UTF-16

Кодиращата схема UTF-16 представя един знак (графема) като една или две 16-битови стойности, като по-често използваните Unicode знаци се представят с една 16-битова стойност, а останалите – с две (чрез кодова двойка).

Всички символни низове в .NET Framework инстанциите на класа System. String) съхраняват своите стойности в паметта в кодиране UTF-16.

UTF-16 е най-ефективният начин за представяне на азиатски символни низове. При ASCII символите UTF-16 схемата не е много ефективна, защото се използват по два байта за знак, който може да бъде представен само с един байт.

При UTF-16 трябва да се съобрази правилно и подредбата на байтовете, тъй като се срещат два различни подхода при запис. В зависимост дали подредбата на байтовете е little-endian или big-endian стойността \uABCD се записва съответно като 0xCD 0xAB или като 0xAB 0xCD.

UTF-32

Както предполага наименованието, в тази кодираща схема се използват 32 бита за всеки Unicode знак. Така всеки един символ се записва като 4-байтово число. В повечето приложения не се налага да използвате нещо повече от ASCII символите и в този случай използването на 32 бита е доста разточително. Затова употребата на UTF-32 е нежелателна при съхранение на диска или при пренос по мрежата.

Подредба на байтовете при UTF-16 и UTF-32

Броят на байтовете не определя еднозначно кодирането на символите. Съществуват различни начини за подреждане на последователността от байтове. Когато първо се записва най-старшият байт, това е big-endian кодиране, а когато той е в края на записа - little-endian. Преди да предадете между два компютъра например една 4-байтова стойност (UTF-32), трябва да се уверите, че те интерпретират по един и същ начин последователността от байтове.

Unicode разрешава проблема с подредбата на байтовете, като дефинира специален символ с номер U+FFFE, който се нарича "Byte Order Mark (BOM)" и се поставя като идентификатор в началото на Unicode текстовете. Наличието на U+FFFE в началото на даден UTF-16 файл указва обратен ред на байтове.

Следната таблица показва съдържанието на BOM в различните видове кодиране:

Байтове	Формат на кодиране
00 00 FE FF	UTF-32, big-endian
FF FE 00 00	UTF-32, little-endian
FE FF	UTF-16, big-endian
FF FE	UTF-16, little-endian
EF BB BF	UTF-8

Знаейки че .NET Framework използва кодиране UTF-16 със запис в little-endian формат, можем да проверим коректната стойност на BOM.

Съществуват и други схеми, производни на UTF-16 и UTF-32. Unicode дефинира стандартите UTF-16BE, UTF-16LE, UTF-32LE и UTF-32BE (big-endian, little- endian), които имат гарантирана подредба на байтовете.

Други кодиращи схеми

Освен изброените Unicode кодиращи схеми има и други такива. Повечето от тях кодират Unicode текстовете със загуба. Това означава, че няма взаимоеднозначно съответствие между оригиналния текст и кодирания текст, т. е. от оригиналния текст можем да получим кодирания текст, но обратната операция не е еднозначна.

Например ASCII кодирането преобразува всички Unicode символи с кодове в диапазона \u0000-\u007F в съответен ASCII символ, а останалите в символа "?" (0x3F). Всички символи от кирилицата при това кодиране се заместват с "?" и губят оригиналната си стойност.

Кодиращата схема Windows-1251 замества ASCII символите, символите от кирилицата и някои други с байтове в диапазона 0x00-0xFF, а останалите замества със знак "?" (0x3F). Тази кодираща схема често пъти се използва за представяне на текстове на кирилица, но тя не е универсална, както UTF-8 и причинява загуби при някои текстове.

Кодиращи схеми – пример

За илюстрация на разгледаните кодиращи схеми са дадени няколко символа, техните Unicode номера и кодирането им в различните UTF схеми:

Знак	Unicode номер	Unicode номер (hex)	UTF-8 (hex)	UTF-16 (hex)	UTF-32 (hex)
A главна латинска буква "A"	65	U+0041	0x41	0x0041	0x00000041
⅔ математически символ "две трети"	8532	U+2154	0xE2 0x85 0x94	0x2154	0x00002154
♥ символ "сърце"	9829	U+2665	0xE2 0x99 0xA5	0x2665	0x00002665
листо на китайски	33865	U+8449	0xE8 0x91 0x89	0x8449	0x00008449
нота шестнайсетина	119137	U+1D161	0xF0 0x9D 0x85 0xA1	0xD834 0xDD61	0x0001D161

За да конвертираме текст от символи в байтове и обратно, можем да използваме класа System.Text.Encoding.

Конвертиране със System.Text.Encoding

Когато съхраняваме текстова информация на диск или я предаваме по мрежата, тя трябва да бъде представена като поредица от байтове. Когато искаме да прочетем същата тази информация, трябва отново да я преобразуваме в текст. Тези операции са пример за случаи, когато имаме нужда от конвертиране между символи и тяхното байтово представяне в различните разгледани кодиращи схеми.

В .NET Framework преобразуването на текст в последователност от байтове и обратното по дадена кодираща схема можем да извършваме с помощта на класа System.Text.Encoding и неговите наследници.

В таблицата са дадени най-често използваните методи и свойства на класа Encoding:

Метод/Свойство

Описание

GetBytes(string)

Конвертира символен низ в масив от байтове.

GetString(byte[])

Конвертира масив от байтове в символен низ.

GetChars(byte[])

Конвертира масив от байтове в масив от символи.

GetMaxByteCount(…)

GetMaxCharCount(…)

Връща максималната дължина на резултата, която може да се получи при конвертиране.

Convert(Encoding, Encoding, byte[])

Конвертира от една схема на кодиране в друга.

Следват няколко примера, които илюстрират използването на тези методи за конвертиране между различните кодиращи схеми:

Encoding utf16le = Encoding.Unicode;

byte[] bytes = utf16le.GetBytes("\uABCD");

Console.WriteLine("0x{0:X} 0x{1:X}", bytes[0], bytes[1]);

// Result: 0xCD 0xAB

Encoding utf16be = Encoding.BigEndianUnicode;
bytes = utf16be.GetBytes("\uABCD");

Console.WriteLine("0x{0:X} 0x{1:X}", bytes[0], bytes[1]);

// Result: 0xAB 0xCD

Encoding windows1251 = Encoding.GetEncoding("windows-1251");
bytes = windows1251.GetBytes("Цакам с A♥ и две ♣.");

Console.WriteLine(BitConverter.ToString(bytes));

// Result: D6-E0-EA-E0-EC-20-F1-20-41-A6-20-E8-20-E4-E2-

// E5-20-A6-2E
Console.WriteLine(windows1251.GetString(bytes));

// Result: Цакам с A│ и две │.

// Windows-1251 encoding is unable to preserve

// some character's original values

Encoding utf8 = Encoding.UTF8;
bytes = utf8.GetBytes("Ω(x) ≤ Ψ(x)π² ≤ ∫φ(x) ∂x ≤ ⅔");

Console.WriteLine(BitConverter.ToString(bytes));

// Result: CE-A9-28-78-29-20-E2-89-A4-20-CE-A8-28-78-

// 29-CF-80-C2-B2-20-E2-89-A4-20-E2-88-AB-CF-86-28-78-29-

// 20-E2-88-82-78-20-E2-89-A4-20-E2-85-94

Encoding ascii = Encoding.ASCII;
bytes = ascii.GetBytes("© 2004 Mente®");

Console.WriteLine(BitConverter.ToString(bytes));

// Result: 3F-20-32-30-30-34-20-4D-65-6E-74-65-3F

Console.WriteLine(ascii.GetString(bytes));
// Result: ? 2004 Mente?

// ASCII encoding is unable to preserve

// some character's original values

Encoding western = Encoding.GetEncoding("iso-8859-1");
bytes = western.GetBytes("© 2004 Mente®");

Console.WriteLine(BitConverter.ToString(bytes));

// Result: A9-20-32-30-30-34-20-4D-65-6E-74-65-AE

Console.WriteLine(western.GetString(bytes));
// Result: c 2004 MenteR

// ISO-8859-1 (latin) encoding is unable to preserve

// some character's original values

В разгледания пример първо създаваме обект от тип Encode.Unicode. След това извикваме метода му GetBytes(string) и запазваме върнатия резултат в масив от байтове. Отпечатваме получения масив от байтове на екрана, като задаваме формат за шестнайсетично число.

Вторият пример е аналогичен но вместо Unicode кодираща схема използваме BigEndianUnicode, за да укажем, че искаме запис, при който по-старшите байтове се записват преди младшите.

В третия пример създаваме Encoding обект с конструктора GetEncoding(), като му подаваме като параметър името на кодиращата схема windows-1251. Отново с помощта на GetBytes(string) взимаме байтовото представяне на низа и с помощта на класа BitConverter го отпечатваме на екрана. Класът BitConverter е предназначен за преобразуване на базови типове (числа, знаци, низове, булеви стойности) в редици от байтове и обратно. В случая използваме метода му ToString(byte[]) за да преобразуваме поредицата във вид, удобен за визуализация.

Следващата стъпка демонстрира как да получим обратно символният низ от извлечената поредица от байтове по зададена кодираща схема.

Останалите примери аналогично използват операциите GetBytes(string) и GetString(bytes[]) за UTF8, ASCII и ISO-8859-1. Вижда се, че при някои кодирания преобразуванията са със загуба.

Кодиране Base64

Когато се налага да се пренесат двоични данни през текстова среда, която поддържа само 7-битово кодиране, например при изпращане на ZIP архив по имейл, се налага последователността от байтове да се представи като символен низ. Тази задача се изпълнява най-често с помощта на кодирането Base64.

Кодиращата схема Base64 преобразува всеки три последователни байта в четири символа измежду A-Z, a-z, + и /. В резултат на това кодиране обемът на данните се увеличава с около 1/3.

За да извършим преобразуване на последователност от байтове в Base64 низ в .NET Framework можем да използваме класа System.Convert. Методът Convert.ToBase64String(byte[]) приема като параметър масива от байтове и по гореописания начин го преобразува в низ.

За преобразуване в обратна посока, от Base64 низ към масив от байтове, се използва методът Convert.FromBase64String(base64string). Този метод връща като резултат получения масив от байтове. Тази операция се налага да бъде извършвана например когато се записва прикачен към e-mail файл на твърдия диск.

Следният пример показва и двете преобразуващи операции:

using System;
class Base64Demo

{
static void Main()

{

byte[] array = {0x00, 0x3D, 0x80, 0xA0, 0xFF};

string base64 = Convert.ToBase64String(array);
Console.WriteLine(base64);

// Result: AD2AoP8=
byte[] array2 = Convert.FromBase64String(base64);

Console.WriteLine(BitConverter.ToString(array2));

// Result: 00-3D-80-A0-FF

}
}

Работа с Unicode във Visual Studio.NET

Различните схеми за кодиране за запис на файлове на компютъра важат както за всички текстови файлове така и за файловете със сорс код във Visual Studio.NET. Текстовият редактор има възможност за работа с файлове, записани в голям набор от кодирания.

Ако не укажем изрично каква кодираща схема да се използва, текстовият редактор на Visual Studio.NET използва кодирането по подразбиране в Windows. За да използваме Unicode символи в сорс кода на програмите си, трябва да запишем файловете си с кодираща схема UTF-8.

Поддръжка на всички езици

По подразбиране Windows не поддържа всички езици от Unicode стандарта. С цел спестяване на дисково пространство и други ресурс в Microsoft Windows шрифтовете за източноазиатските езици не се инсталират по подразбиране, но могат да се инсталират ръчно.

Това става като в Control Panel от настройките на Regional and Language Options, както се вижда на фигурата:

Използване на Unicode в редактора на Visual Studio .NET – пример

С настоящия пример ще разгледаме нагледно как чрез редактора на Visual Studio .NET можем да създаваме, компилираме и изпълняваме програми, които съдържат в сорс кода си Unicode низове.

Ето стъпките за изграждането на проект съдържащ Unicode низове:

Стартираме VS.NET
Създаваме ново конзолно приложение на езика C#
Заместваме кода в главния файл (Class1.cs) със следния код:

using System;

using System.Text;

using System.Windows.Forms;
class UnicodeInVsNETDemo

{

static void Main()

{

StringBuilder sb = new StringBuilder();

sb.Append("What is Unicode? (English)");