Het tweetallig (binair) stelsel

Van ASCII naar Unicode

Met de ASCII-code kunnen maar 255 tekens worden gecodeerd, er wordt dan 1 byte per teken gebruikt.
Maar er zijn veel meer dan 255 tekens op de wereld(  )
Daarom wordt ook de Unicode gebruikt. Daarmee kunnen meer dan 64000 tekens worden gecodeerd, er worden dan 2 bytes per teken gebruikt.
Hieronder zie je een aantal van die 64000 tekens met de bijbehorende Unicode.



Het beheer van de standaardisatie van deze Unicode, ligt bij het "the Unicode consortium:".

"Unicode provides a unique number for every character, no matter what the platform, no matter what the program, no matter what the language."

Fundamentally, computers just deal with numbers. They store characters by assigning a number for each one. Before Unicode was invented, there were hundreds of different encoding systems for assigning these numbers. No single encoding could contain enough characters: for example, the European Union alone requires several different encodings to cover all its languages. Even for a single language like English no single encoding was adequate for all the letters, punctuation, and technical symbols in common use. These encoding systems also conflict with one another. That is, two encodings can use the same number for two different characters, or use different numbers for the same character. Any given computer (especially servers) needs to support many different encodings; yet whenever data is passed between different encodings or platforms, that data always runs the risk of corruption.
Die Unicode wordt steeds met hexadecimale getallen aangegeven.
Als je bijv. in bovenstaand voorbeeld naar de A kijkt dan zie je dat de hexadecimale code van de A 0041 is.
En decimaal is dat 1 + 4 x 16 = 65. Dat is hetzelfde als de ASCII-code van de A.
De unicode-tekenset bevat dus ook de ASCIIcode-tekenset, en de codes zijn voor die tekens gelijk.



Zo zie je hierboven wat tekens van het Cyrilische alfabet (Rusland). Onder elk karakter staat een unieke (uni-)code.
Deze code wordt gegeven met 4 tekens uit het zestientallig stelsel, zodat de codering feitelijk bestaat uit zestien bits (twee bytes).
Bijvoorbeeld: 04CBHEX = 0000 0100 1100 1011BIN = 0*163 + 4*162 + 12*161 + 11*160 = 1227DEC
04ECHEX = 0000 0100 1110 1100BIN = 0*163 + 4*162 + 14*161 + 12*160 = 1440DEC
040AHEX = 0000 0100 0000 1010BIN = 0*163 + 4*162 + 0*161 + 10*160 = 0065DEC

Met 16*16*16*16 = 65536 verschillende tekens komen we best een eind. En eigenlijk hebben we meer niet nodig op het toetsenbord....