Standardy kodowania znaków w dokumentach html

Home | dydaktyka | internet | Standardy kodowania znaków w dokumentach html

Standardy kodowania znaków

ASCII

Pierwszym szeroko rozpowszechnionym standardem kodowania znaków było ASCII stworzone w USA - 7 bitowe kodowanie dawało wybór 128 znaków - litery małe i duże oraz znaki specjalne. Stan ten zaaprobowała Miedzynarodowa Organizacja Standaryzacji - ISO i nadała mu status standardu - ISO 646 .

W miarę rozprzestrzeniania się technologii na świecie okazało się, że nie wszyscy używają znaku "$" czy "&" (ang. and) natomiast chcieliby posiadać charakterystyczne dla swojego kraju znaki i symbole. Dzieki ósmemu bitowi - rzadko wykorzystywanemu bitowi parzystości udało się podwoić dostepną ilość znaków. Pozwoliło to dodać niedużo znaków narodowych, trochę symboli matematycznych i kilka znaków semigraficznych.

Code Page 852

IBM jako jedna z firm przystapił do lokalizowania swoich produktów wykorzystując tzw. Code Pages i oparte na tym pomyśle tablice 256 znaków. Znaki o numerach 0-127 były takie same jak w ASCII, natomiast pod adresami 128-255 znajdowały się charakterystyczne dla każdej strony kodowej (Code Page) znaki narodowe. Dla Europy środkowej została przeznaczona strona 852 i została rozpowszechniona razem z DOS-em.

ISO-8859

Organizacja ISO w 1987 uporządkowała sytuację (nie tylko IBM opracował własny standard) i opublikowała normę ISO-8859 opartą na pomyśle ASCII + 128 znaków dodatkowych. Opracowano 10 zestawów tych dodatkowych znaków, Latin 1 dla jezyków zachodnioeuropejskich, Latin 2 dla wschodnioeuropejskich itd.

W czerwcu 1990 kilkanaście firm razem z Microsoft porozumiało się, że nadal bedą używać Code Page 852 pomysłu IBM. Zestaw ten zawierał znaki m.in. polskie, czeskie, wegierskie ale nie znalazły się tam znaki języków francuskiego czy niemieckiego. Zrodziło to obawy, że nasz region stanie się obszarem odciętym od Europy, w którym nie bedzie można używać jezyka niemieckiego czy francuskiego podczas pracy z komputerem.

Mazovia

Obawy te zaowocowały mnóstwem standardów kodowania polskich znaków. Cała sztuka polegała na zawarciu w zestawie diakrytyków polskich, niemieckich i francuskich przy jednoczesnym ominięciu kodów mających specjalne znaczenie w programach i pozostawieniu pewnej ilości znaków semigraficznych wykorzystywanych w DOS. Warunki te spełniał standard Mazovia opracowany w Instytucie Maszyn Matematycznych co spowodowało, że stał się powszechnie używany, także przez producentów drukarek i kart graficznych (te produkowane w pónych latach osiemdziesiątych generowały znaki sprzętowo).

ISO-8859-2

Polski Komitet Normalizacji, którego zadaniem było opracowywanie i ustanawianie standardów w Polsce, dotychczas bezczynny w tej sprawie, w 1991 wydał normę PN-91/T-42115 - "Przetwarzanie informacji. Zestaw znaków graficznych w jednobajtowym kodzie 8-bitowym. Alfabet łaciński nr 2". Była ona polską wersją majacej 4 lata normy ISO-8859. Oznaczało to konieczność rezygnacji z popularnej Mazovii, dlatego brać komputerowa uznała ten przepis za martwe i niemożliwy do wyegzekwowania przepis.

Windows CP 1250

Niedługo póniej swiatło dzienne zobaczył Windows 3.1 i tu mamy niespodziankę - Microsoft, mimo zapewnień, porzucił strone kodową 852 i wprowadził własne kodowanie znane jako Windows CP 1250.

Wraz z upadkiem idei sprzętowego generowania znaków zaczęła tracić na znaczeniu kwestia sposobu zakodowania. Monitory i karty graficzne SVGA wyświetlały już znaki programowo. Dzieki temu nie trzeba było wymieniać chipa aby zmienić ich kodowanie. I tak narodziła się dwoistość - środowiska wywodzace się z Unixa (Internet) konsekwentnie używały międzynarodowego i oficjalnego polskiego standardu ISO 8859-2 a użytkownicy Windows zostali zmuszeni do posługiwania się stroną CP 1250.

MIME

Sytuację zmieniło pojawienie się MIME - Multipurpose Internet Mail Extension. Dzięki zakodowaniu wiadomości, maila, strony html czy innego pliku tekstowego zgodnie ze specyfikacją MIME nie ma potrzeby używać dalej zestawu znaków innego niż ISO-8859-2. Od 1997 klienci poczty i przegladarki Netscape i Microsoft potrafią interpretować MIME, posługują się nim także serwery. Dzięki kodowaniu MIME razem ze znakami, z których składa sie wiadomość jest przesyłana informacja o kodowaniu, co pozwala uniknąć nieporozumień. W teorii MIME to doskonałe rozwiązanie, ale wszyscy jeszcze długo będziemy się spotykali z "krzaczkami" w korespondencji e-mail.

Unicode

Rozwiazaniem ostatecznym jest Unicode, który zaczął się rodzić po 1983 r, kiedy to ISO podjęła ambitną decyzje o opracowaniu standardu kodowania dla wszystkich języków na świecie. Od razu jasne było, że nie wystarczy tutaj 8 bitowe kodowanie umożliwiajace użycie 256 znaków, dlatego zdecydowano się na 16 bitowy kod, który pozwalał na użycie 65536 znaków. Jednak i ta ilość okazała się niewystarczająca gdy wzięto pod uwagę, że każdy z podobnych alfabetów: chiński, japoński, koreański zawiera podobne znaki ale przedstawiciele tych krajow w ISO odrzucili propozycję przyjęcia zunifikowanego zestawu znaków. Ilość ideogramów w tych alfabetach przekracza możliwości 16 bitowego kodowania, stąd ISO opracowała projekt zakodowania znaków w 32 bitach ale reszta krajów zrzeszonych w ISO odrzuciła ten pomysł.

W 1987 roku kilku ludzi z osławionego laboratorium Xerox w Palo Alto razem z człowiekiem z Apple wpadli na bardzo prosty ale skuteczny sposób wyjścia z impasu - przypisali znakom występujacym w kilku językach ten sam kod, podczas gdy projekt ISO przewidywał mechaniczne zakodowanie znaków wszystkich języków po kolei. Ideę podchwycili najwięksi w branży oprogramowania i w 1991 pojawił się standart Unicode. ISO uznała Unicode jako 16 bitową część swojego 32 bitowego standardu i w 1992 wydała normę ISO/IEC 10646, która zawierała Unicode 1.1 jako 16 bitowy podsystem 32 bitowgo standardu.

Unicode jest rozwiazaniem ostatecznym ale mimo niezaprzeczalnych zalet dosyć wolno się rozpowszechnia. Można to zrozumieć, jeśli uwzględnimy, że zestawy unikodowe moga zawierać ponad 65 tysięcy znaków, z których każdy trzeba zaprojektować i umieścić w zestawie. Unicode jednak pozwala na łatwe tworzenie oprogramowania, które mogłoby się posługiwać każdym językiem świata. Dopuszcza także możliwość cytowania w innym języku lub tworzenia tekstów zawierających znaki wielu alfabetów. Dzięki pomijaniu bitów zerowych kod znaku w 16 bitowym Unicode jest niewiele dłuższy (często tylko o 5-10%) niż w 8 bitowym ASCII. Tylko Unicode jest w stanie sprostać wszystkim wymaganiom jakie stawiają przed standardem użytkownicy i producenci oprogramowania.

Po wiecej informacji odsylam na polska strone ogonkowa

Wykłady:

1. Sieci komputerowe

1.1 Pojęcia podstawowe

1.2. Internet - historia i współczesność

1.3. Rodzaje sieci

2. HTML 5.0

2.1. HTML - konwencje

2.2. Kod minimalny dokumentów .html

2.3. Znaki diakrytyczne i metainformacje

2.4. Podstawowe tagi

2.5. Formatowania tekstu

2.6. Obrazy

2.7. Odnośniki

2.8. Listy

2.9. Tabele

3. CSS

3.1. CSS - konwencje

3.2. Kolory

3.3. Tła

3.4. Model pudełkowy

3.5. Krawędzie

3.6. Marginesy

3.7. Dopełnienia

3.8. Wysokość i szerokość

3.9. Tekst

3.10. Czcionki

3.11. Opływanie

3.12. Technika zagnieżdżonych bloków, Display

4. Dodatki

4.1. Publikacja stron www

4.2. Grafika

4.3. Walidacja dokumentów

4.4. Linux (1)

Ćwiczenia:

Zakładanie kont

Tabele:

1 2 3 4 5 6

Ramki:

1 2 3 4 5 6 7

Ramki - projekt

CSS:

Tomasz Bartuś