Következő Fel Előző
Következő: A. Karakterkódok Fel: Fordítási útmutató Előző: 7. Szavak és kifejezések

Alfejezetek

8. Karakterkészletek

8.1. Latin-2, UTF-8

A számítástechnika őskorában megszületett a 7 bites ASCII karakterkészlet. Ez semmilyen ékezetes betűt nem tartalmazott.

Később elkészítettek több 8 bites karakterkészletet is, melyek közül az egyikbe belekerült a magyar ábécé összes betűje. Ez az iso-8859-2, másnéven Latin-2 karakterkészlet. Sajnos egyes írásjelek, például az alul kezdődő idézőjel vagy a gondolatjel, hiányoznak ebből a karakterkészletből.

Létezik egy Windows-1250 nevű készlet is. Ez a magyar ékezetes betűk terén teljesen megegyezik a Latin-2-vel, így ebben készült dokumentum olvasása nem okozhat gondot. Természetesen szabad szoftver fordításait készítjük el, így ha bárhol meg kell neveznünk a használt karakterkészletet, a „Windows-1250” megnevezés használata nem elfogadható.

Az iso-8859-1 (Latin-1) karakterkészlet a legtöbb helyen megegyezik a Latin-2-vel, viszont hosszú ő és ű helyett hullámvonalas õ és kalapos û található benne. Így ha a képernyőn hullámos õ és kalapos û betűket látsz, akkor könnyen lehet, hogy csak a használt alkalmazásod van hibás karakterkészlet használatára beállítva, de valójában Latin-2 értelmezés szerint helyes betűket helyez el a szövegben. Ha valahol kalapos ô betűvel találkozol, az semmiképpen sem jó, mivel a Latin-1 és a Latin-2 azonos pozíción mindketten kalapos ô betűt tartalmaznak, így az semmilyen szabvány szerint nem fog magyar ő betűként megjelenni.

 

A többnyelvűség iránti egyre nagyobb igénynek köszönhetően tarthatatlannak tűnt a több különféle kódtábla párhuzamos kódolása. Ennek eredménye lett a Unicode karakterkészlet, és annak UTF-8 ábrázolása. UTF-8-ban minden ékezetes magyar betű 2 byte-ot foglal el, míg egyéb speciális karakterek akár ennél hosszabbak is lehetnek.

 

A kódolások közötti átalakításra két program is használható. Az egyik a glibc részét képző iconv, a másik pedig az önálló recode program. Példa a használatukra, Latin-2-ről UTF-8-ra alakításhoz:

8.2. Ékezetek nélkül?

Sajnálattal tapasztaltuk, hogy nagyon sokan a gépelés során nem tesznek különbséget a rövid és hosszú magánhangzók között. Sokan vannak, akik kézzel írva pontosan tudják, hogy egy adott szót rövid vagy hosszú i-vel, ö-vel stb. kell-e írni, de gépelés során tökéletesen megelégednek azzal, ha a másik billentyűt találják meg a billentyűzeten, és lenyomják azt. Természetesen fordítás készítése során ez a hozzáállás nem engedhető meg, tökéletesen meg kell különböztetnünk az i betűt az í betűtől, az ö-t az ő-től stb.

Nem engedhető meg az sem, hogy ékezetek használata nélkül gépeljen bárki is. Ha esetleg bárhol olyan alkalmazással találkozna valaki, amely nem képes megjeleníteni az ékezetes betűket, és emiatt ékezet nélkül kellene a szöveget írnia, akkor is mindenképpen ékezethelyesen kell elkészíteni a magyar fordítást. Ez az ékezethelyes fordítás utána egyetlen tr paranccsal átalakítható ékezet nélkülivé, ha erre lenne szükség, de mindenképpen tartsuk meg az ékezetes szöveget is, mert a visszaalakítás már nem ilyen egyszerű. Az ékezet nélküli szövegen képtelenség helyesírás-ellenőrzést végezni. És egyébként is, ki tudja, lehet hogy holnap már fejlettebb lesz a program és meg tudja jeleníteni jól az ékezeteket.

Ékezet nélkül írni még ideiglenes jelleggel sem szabad, mert ékezet nélküli szövegre utólag kirakni az ékezeteket mindenki csak lényegesen rosszabb minőségben képes, mint rögtön ékezetekkel írni. Ha éppen valami miatt nem tudsz ékezeteket írni, tedd félre későbbre a munkát, semmiképpen ne kezdd el ékezetek nélkül írni, mert az meg fog látszódni a végeredményen. Ha „csak” a hosszú í hiányzik a billentyűzetedről (102 gombos kiosztás 101 gombos fizikai billentyűzeten), akkor is pontosan ugyanez áll: ne kezdj el dolgozni addig, amíg nem tudsz hosszú í betűket írni.


Következő Fel Előző
Következő: A. Karakterkódok Fel: Fordítási útmutató Előző: 7. Szavak és kifejezések