Charset

Karel

Nieuw lid
21 feb 2008
814
1
0
#1
Normaal gebruik ik als charset:
<META content="text/html; charset=ISO-8859-1" http-equiv="Content-Type">
geen problemen met aangereikte teksten, alleen het ? teken wil wel eens fout gaan.

Op advies ben ik met een site overgegaan op
<META content="text/html; charset=UTF-8" http-equiv="Content-Type">

Zo ontstaat in de aangereikte teksten, vanwege diversiteit in tekens, franse en duitse taal een puinhoop.

Wat is verstandig?? Ook lettend op toekomst.
Doorgaan met de eerste dus charset=ISO-8859-1 met aanvulling voor ? teken de &#128;
te gebruiken.

Kan iemand mij wat deskundigheid bijbrengen?

Karel
 

ouwesmurf

Nieuw lid
25 jan 2008
3.028
0
0
wfsidee.nl
#2
In de basis is het de allereerste communicatie tussen server en html document dat bepalend is voor de character set.
Daarbij is 8859-1 dermate ingevoerd dat het meestal de default is, en zou je het eigenlijk weg kunnen laten.

Maar 8859 kent dermate veel broertjes en zusjes dat ietsje fijntuning nuttig is, en dus in het document moet staan voor wanneer je een tidy tester erop los laat. Probleem van de tidy tester is : het checkt de geschreven code en kan ook niet testen op de communicatie tussen server en jouw document via de browser.
Je vindt hier een lijst van alle mogelijke char-sets : http://www.iana.org/assignments/character-sets.

UTF-8 breidt uit op byte-formaat, kent daarmee meer codes dan 8859 cs, verder niet.

Dus... heb jij een server ( waar je pagina staat opgeslagen ) in Engeland, en je pagina wordt opgevraagd in Japan , kan er iets vreemds ontstaan, omgekeerd levert de server in Nieuw Zeeland voor Hollanders soms ook vreemde zaken. Soms wil <html lang=nl> ook nog wel helpen, maar meestal niet nodig.

Waar voor gewone tekst 8859 de default is, is dat bij XML juist utf-8.
Ga jij dus een xml-feed gedeclareerd invoegen met reisgegevens zet je 2 problemen naast elkaar.
Conclusie:
1. zoek aansluiting met je server
2. zoek aansluiting met de inhoud van je pagina, desnoods de xml opvragen in 8859 in plaats van utf of andersom
3. google op charset's en er gaat een werel van onbegrip voor je open. ;D

En de euro kun je ook bereiken met de html-entiteit : &euro; of bijvoorbeeld &#8364;, de laatste is internationaal gezien beter.
 

Karel

Nieuw lid
21 feb 2008
814
1
0
#3
Bedankt voor het uitgebreide antwoord. Die utf-8 heeft als exra probleem dat de aanslagen op het key-board anders kunnen worden weergegeven. De franse taal, o.m. geeft daarom een puinhoop.

Ik zal de server site eens onderzoeken. Zie wel dat de meeste sites de utf-8 voorschrijven.

Karel
 

DikkieD

Nieuw lid
25 okt 2007
973
0
0
#4
"&euro; of bijvoorbeeld &#8364;, de laatste is internationaal gezien beter"

Goed om te weten :)....was met een Engelstalige site bezig....en had al een paar keer &euro; gebruikt...
 

xipe

Nieuw lid
31 mrt 2008
650
0
16
#5
Charset problemen zijn naar.

In principe maakt het niet heel veel uit wat je doet.
Als je in de hele dataverwerking, van achter bij het ophalen van data uit b.v. een feed, naar het in een db zetten (let ook daar op de charset!) tot en met de charset declaratie van de webpages die de inhoud gaan tonen maar consequent bent!

Zelf heb ik voor 8859-1 gekozen. En moet ik dus om te beginnen altijd de xml-datafeeds (csv is niet zo'n probleem meestal, want die zijn niet vaak noodzakelijkerwijze in utf-8) strippen van alle ut8-troep, zoals ik het altijd in de commentaren in mijn php-code zet.
:)
Met ut8_decode, maar soms is er meer nodig. Het komt zelfs nog wel eens voor dat feeds dubbel gecodeerd zijn.
Per productfeed is het altijd weer de kunst: hoe maak ik een bruikbaar geheel van het soepje en hoe zet ik het netjes in mijn db.
;)

Mijn belangrijkste issue is daarom de data 'netjes' in de db krijgen, want bij het uiteindelijke ophalen van alle data (van verschillende bronnen) kan en wil je dat niet meer..!

My 2 cents,
xipe