Datafeeds en accenten

vin

Nieuw lid
6 mei 2006
247
0
0
www.label90.nl
#1
Ik heb een klein probleem bij het gebruiken van datafeeds, accenten worden namelijk niet goed weergeven. Zo krijg je bijvoorbeeld..

Düsseldorf -> Düsseldorf
Björn Borg -> Björn Borg

Ligt dit aan de karakterset die je gebruikt? Of moet ik de oplossing ergens anders zoeken? Alvast bedankt voor reacties!
 

PJ

Nieuw lid
28 feb 2008
1.417
0
0
#3
Ligt inderdaad aan de karakterset. Die feed is blijkbaar UTF-8. Dat kun je makkelijk lokaal converteren. Maar afhankelijk van het netwerk dat die feed levert kun je ook zelf kiezen in welke karakterset je de feed wilt ophalen.
 

vin

Nieuw lid
6 mei 2006
247
0
0
www.label90.nl
#4
Ok, thanks! :) Ik heb het even met een andere karakterset uitgetest, nu worden de woorden wel normaal weergeven. Ik heb alleen nu geen hoofdletters meer, nog even kijken welke karakterset ik het beste kan gebruiken dus!

Is er ook over het algemeen te zeggen welke karakterset je het beste kan gebruiken?

ouwesmurf zei:
$a=utf8_decode("Düsseldorf"); // in php
echo $a; ====> Düsseldorf doet wonderen 8)

Is inderdaad handig als het alleen bij Düsseldorf zou zijn, maar er zijn helaas meer woorden met accenten. Toch bedankt!
 

ouwesmurf

Nieuw lid
25 jan 2008
3.028
0
0
wfsidee.nl
#5
Is er ook over het algemeen te zeggen welke karakterset je het beste kan gebruiken?
Hangt allemaal af van de wijze waarop je met de pagina omgaat en het gebruik van de data.
Is je pagina gericht op "de wereld" kan utf8 of 16 geen kwaad om dat voor de pagina toe te passen, werk je alleen in de "nabije omgeving" kun je deze meta toepassen:
<meta http-equiv="content-type" content="text/html; charset=iso-8859-1" />
utf16 kom je bijvoorbeeld bij de Google-zoekwoordenpagina tegen wanneer je je resultaten in een csv wilt bewaren.

Hoe ga je echter met de datafeed om ? Direkt vanuit de feed de pagina in, gebruik je php of iets anders. Haal je het bestand met php op, of eerst naar je lokale pc. Geeft een massa aan mogelijkheden.

Het lijkt erop dat je geen php gebruikt, want het is niet zo, dat je die instructie moet toepassen voor 1 woord. Je kan bij wijze van spreken de hele feed ineens inlezen en daarin met 1 instructie alle utf decoderen, en klaar is ..

En dan zit je bijvoorbeeld nog met de entiteiten als een ampersand "&", xhtml houdt er niet van. Foutieve image-url's met spaties erin. Kun je allemaal met php ( of asp ) wegwerken, zo handig, kan het je aanbevelen. ;D

Maar haal je een bestand naar je lokale pc en je zou de teksteditor "Editpadpro" (shareware) hebben, kun je het hele bestand ineens van de ene taalgroep naar de andere omzetten. Ook errreg handig.

Eigenlijk maar 1 subtiel klein probleempje : even het probleem definieren of voorkomen. Zoals PJ aangeeft : werk je met 8859, haal je de feed in 8859 op, de meeste netwerken kennen die optie. Zo niet het babynetwerk affiliate4you, daar gaat alles in utf-8. Het leven van affiliates gaat niet over rozen... 8)