sslug-teknik team mailing list archive

Thread
Date

Re: UTF8 konvertering og mysql

To: sslug-teknik@xxxxxxxx
From: Bo Vagner Højer <bo@xxxxxxxxxxxxxxxx>
Date: Sat, 19 Aug 2006 02:21:12 +0200
Delivered-to: mailing list sslug-teknik@xxxxxxxx
In-reply-to: <ec50kt$3bt$1@www.sslug.dk>
Mailing-list: contact sslug-teknik-help@xxxxxxxx; run by ezmlm



On Fri, 18 Aug 2006, Kristian Nørgaard wrote:

Sagen er at jeg har forsøgt at kopiere et helt website fra en computer A tilB, ved at kopiere samtlige filer og dernæst exportere mysql-databasen fracomputer A og importere den på computer B.
Når jeg så afprøver web-sitet, får jeg en mærkelig fejl, som - ifølge nogleindlæg jeg har fundet på nettet - sikkert skyldes noget UTF8 halløj. Nogetmed at mysql ved en fejl konverterer til UTF8, selv om data allerede er iUTF8...
Og UTF8 ved jeg ikke en dyt om.

I tidernes morgen brugte fjernskrivere 5 bit til at repræsentere et tegnmed. Det var dengang meget vigtigt at holde tegnlængden nede, da mantransmiterede med hastigheder på under 60 baud. Desværre havde hver sinfabrikant hvert sit tegnsæt og det forsøgte man at gøre noget ved medvedtagelsen af ASCII tegnsættet i 1967. ASCII er et 7 bit tegnsæt sombygget op om det engelske sprog. For at anvende dansk eller andre sprogbyttede man blot bestemte ikke særligt brugte tegn ud med vore nationale.Det viste sig med opfindelsen af mikrodatamaten at være en kedelig ting,da man for at få maskeprogrameter en rom skulle bestille 20000 enheder. Påden tid var det umuligt at afsætte så mange computere i et land somdanmark, så man måtte benytte sig af langt dyrere prom eller epromløsninger. Et andet problem er at data-transport over landegrændsen erbesværlig og skal ske med stor omhu.

Løsningen er de forskellige iso-8859-xx tegnsæt, som bedre er kendt undernavnet latin tegnsættet. Disse tegnsæt er på 8 bit og de dækker hver isæren større region. I danmark benyttes latin-1 som standard, hvilket medeuroens inførsel har fået en afløser i latin-15. Det er temmeligtkedeligt, at man ikke var klog nok, til at anvende det alleredeeksisterende sol-tegn som valuta-tegn; men absolut skulle sende nogenpolitiske signaler med opfindelsen af et nyt tegn.

Komminikation foregår i dag på verdensplan, så derfor har man meddet ædelt formål at give ethvert tænkeligt tegn på kloden et uniktnummer, skabt unicode. Det betyder at man skal bruge flere bits til at fåplads til alle tegn. Computere er ligeglade, da de idag bruger 32 bit sommaskinord; men både lagerplads og båndbredde bliver knap når man ligepludselig skal bruge 4 gange så meget plads, som før til det sammeindhold. Dertil kommer at 99.99 procent af alle tekster i danmark aldrig brugermere end 127 forskellige tegn. Derfor har man fundet på UTF-8 hvor manbruger ASCII-tegnsættet som basis (8 bit), men hvor andre tegnderiblandt vore nationale, kodes med 2 til 4 tegn. Det betyder aten national tekst kan vokse med cirka 20-30 procent i forhold til en latin-1tekst. Hvad jeg mener om UTF-8 skal jeg nok holde for mig selv; men blotkonstantere at UTF-8 filer skal fortolkes, hvorimod andre filer blotkan anvendes som de er.

En UTF-8 fil ser nogen lunde således ud: " HovedformÃ¥let er, atfortÃ¦lle en god historie om Danmark og danskerne - gerne med et glimt iÃ¸jet." Som det ses, er det altså nogenlunde nemt at gætte sig til, at derer tale om UTF-8 fil. Man kan også med varierende held få 'file' til atgætte, hvilket tegnsæt der er tale om.

Problemmet med forskellige tegnsæt er altså ikke af ny dato, så derforfindes GNU programmet recode til convertere mellem et par hundredeforskellige tegnsæt. Hvis man har en ældre version kaldes programmet som'recode frategnsæt:tiltegnsæt filnavn'. Nutildags bruges 'recodefrategnsæt..tiltegnsæt filnavn'. Eksempel 'recode utf-8..latin1mindatabase'. Hvis man ikke angiver noget filnavn benyttes stdin tilinput. Der følger en ret stor info-dokumentation med programmet.

Er der nogen der kan hjælpe med at få kopieret databasen fra A og til B, påen sund måde?


Lav et dump af databasen til en fil.

Prøv at finde ud af tegnsættet med file ellerved at kigge på filen med f.eks. mc.


Brug programmet recode til at konvertere til det rigtige format.

Importer filen.

Mvh. Bo

Follow ups

Re: UTF8 konvertering og mysql
From: Kristian Nørgaard, 2006-08-19

References

UTF8 konvertering og mysql
From: Kristian Nørgaard, 2006-08-18