← Back to team overview

sslug-teknik team mailing list archive

Fejllæsning af gamle MS-filer

 

Jeg har lagt kubuntu ind på en mine venners pc. En del af de gamle 
wordfiler kan imidlertid ikke læses rigtigt, og jeg har også selv nogle 
ældre med samme problem. Symptomet er at hvis man åbner dem i openoffice 
kommer der en dialogbox, ascii filterindstillinger hvor man kan vælge 
tegnsæt. Men det fuldstændig ligegyldigt hvad man vælger. Når filen åbnes 
er alle formateringer blevet til grimme tegn, ditto med æøå.

Så vidt jeg kan se er der tale om at filerne er så at sige er 
fejlindkodet på ext4. Filerne opfattes som utf-8, selvom de i 
virkeligheden er is0-8859-1??? Eller også er det endnu værre.

Jeg har prøvet recode og dos2unix, men ingen konverteringer jeg kunne 
finde på, virkede. Jeg har åbnet en fil i python, og det er lykkedes mig 
at få den til at se nogenlunde ud med:
print a.decode('latin1').encode('utf-8') ... 
selvom æ er ½ eller sådan noget, så formateringerne virker sikkert stadig 
ikke. Under alle omstændigheder kan jeg ikke få lov at gemme den tekst 
python har omdannet. Den kommer ud og siger:
UnicodeEncodeError: 'ascii' codec can't encode characters in position 
0-1: ordinal not in range(128)

Er der nogen der har ideer til hvad jeg skal gøre?

Flemming Bjerke


Follow ups