sslug-teknik team mailing list archive
-
sslug-teknik team
-
Mailing list archive
-
Message #87196
Re: pdftotext og danske tegn
On Thu, Feb 16, 2006 at 03:56:21AM +0100, Michael Rasmussen wrote:
> On Wed, 15 Feb 2006 23:05:43 +0000, Jon Theil Nielsen wrote:
...
> > win-1257 er vistnok baltisk, mens win-1252 er amerikansk/vesteuropæisk.
> > Men hvis jeg sætter -enc til win1252 (eller win-1252) får jeg en
> > fejlmeddelelse om at den ikke kender noget til det... Jeg kan ikke
> > gennemskue hvilke encodings programmet har at gøre godt med. Men det er i
> > hvert fald korrekt at det er dokumenter lavet i Windows vha. Acrobat.
> Prøv følgende:
> 1) pdftotext fil.pdf fil.txt
bedre var måske først at undersøg i f.eks. acrobat-reader
hvad den siger om de anvendte fonte/tegnsæt
(i documents-properties)
Dernæst undersøge tegnene i tekst-filen, udfra hex-værdierne burde
man kunne finde ud af hvilke(t) tegnsæt der er anvendt.
win1252 minder om Latin1 plus lidt ekstra, så det kan
ikke give 2-bytes tegnkoder for "Ø", og tegnkoder der
ligner UTF-8 .
Måske man ogås skal se på en eller flere af omgiverlsesvariablerne
LANG, LANGUAGE, LC_*
inden man kalder pdftotext ?
og hvis problemet er at pdftotezt lavet UTF-8, så brug
recode til at konvertere fra UTF-8 til f.eks. latin1 (iso-8859-1)
--
mvh Frank Damgaard |
References