← Back to team overview

sslug-teknik team mailing list archive

Re: pdftotext og danske tegn

 

On Thu, Feb 16, 2006 at 03:56:21AM +0100, Michael Rasmussen wrote:
> On Wed, 15 Feb 2006 23:05:43 +0000, Jon Theil Nielsen wrote:

...

> > win-1257 er vistnok baltisk, mens win-1252 er amerikansk/vesteuropæisk.
> > Men hvis jeg sætter -enc til win1252 (eller win-1252) får jeg en
> > fejlmeddelelse om at den ikke kender noget til det... Jeg kan ikke
> > gennemskue hvilke encodings programmet har at gøre godt med. Men det er i
> > hvert fald korrekt at det er dokumenter lavet i Windows vha. Acrobat.
> Prøv følgende:
> 1) pdftotext fil.pdf fil.txt

bedre var måske først at undersøg i f.eks. acrobat-reader
hvad den siger om de anvendte fonte/tegnsæt
(i documents-properties)

Dernæst undersøge tegnene i tekst-filen, udfra hex-værdierne burde
man kunne finde ud af hvilke(t) tegnsæt der er anvendt.

win1252 minder om Latin1 plus lidt ekstra, så det kan
ikke give 2-bytes tegnkoder for "Ø", og tegnkoder der
ligner UTF-8 .

Måske man ogås skal se på en eller flere af omgiverlsesvariablerne
LANG, LANGUAGE, LC_*
inden man kalder pdftotext ?

og hvis problemet er at pdftotezt lavet UTF-8, så brug
recode til at konvertere fra UTF-8 til f.eks. latin1 (iso-8859-1)


-- 
mvh Frank Damgaard  | 



References