← Back to team overview

sslug-teknik team mailing list archive

Re: pdftotext og danske tegn

 

On Tue, Feb 14, 2006 at 07:47:22PM +0000, Jon Theil Nielsen wrote:
.......
> Det giver desværre samme resultat. Jeg kan ikke se på pdf-filerne, hvilken 
> kodning de har. Jeg er ikke i tvivl om at outputformattet bliver UTF-8, 
> men problemet er åbenbart at læse inputformatet. Hvilke andre encodings 
> kunne man forestille sig ville virke?

>>>> "<C3><98> i stedet for "Ø"

Prøv evt med "recode" eller lignende at prøve at se
hvilket tegnsæt "Ø" kan give.

$ echo ØøÆæÅå | recode iso-8859-1..utf-8 | hexdump -C

00000000 c3 98 c3 b8 c3 86 c3 a6 c3 85 c3 a5 0a |Ã.øÃ.æÃ.Ã¥.|

Så det er vist utf-8 du har i PDF filerne?


-- 
mvh Frank Damgaard  | 



References