sslug-teknik team mailing list archive
-
sslug-teknik team
-
Mailing list archive
-
Message #87181
Re: pdftotext og danske tegn
On Tue, Feb 14, 2006 at 07:47:22PM +0000, Jon Theil Nielsen wrote:
.......
> Det giver desværre samme resultat. Jeg kan ikke se på pdf-filerne, hvilken
> kodning de har. Jeg er ikke i tvivl om at outputformattet bliver UTF-8,
> men problemet er åbenbart at læse inputformatet. Hvilke andre encodings
> kunne man forestille sig ville virke?
>>>> "<C3><98> i stedet for "Ø"
Prøv evt med "recode" eller lignende at prøve at se
hvilket tegnsæt "Ø" kan give.
$ echo ØøÆæÅå | recode iso-8859-1..utf-8 | hexdump -C
00000000 c3 98 c3 b8 c3 86 c3 a6 c3 85 c3 a5 0a |Ã.øÃ.æÃ.Ã¥.|
Så det er vist utf-8 du har i PDF filerne?
--
mvh Frank Damgaard |
References