sslug-teknik team mailing list archive

Thread
Date

Re: pdftotext og danske tegn

To: sslug-teknik@xxxxxxxx
From: jtheilnielsen@xxxxxxxx (Jon Theil Nielsen)
Date: Tue, 14 Feb 2006 19:47:22 +0000 (UTC)
Delivered-to: mailing list sslug-teknik@xxxxxxxx
Mailing-list: contact sslug-teknik-help@xxxxxxxx; run by ezmlm
Newsgroups: sslug.teknik
Organization: SSLUG newsportal
User-agent: NewsPortal/0.36 (http://florian-amrhein.de/newsportal)

Frank Vestergaard Pedersen skrev:

Frank Damgaard wrote:

On Tue, Feb 14, 2006 at 11:04:41AM +0000, Jon Theil Nielsen wrote:
I forbindelse med opsætning af en søgefunktion på mit website vil jegbruge pdftotext til at konvertere pdf-filer til tekst. Det fungereregentlig udmærket. Bortset fra at det går galt med danske specialtegn,hvor der bliver indsat koder som fx <C3><98> i stedet for "Ø". Findes deren løsning på dette problem?
Hos mig virker det men jeg har muligvis også anvendt PDF filer
med Latin1 som er standard i pdftotext.
Se option "-enc" i "man pdftotext"
Muligvis du anvender dokumenter med unicode, utf8 eller andet
tegnsæt?
prøv med:

pdftotext -enc UTF-8 fil.pdf fil.txt

Det virker på min ubuntu! Dvs. at output filen bliver i utf-8 format.

/Frank

Det giver desværre samme resultat. Jeg kan ikke se på pdf-filerne, hvilkenkodning de har. Jeg er ikke i tvivl om at outputformattet bliver UTF-8,men problemet er åbenbart at læse inputformatet. Hvilke andre encodingskunne man forestille sig ville virke?


--
Jon

Follow ups

Re: pdftotext og danske tegn
From: Michael Rasmussen, 2006-02-14
Re: pdftotext og danske tegn
From: Frank Damgaard, 2006-02-14

References

pdftotext og danske tegn
From: Jon Theil Nielsen, 2006-02-14
Re: pdftotext og danske tegn
From: Frank Damgaard, 2006-02-14
Re: pdftotext og danske tegn
From: Frank Vestergaard Pedersen, 2006-02-14