← Back to team overview

sslug-teknik team mailing list archive

Re: pdftotext og danske tegn

 

Frank Vestergaard Pedersen skrev:

Frank Damgaard wrote:

On Tue, Feb 14, 2006 at 11:04:41AM +0000, Jon Theil Nielsen wrote:
I forbindelse med opsætning af en søgefunktion på mit website vil jeg bruge pdftotext til at konvertere pdf-filer til tekst. Det fungerer egentlig udmærket. Bortset fra at det går galt med danske specialtegn, hvor der bliver indsat koder som fx <C3><98> i stedet for "Ø". Findes der en løsning på dette problem?

Hos mig virker det men jeg har muligvis også anvendt PDF filer
med Latin1 som er standard i pdftotext.
Se option "-enc" i "man pdftotext"
Muligvis du anvender dokumenter med unicode, utf8 eller andet
tegnsæt?


prøv med:

pdftotext -enc UTF-8 fil.pdf fil.txt

Det virker på min ubuntu! Dvs. at output filen bliver i utf-8 format.

/Frank
Det giver desværre samme resultat. Jeg kan ikke se på pdf-filerne, hvilken kodning de har. Jeg er ikke i tvivl om at outputformattet bliver UTF-8, men problemet er åbenbart at læse inputformatet. Hvilke andre encodings kunne man forestille sig ville virke?

--
Jon



Follow ups

References