← Back to team overview

sslug-teknik team mailing list archive

Re: pdftotext og danske tegn

 

> BUGS
>        Some  PDF  files contain fonts whose encodings have been mangled beyond
>        recognition.  There is no way (short of OCR) to extract text from these
>        files.
> " (man pdftotext)

Det skyldes så vidt jeg husker at tegn i PDF kan indkodes som de
bliver mødt i filen.
Dvs. hvis filen starter med teksten Martin bliver tegnene indkodet som:

M=ascii 1
a=ascii 2
r=ascii 3
t=ascii 4
i=ascii 5
n=ascii 6

Mvh
Martin


References