sslug-teknik team mailing list archive
-
sslug-teknik team
-
Mailing list archive
-
Message #87197
Re: pdftotext og danske tegn
> BUGS
> Some PDF files contain fonts whose encodings have been mangled beyond
> recognition. There is no way (short of OCR) to extract text from these
> files.
> " (man pdftotext)
Det skyldes så vidt jeg husker at tegn i PDF kan indkodes som de
bliver mødt i filen.
Dvs. hvis filen starter med teksten Martin bliver tegnene indkodet som:
M=ascii 1
a=ascii 2
r=ascii 3
t=ascii 4
i=ascii 5
n=ascii 6
Mvh
Martin
References