← Back to team overview

sslug-teknik team mailing list archive

Re: pdftotext og danske tegn

 

Michael Rasmussen skrev:

On Wed, 15 Feb 2006 23:05:43 +0000, Jon Theil Nielsen wrote:


win-1257 er vistnok baltisk, mens win-1252 er amerikansk/vesteuropæisk.
Men hvis jeg sætter -enc til win1252 (eller win-1252) får jeg en
fejlmeddelelse om at den ikke kender noget til det... Jeg kan ikke
gennemskue hvilke encodings programmet har at gøre godt med. Men det er i
hvert fald korrekt at det er dokumenter lavet i Windows vha. Acrobat.
Prøv følgende:
1) pdftotext fil.pdf fil.txt
2) iconv -f WINDOWS-1252 -t UTF-8 -o fil.utf8 fil.txt
Jeg kan godt se ideen. Men pdftotext uden -enc giver en stort set tom fil. Jeg bruger FreeBSD 6.0 og her er syntaksen for iconv en smule anderledes, men det problem fik jeg da løst. På en eller anden måde bliver jeg nødt til at angive nogle parametre til pdftotext, der får den til at fatte den encoding der er i pdf-filen.
--
Jon



Follow ups

References