Thread Previous • Date Previous • Date Next • Thread Next |
Michael Rasmussen skrev:
On Wed, 15 Feb 2006 23:05:43 +0000, Jon Theil Nielsen wrote:
Jeg kan godt se ideen. Men pdftotext uden -enc giver en stort set tom fil. Jeg bruger FreeBSD 6.0 og her er syntaksen for iconv en smule anderledes, men det problem fik jeg da løst. På en eller anden måde bliver jeg nødt til at angive nogle parametre til pdftotext, der får den til at fatte den encoding der er i pdf-filen.win-1257 er vistnok baltisk, mens win-1252 er amerikansk/vesteuropæisk. Men hvis jeg sætter -enc til win1252 (eller win-1252) får jeg en fejlmeddelelse om at den ikke kender noget til det... Jeg kan ikke gennemskue hvilke encodings programmet har at gøre godt med. Men det er i hvert fald korrekt at det er dokumenter lavet i Windows vha. Acrobat.Prøv følgende: 1) pdftotext fil.pdf fil.txt2) iconv -f WINDOWS-1252 -t UTF-8 -o fil.utf8 fil.txt
-- Jon
Thread Previous • Date Previous • Date Next • Thread Next |