← Back to team overview

sslug-teknik team mailing list archive

Re: extract tekst fra pdf?

 

On Wed, Mar 13, 2002 at 11:44:19AM +0100, Carsten Svaneborg wrote:
> Hej!
> 
> Jeg leder efter et program der kan ekstrahere tekst fra en
> PDF fil, outputformat txt/html whatever, bare det kan 
> perl parses.
<TAB> er din ven ;-)

pdf<TAB><TAB> giver på min RH følgende:

pdf2dsc     pdfelatex   pdfimages   pdfjadetex  pdftex      pdftotext
pdf2ps      pdfetex     pdfinfo     pdflatex    pdftopbm    pdfvirtex
pdfeinitex  pdfevirtex  pdfinitex   pdfopt      pdftops

Specielt programmet der hedder pdftotext virker interressant ;-)

Du skal dog bare være opmærksom på at det ikke er alle PDF dokumenter
det er muligt at konvertere til text, da nogle af dem indeholder grafik.

-- 
/-----------------------------------------------------\
| Klaus S. Madsen      | "Failure is not an option... |
| ICQ: 45400164        |  It comes bundled with your  |
| www.hjernemadsen.org |  Microsoft products!"        |
\-----------------------------------------------------/


Follow ups

References