← Back to team overview

sslug-teknik team mailing list archive

Re: gawk problem

 

On Thu, Jan 24, 2002 at 15:24:22 +0100, Kim Hermansen wrote:

> Jeg prøver at fjerne alt der står inden for < > i en html, for så at putte det ud i 
> en txt fil.
> På nuværende tidspunkt er der prøvet et par forskellige "angrebs" vinkler, men de
> ser desværre ud til at have det samme resultat.
> 
> Første forsøg: gawk  '{ gsub(/<.*>/,""); print }'
> Andet forsøg: sed s/"<.*>"//g

og lynx -dump kunne ikke anvendes ?

Tilbage til awk/ regular expressions:

Du skal i hvertfald passe på med .* da den matcher ALT.
I stedet bør du bruge /<[^>]*>/
Og du får problemet med html tags og kommentarer der går over flere linier,
det skal evt. også løses hvis det er et problem.
Og måske du skal se lidt på hvilke TAGS der findes, f.eks.
dem før <body> osv.

-- 
mvh Frank Damgaard  | http://home3.inet.tele.dk/frda/



References