← Back to team overview

sslug-teknik team mailing list archive

Re: gawk problem

 

On Wed, Jan 23, 2002 at 13:01:22 +0100, Kim Hermansen wrote:

> Jeg sidder lige og roder lidt med gawk, men kan ikke rigtigt få det
> resultet jeg gerne vil have.
...

> der er tale om nogle html filer hvilke skal laves om til .txt
> så jeg tænkte at hvis jeg bare fjærnede alt der stod inden for < >
> var jeg godt hjulpet.

Til denne opgave var "lynx -dump" måske bedre ?

> så jeg skrev følgende komando:
> cat inf.html | gawk 'IGNORECASE=1 { gsub(/<*>/,""); print }' > inf.txt
> Men det gav ikke lige det ønskede resultat.
> Så nu er det lige at jeg gerne vil vide hvordan jeg får den til at forstå at
> * står for "alt eller ingen ting" ligesom * plejer at gøre???

I regular expression (også grep, sed mv.) er det "." der matcher alt.
og sætter man .? er det en eller 0 gange, .+ er 1 eller flere gange
og .* er 0 eller flere gange.

Du skal regne med problemer for html tags der får over flere linier,
og du får visse ting med som måske ikke skulle med.

Se også http://www.sslug.dk/julekalender/23
(fremover http://www.sslug.dk/julekalender/2001/23 )

-- 
mvh Frank Damgaard  | http://home3.inet.tele.dk/frda/



References