← Back to team overview

sslug-teknik team mailing list archive

Re: Dansk ordbog i WORDPERFECT

 

"Martin Skøtt" wrote:
> 
> On Tue, 25 May 1999 21:07:45 +0000, Anders S. Johansen <sewerin@xxxxxxxxxx> wrote:
> >Vil jeg frigive den? Det skal jeg lige tænke over... Den repræsenterer
> >mindst 3 måneders arbejde med henblik på at være en væsentlig del af et
> >kommercielt produkt, så selvom Stallmann vil rotere i sin grav, er det
> >ikke noget jeg lige havde tænkt over, og må altså sige at jeg kommer
> >tilbage til dig på det punkt.
> >Ja, jeg er et kapisvin - potientielt :) <- tror jeg.
> Du har bestemt min fulde forståelse på de punkter :-)
> Metoden du brugte til at lave listen med lyder interessant. På den måde kunne
> man faktisk opbygge en liste over de mest brugte ord på dansk på et givent
> tidspunkt og faktisk tage temperaturen på det danske sprog! Meget interessant.

...og så rent automatisk. Eneste mulighed for datafejl er, at man enten
skal rense materialet for headers, eller må diskvalificere ord der
optræder ofte i headers. Mange hyppigt brugte ord bliver også stavet
forkert ofte, og bliver ikke talt med som sådan - jeg valgte at holde
kompleksiteten nede. Men det kan vel ikke overraske dig, at de 100 mest
brugte ord er bindeord såsom "er", "jeg", "dig", "og" etc. osv. Faktisk
skal man ret langt ned på listen for at finde rod på mere end 5
bogstaver. Dette ville vel næppe overraske en lingvist, da det er et
kendt faktum at sproget har en slags datakompression - hvis et ord
bliver brugt meget, bliver det kortere og kortere. Man siger det
"eroderer".

Det er også værd at bemærke sig, at man finder de fleste ord med
"specielle" bøjninger blandt de hyppigst brugte. Det er et
specialtilfælde af erosion, i og med at en hyppigt brugt bøjning kan
leve sit eget liv, om du vil, løsrevet fra de andre bøjninger af ordet.

Når man når ned under top 500 i hyppighed, finder man stort set kun ord,
der bøjes regulært.

Ærgeligt nok er jeg ved at afslutte datalogien med et projekt, hvor den
slags ikke kan inddrages, og jeg har afsluttet mit bifag, hvor jeg
ellers kunne have skrevet en kanon opgave om emnet :( Det ærger mig at
bruge tid, der ikke kan "sælges" flere gange. Kald det avanceret
dovenskab :)

Men jo, en jævnlig vurdering af det danske sprog kunne da bestemt være
af interesse for sprogforskere, for slet ikke at nævne reklamefolk,
politikere og andre udskud :D <- VBG!

Man kunne for eksempel holde øje med, hvor tit ord som NATO optrådte i
sætninger med negativt indhold, oma. Jeg kan forestille mig mange
muligheder her, men nu ville det altså ærge mig gevaldigt, hvis der stod
grimme ting på min gravsten som "folkeforførernes ven, samfundets
støtte, kapitalens beskytter". :D :D :D <- Nu flækker hans hoved da
snart på tværs.

And
-- 
Anders S. Johansen, Jagtvej 109, 3.tv, 2200 Kbh. N +045 35836565
Wisdom = TANJ + TANSTAAFL


References