← Back to team overview

sslug-teknik team mailing list archive

Re: Dansk ordbog i WORDPERFECT

 

"Martin Skøtt" wrote:
> 
> On Tue, 25 May 1999 19:34:26 +0000, Anders S. Johansen <sewerin@xxxxxxxxxx> wrote:
> >tasten. Men det er lidt besværligt, ikke? Desuden er det lidt synd at
> >gøre det på den måde, da den ordbog jeg nævnte indeholder ca. 10.000 ord
> >*og* gramattisk information såsom ordtype, bøjning og rod. Hvis det med
> Æhh... Hvor korrekt er den liste?
> Årsagen til mit spørgsmål er at jeg har en skummel plan om at øve groft
> hærværk på den danske ispell og hjælpe den til rent faktisk at kunne dansk.
> Måske kunne din fil danne baggrund for en ny.
> Er der andre som er interesserede i at genoptage projektet omkring
> dk-ispell.

Listen er dobbeltchecket mod stavecheckeren i <indsæt navnet på kendt
kommercielt tekstbehandlingsprogram her>, og alle "fejl" er checket mod
gyldendahls røde ordbøger, suppleret med fremmedordbog.

Så den er korrekt, eller har i hvert fald kun fejl denne process ikke
har afsløret.

Det interne format baserer sig ikke på den "almindelige" måde at
klassificere ordene på i en ordbog, men snarere delklasser af grupper
såsom navneord, udsagnsord, tillægsord, pronominer etc. Delklasserne er
afhængige af bøjning, snarere end eventuel gramattisk
underklassificering.

Tro det eller lad være - indtil i dag havde jeg overhovedet ikke tænkt
på, at det kunne have anden anvendelse.

Er den komplet? Nej. Det danske sprog indeholder mindst 80.000 ord, da
det er mængden af ord i Gyldendahls røde. Er den tilstrækkelig? Både ja
og nej. En gennemsnitlig dansker har et "aktivt ordforråd" på ca. 3.000
ord. Og med ord menes her at "stol" og "stolen" er to ord, og ikke en
rod. Desværre er overlappet mellem menneskers aktive ordforråd
begrænset, og afhænger meget af hvad man laver. Vi nørder bruger f.eks.
en del ord som ingen andre bruger, og adskillige der ikke er - eller
burde være - i en dansk ordbog.

Mit bud er, at min ordliste dækker det jeg vælger at kalde
"normaldansk", da jeg som nævnt har taget de mest brugte ord i
usenet/email sammenhæng, ud fra en antagelse om, at denne gruppe af ord
svarede nogenlunde overens med talesprog, som var mit egentlige mål.

Er den svær at udvide? Nej. Det der tager tid er dataindsamling og
(især) klassificering efter bøjninger. Da jeg havde stromlinjet
processen så meget som muligt kunne jeg klassificere et par hundrede ord
i timen, men det er kedeligt arbejde. Med flere folk på sagen kunne det
selvfølgelig gå hurtigere.

Mine programmer er skrevet i standard C++, og er
kommandolinjeprogrammer. Det bruges STL og streams. De indeholder en
parser jeg ikke er særligt stolt over at vise frem, men jeg syntes det
var sjovt at skrive en selv - jeg har ellers brugt ting som yacc/lex,
men ville gerne lære mere C++, og tog projektet som en træningsopgave.
De er altså til at konvertere til Linux med et minimum af problemer.
Mine støttebaser er i MS Access-format, men de data kan vel dumpes i et
mere brugbart format.

DK Ispell? Som nævnt i forrige mail om emnet skal jeg lige tænke lidt
tanker først, men lad mig komme tilbage til dig om det. Jeg vil under
alle omstændighede gerne tage del i projektet som programmør/designer,
men om jeg vil forære data der har kostet mig tre måneders arbejde
(=ganske mange penge) har jeg ikke lige overvejet endnu. Det er mine at
gøre med som jeg lyster, men jeg vil ikke forære dem væk hvis det
stiller mig dårligt i en eller anden sammenhæng.

Tanker om emnet modtages med kyshånd.

And
-- 
Anders S. Johansen, Jagtvej 109, 3.tv, 2200 Kbh. N +045 35836565
Wisdom = TANJ + TANSTAAFL


References