Omvendte tegnværdier for understreg i DBC’s poster
Vi har med beklagelse konstateret, at i poster produceret af DBC er tegnene “understreg” (som selvstændigt tegn) og “understreg som diakrit” det seneste 1½ års tid blevet inddateret – og dermed lagret i DanBib – med de omvendte tegnværdier af, hvad der er defineret i DanBib-tegnsættet.
DBC’s nuværende og fejlagtige praksis – set i forhold til DanBib-tegnsættet:
Tegn Unicode-værdi
understreg (selvstændigt tegn) 005F
understreg som diakrit 0332
Korrekt praksis i DanBib-tegnsættet:
Tegn Unicode-værdi
understreg (selvstændigt tegn) 0332
Understreg som diakrit 005F
Udfra ovenstående tabel kunne man forledes til at tro, at DBC’s nuværende praksis for understreg er den “rigtige”, men af historiske årsager er den forkert.
Vær opmærksom på, at det fastlagte DanBib-tegnsæt har en praksis for diakritiske tegn (kombinatoriske tegn), der er omvendt af den praksis, der foreskrives i Unicode. Men det er altså DanBib-tegnsættet DBC’s poster bør følge.
DanBibs og DBC’s praksis for diakritiske tegn, herunder understreg, er således:
A) Der byttes om på tegnværdien for selvstændigt tegn og kombinationstegn.
Dette gælder for alle tegn – pånær tilde, hvor de “rigtige” Unicode-tegnværdier har været anvendt hele tiden – og stadig bliver og vil blive anvendt.
B) Det diakritiske tegn placeres foran det tegn som det skal kombineres med.
Dette gælder alle tegn (også tilde).
Ombytningen af værdierne for understreg betyder, at understreg i nye DBC-poster pt. afviger fra regel A – på samme måde som tilde altid har gjort.
Konsekvenserne
Konsekvensen af DBC’s nuværende ombytning af tegnværdierne for understreg betyder, at begge former for understreg nu forekommer med begge tegnværdier i poster i DanBib, hvilket bl.a. gør det umuligt at håndtere begge tegn rigtigt i visformater.
Understreg som selvstændigt tegn – i url’er
Ombytningen af tegnværdierne er i DBC’s poster især synlig ved netpublikationer, nærmere bestemt i delfelt *u i felt 856 og notefelter, da understreg som selvstændigt tegn er ret hyppigt forekommende i url’er.
Ombytningen burde i princippet medføre at “de nye” url’er ikke virkede i DanBib og bibliotek.dk, men en tegnkonverteringstabel gør, at det rigtige tegn (005F) udleveres til visformaterne, uanset hvilken tegnværdi, understreg har i marc-posten.
Samme tegnkonverteringstabel er årsagen til at ombytningen/fejlen ikke er blevet opdaget meget tidligere.
Understreg som diakrit
Den anden anvendelse af understreg – som diakrit – anvendes stort set kun i sprog som tamil og urdu og forekommer yderst sjældent i poster produceret af DBC. De allerfleste poster i DanBibs base DBCkat er oprettet af BiblioteksCenter for Integration, og de følger den korrekte DanBib-tegnsæts-praksis for understreg. Forekomsten af “ny” værdi for understreg som diakrit er derfor meget sjældnere end ny værdi for understreg som selvstændigt tegn.
Gør DBC noget?
Ja, vi vil i den nærmeste fremtid foretage en masserettelse i DanBib (og vore interne baser) af understreg i vore “nye” poster tilbage til den korrekte DanBib-tegnsæts-praksis, dvs 0332 for understreg som selvstændigt tegn og 005F for understreg som diakrit.
Skal I gøre noget?
I skal ikke tilrette jeres inddatering af understreg efter DBC’s nuværende praksis, men fortsat følge den korrekte DanBib-tegnsæts-praksis.
Vi beklager fejlen og de ulemper den har påført jer.
Med venlig hilsen
Susanne Thorborg
DBC
st@dbc.dk