Fejl i tegnværdier i DBC’s poster

by

Omvendte tegnværdier for understreg i DBC’s poster

Vi har med beklagelse konstateret, at i poster produceret af DBC er tegnene “understreg” (som selvstændigt tegn) og “understreg som diakrit” det seneste 1½ års tid blevet inddateret – og dermed lagret i DanBib – med de omvendte tegnværdier af, hvad der er defineret i DanBib-tegnsættet.

DBC’s nuværende og fejlagtige praksis – set i forhold til DanBib-tegnsættet:

Tegn                               Unicode-værdi
understreg (selvstændigt tegn)       005F
understreg som diakrit               0332

Korrekt praksis i DanBib-tegnsættet:

Tegn                               Unicode-værdi
understreg (selvstændigt tegn)       0332
Understreg som diakrit               005F

Udfra ovenstående tabel kunne man forledes til at tro, at DBC’s nuværende praksis for understreg er den “rigtige”, men af historiske årsager er den forkert.
Vær opmærksom på, at det fastlagte DanBib-tegnsæt har en praksis for diakritiske tegn (kombinatoriske tegn), der er omvendt af den praksis, der foreskrives i Unicode. Men det er altså DanBib-tegnsættet DBC’s poster bør følge.

DanBibs og DBC’s praksis for diakritiske tegn, herunder understreg, er således:

A) Der byttes om på tegnværdien for selvstændigt tegn og kombinationstegn.
Dette gælder for alle tegn – pånær tilde, hvor de “rigtige” Unicode-tegnværdier har været anvendt hele tiden – og stadig bliver og vil blive anvendt.

B) Det diakritiske tegn placeres foran det tegn som det skal kombineres med.
Dette gælder alle tegn (også tilde).

Ombytningen af værdierne for understreg betyder, at understreg i nye DBC-poster pt. afviger fra regel A – på samme måde som tilde altid har gjort.

Konsekvenserne

Konsekvensen af DBC’s nuværende ombytning af tegnværdierne for understreg betyder, at begge former for understreg nu forekommer med begge tegnværdier i poster i DanBib, hvilket bl.a. gør det umuligt at håndtere begge tegn rigtigt i visformater.

Understreg som selvstændigt tegn – i url’er

Ombytningen af tegnværdierne er i DBC’s poster især synlig ved netpublikationer, nærmere bestemt i delfelt *u i felt 856 og notefelter, da understreg som selvstændigt tegn er ret hyppigt forekommende i url’er.
Ombytningen burde i princippet medføre at “de nye” url’er ikke virkede i DanBib og bibliotek.dk, men en tegnkonverteringstabel gør, at det rigtige tegn (005F) udleveres til visformaterne, uanset hvilken tegnværdi, understreg har i marc-posten.
Samme tegnkonverteringstabel er årsagen til at ombytningen/fejlen ikke er blevet opdaget meget tidligere.

Understreg som diakrit

Den anden anvendelse af understreg – som diakrit – anvendes stort set kun i sprog som tamil og urdu og forekommer yderst sjældent i poster produceret af DBC. De allerfleste poster i DanBibs base DBCkat er oprettet af BiblioteksCenter for Integration, og de følger den korrekte DanBib-tegnsæts-praksis for understreg. Forekomsten af “ny” værdi for understreg som diakrit er derfor meget sjældnere end ny værdi for understreg som selvstændigt tegn.

Gør DBC noget?

Ja, vi vil i den nærmeste fremtid foretage en masserettelse i DanBib (og vore interne baser) af understreg i vore “nye” poster tilbage til den korrekte DanBib-tegnsæts-praksis, dvs 0332 for understreg som selvstændigt tegn og 005F for understreg som diakrit.

Skal I gøre noget?

I skal ikke tilrette jeres inddatering af understreg efter DBC’s nuværende praksis, men fortsat følge den korrekte DanBib-tegnsæts-praksis.

Vi beklager fejlen og de ulemper den har påført jer.

Med venlig hilsen
Susanne Thorborg
DBC
st@dbc.dk

7 kommentarer to “Fejl i tegnværdier i DBC’s poster”

  1. Niels Baggesen Says:

    Kommer der så en opdateret udgave af http://www.danbib.dk/docs/tegnsaet.pdf ?
    Ifølge den er 0x5F en understregning, mens @0332 repræsenterer en “combining low line”?

  2. Niels Baggesen Says:

    Og den der krølle med tilden – den er da heller ikke beskrevet i ovennævnte dokument 😦

  3. Tommy Schomacker Says:

    Hej Niels,

    Den omtalte tabel beskriver en konvertering fra det gamle fællestegnsæt til danMARC2 tegnrepertoiret. Den vil meget snart udkomme i en opdateret version.

    Men da fællestegnsættet jo blev forladt med oprettelsen af DanBib for snart 16 år siden, er denne tabel efterhånden mest af historisk interesse.

    Der vil derfor (også meget snart) foreligge en opdateret formel beskrivelse af danMARC2 tegnrepertoiret, med præcis beskrivelse af praksis og med angivelse af mapning til og fra Unicode.

    Begge dele skal naturligvis behandles i såvel danZIG som Bibliografisk råd.

    Og specielt vedr. understreg. Den gamle tabel viser at dette tegn i fællestegnsættet havde to mulige værdier i danMARC2 tegnrepertoiret, nemlig low line og combining lowline. Tabellen indikerer ikke et valg mellem disse to værdier (selvom jeg erkender at man godt kunne opfatte det sådan).

    Med venlig hilsen
    Tommy Schomacker

  4. Niels Baggesen Says:

    Hvad er status for den omtalte masserettelse? Hvornår kan vi regne med at se den gennemført?

    • Susanne Thorborg Says:

      Hej Niels
      Vi arbejder efter en plan der indebærer, at de berørte poster kan være rettet med udgangen af uge 2010:05.

      Dataleverancer med de rettede poster vil blive produceret umiddelbart herefter.

      Med venlig hilsen
      Susanne Thorborg

      • Niels Baggesen Says:

        Tak. Jeg har bemærket at der stadig oprettes poster med fejlen. Er det tilsigtet?
        Se fx 856 *u i
        001 00 *a2 804 577 8*b870970*c20091228114737*d20091208*fa*tFAUST

    • Susanne Thorborg Says:

      Omlægning af DBC’s praksis må foregå synkront med gennemretningen af basen – dvs. at I indtil uge 2010:06 stadig vil kunne støde på den forkerte tegnværdi i DBC’s poster.
      Men derefter bør problemet være løst.
      Med venlig hilsen
      Susanne Thorborg

Skriv en kommentar