Konverzija podataka
Poteškoće pri konverziji: Revision 15

Dokument iz NSK

Očekivane teškoće kod migracije bibliografskih zapisa iz ISISa u Voyager / Hrvoje Brozović
http://www.nsk.hr/Info.aspx?id=488

Moguća rješenja teškoća


Teškoća:

  • ISISov format eksporta u ISO 2709 datoteku sadrži prekide redova (CR+LF-dva bajta) nakon svakih 80 znakova, te naposlijetku na kraju svakog sloga. Stoga je podatak o duljini ISO zapisa sadržan u laebli sloga strogo gledano netočan, jer je broj bajtova u datoteci veći za 2 * (duljina zapisa div 80 ) + još 2 ako postoji ostatak pri dijeljenju duljine zapisa sa 80. (HB)

Rješenje:
Pri konverziji koristimo originalne ISIS podatke (MST). Konvertirana datoteka je ispravni ISO 2709.


  • ISISove oznake za početak potpolja, kraj polja i kraj sloga nisu standardne vrijednosti iz ISO 2709 standarda, već obični znakovi koji se mogu pojaviti u samom tekstu, često upravo oni koji se u DOS praksi koriste za naša slova, što pak dovodi do raznorodnih pristupa kodiranju dijakritika (HB)

  • indikatori koji se mogu pretpostaviti

Rješenje:
Kad nemaju značaja, postavljaju se na praznine.
70x - 2. ind. postavlja se na 1
(^a je prezime, ^b je ime)


  • kod, npr. polja 71x, gdje bi indikatori trebali objasniti da li se radi o korporativnom tijelu ili sastanku, a o čemu pak ovisi u koje se polje MARC21 uopće podatak iz UNIMARC 71x prenosi, indikatori su od odlučujuće važnosti (HB)

  • ISIS ne sadrži praktično nikakve podatke u labeli zapisa, niti one koje propisuje ISO 2709, niti one koje propisuje UNIMARC. Dakle, podaci o tipu zapisa, bibliografskoj i hijerarhijskoj razini, te stanju zapisa naprosto nisu kodirani u labeli (HB)

Rješenje:
Budući je često praksa da se ima posebna baza za periodiku i monografije, podaci o vrsti sloga često se mogu pretpostaviti za sve zapise unutar jedne baze (HB)

FF ima podatke odvojene u posebne baze.
_
Podaci o hijerarhijskoj razini, znaju u ISIS aplikacijama miti kodirani nekom lokalnom polju 9xx, te se dakle mogu od tuda nadomjestiti, kao i oni o bibliografskoj razini_. (HB)

Hijerarhijeska razina generira se prilikom generiranja nadređenih zapisa za bibliografske jedinice koje pripadaju seriji, što je poseban postupak
Stanje zapisa zapisano je u polju 9xx.


  • Mnoga polja unutar ISISa nisu u skaldu s UNIMARC i MARC21 implementacijom, da polja 00x nemaju potpolja, već samo vrijednost, a sva ostala polja da imaju potpolja. Tako u ISIS aplikacijama često nailazimo na polje 100 u koje su kodirani podaci (zapravo najčešće samo godina) upisani bez potpolja $a. Također, među lokalnim poljima, ovo je redovna praksa. (HB)

Rješenje:
U postupku konverzije nadomještaju se nedostajuća podpolja. Moguće je to napraviti i za slučaj kad neka polja imaju a neka nemaju podpolje.


  • ISIS upis oznaka za potpolje prepušta samom katalogizatoru, tj osim samog sadržaja pojedinog potpolja, potrebno je unijeti i oznaku za potpolje (najčešće ^) te samu oznaku potpolja, te tek kao treći znak unosa sam tekst potpolja. Uz svu moguću pažnju katalogizatora, ovo naravno proizvodi određeni postotak zapisa koji nemaju ispravno označena potpolja. Neka se dolje navedene greške potkradu u 1% slučajeva, i nek prosječan slog ima 5 polja, to dovodi do toga da svaki 20-ti zapis ima grešku o dolje nabrojanih grešaka.
    • Nekada fali sama oznaka za potpolje ($,^) pa tada imamo aHR umjesto $aHR, što se tumači polje uopće potpolja, već da je njegova jedinstvena vrijednost aHR
    • Čest je i slučaj da se upiše oznaka za početak potpolja, ali ne i sam identifikator potpolja, već odmah ide tekst, pa imamo $HR, što pak znaći da potpolje $H ima vrijednost R. Ovdje je problem što identifikatori potpolja mogu po UNIMARCU biti samo mala slova ili zamnke, pa je potpolje $H nedopušteno.
    • Neke ISIS aplikacije omogućuju izbor potpolja iz padajućeg menija, ali i tada se samo oznaka i identifikator potpolja jednostavno umeću u tekst, pa se događa i situacija HR$a, što bi značilo prvi indikator H, drugi R (iako indikatora nema u ISISu, a i nisu po UNIMARCU došušteni ovakvi, već samo praznina i znamenke), te potpom potpolje $a bez ikakvog teksta, što je opet nedopušteno. (HB)

Rješenje:
Većina grešaka proizašla iz CDS/ISIS-ovog nedostaka vezanih uz unos podataka, rješena je kako je opisano u poglavlju Greške u CDS/ISIS zapisima.
Postotak ovih grešaka nije još računat. Moguće je prebrojati zapise s greškama (višestruke greške okupljaju se oko jednog zapisa).


  • Polje kodiranih podataka 100, najčešće u ISISu sadrži samo godinu unosa u datoteku, dakle 4 znaka, i eventualno datum, što daje 8 znakova, dok UNIMARC traži u ovom polju 36 kodiranih znakova. Nisu svi ovi kodovi obavezni, već samo datum unosa, koji je najčešće i jedini naveden, te jezik katalogiziranja i skup znakova, koji se pak mogu pretpostaviti za cijelu bazu.