Konverzija podataka
Poteškoće pri konverziji: Revision 26

Dokument iz NSK

Očekivane teškoće kod migracije bibliografskih zapisa iz ISISa u Voyager / Hrvoje Brozović
http://www.nsk.hr/Info.aspx?id=488

U dokumentu je dat pregled mogućih teškoća, a predložena su i neka rješenja.
Ovdje ćemo opisati pokušaje rješenja tih teškoća na podacima Knjižnica FF-a.

Moguća rješenja za FF

.

Teškoća

  • ISISov format eksporta u ISO 2709 datoteku sadrži prekide redova (CR+LF-dva bajta) nakon svakih 80 znakova, te naposlijetku na kraju svakog sloga. Stoga je podatak o duljini ISO zapisa sadržan u laebli sloga strogo gledano netočan, jer je broj bajtova u datoteci veći za 2 * (duljina zapisa div 80 ) + još 2 ako postoji ostatak pri dijeljenju duljine zapisa sa 80.

Rješenje:
Pri konverziji se mogu koristiti originalni ISIS podaci (MST). Konvertirana datoteka je ispravni ISO 2709.

.

Teškoća

  • ISISove oznake za početak potpolja, kraj polja i kraj sloga nisu standardne vrijednosti iz ISO 2709 standarda, već obični znakovi koji se mogu pojaviti u samom tekstu, često upravo oni koji se u DOS praksi koriste za naša slova, što pak dovodi do raznorodnih pristupa kodiranju dijakritika.

Nismo imali problema jer su svi podaci u Windows enkodingu windows-1250.

.

Teškoća

  • indikatori koji se mogu pretpostaviti

Rješenje:
Kad nemaju značaja, postavljaju se na praznine.
70x - 2. ind. postavlja se na 1
(^a je prezime, ^b je ime)

.

Teškoća

  • u polju 71x, gdje bi indikatori trebali objasniti da li se radi o korporativnom tijelu ili sastanku, a o čemu pak ovisi u koje se polje MARC21 uopće podatak iz UNIMARC 71x prenosi, indikatori su od odlučujuće važnosti

.

Teškoća

  • ISIS ne sadrži praktično nikakve podatke u labeli zapisa, niti one koje propisuje ISO 2709, niti one koje propisuje UNIMARC. Dakle, podaci o tipu zapisa, bibliografskoj i hijerarhijskoj razini, te stanju zapisa naprosto nisu kodirani u labeli

Rješenje:
Podatak o stanju zapisa dobiva se iz polja 9xx.
Vrsta zapisa je za sve zapise a (tekstualna građa)
Bibliografska razina dobiva ze prema bazama - monografije, periodila i analika su u posebnim bazama.
Podataka o hijerarhijskoj razini nema. Svi zapisi u originalnoj bazi su iste razine.

.

Teškoća

  • Mnoga polja unutar ISISa nisu u skaldu s UNIMARC i MARC21 implementacijom, da polja 00x nemaju potpolja, već samo vrijednost, a sva ostala polja da imaju potpolja. Tako u ISIS aplikacijama često nailazimo na polje 100 u koje su kodirani podaci (zapravo najčešće samo godina) upisani bez potpolja $a. Također, među lokalnim poljima, ovo je redovna praksa. (HB)

Rješenje:
U postupku konverzije nadomještaju se nedostajuća podpolja. Moguće je to napraviti i za slučaj kad neka polja imaju a neka nemaju podpolje.

.

Teškoća

  • ISIS upis oznaka za potpolje prepušta samom katalogizatoru, tj osim samog sadržaja pojedinog potpolja, potrebno je unijeti i oznaku za potpolje (najčešće ^) te samu oznaku potpolja, te tek kao treći znak unosa sam tekst potpolja. Uz svu moguću pažnju katalogizatora, ovo naravno proizvodi određeni postotak zapisa koji nemaju ispravno označena potpolja. Neka se dolje navedene greške potkradu u 1% slučajeva, i nek prosječan slog ima 5 polja, to dovodi do toga da svaki 20-ti zapis ima grešku o dolje nabrojanih grešaka.
    • Nekada fali sama oznaka za potpolje ($,^) pa tada imamo aHR umjesto $aHR, što se tumači polje uopće potpolja, već da je njegova jedinstvena vrijednost aHR
    • Čest je i slučaj da se upiše oznaka za početak potpolja, ali ne i sam identifikator potpolja, već odmah ide tekst, pa imamo $HR, što pak znaći da potpolje $H ima vrijednost R. Ovdje je problem što identifikatori potpolja mogu po UNIMARCU biti samo mala slova ili zamnke, pa je potpolje $H nedopušteno.
    • Neke ISIS aplikacije omogućuju izbor potpolja iz padajućeg menija, ali i tada se samo oznaka i identifikator potpolja jednostavno umeću u tekst, pa se događa i situacija HR$a, što bi značilo prvi indikator H, drugi R (iako indikatora nema u ISISu, a i nisu po UNIMARCU došušteni ovakvi, već samo praznina i znamenke), te potpom potpolje $a bez ikakvog teksta, što je opet nedopušteno. (HB)

Rješenje:
Većina grešaka proizašla iz CDS/ISIS-ovog nedostaka vezanih uz unos podataka, rješena je kako je opisano u poglavlju Greške u CDS/ISIS zapisima.
Postotak ovih grešaka nije još računat. Moguće je prebrojati zapise s greškama (višestruke greške okupljaju se oko jednog zapisa).

.

Teškoća

  • Polje kodiranih podataka 100, najčešće u ISISu sadrži samo godinu unosa u datoteku, dakle 4 znaka, i eventualno datum, što daje 8 znakova, dok UNIMARC traži u ovom polju 36 kodiranih znakova. Nisu svi ovi kodovi obavezni, već samo datum unosa, koji je najčešće i jedini naveden, te jezik katalogiziranja i skup znakova, koji se pak mogu pretpostaviti za cijelu bazu.

Rješenje:
Datum unosa u datoteku - postoji u polju ??
Jezik katalogiziranja - hrvatski
Pismo stvarnog naslova - polje ??