Jednostavna detekcija krivih podataka u poljima
Najprije treba napraviti dump svih podataka. Za to postoji skripta dump_libri.sh u kojoj su naredbe za dump podataka za svaku pojedinačnu knjižnicu, npr. za anglistiku:
dump_isisdb.pl /backup/isis_backup/A105-1/isisdata/latest/LIBRI/LIBRI > /data/isis_data/an/dump.fflibri
na taj smo dobili tekstualne datoteke koje možemo dalje procesirati.
Ovdje ćemo navesti linux shell komande uz pomoć kojih možemo dobiti upotrebljive i jednostavne ispise podataka:
Detekcija krivih datuma unosa
naredbom
grep ^994.*^c /data/isis_data/*/dump.fflibri | sed -e 's/.*^c\(.*\)/\1/g' | sort -nr | uniq -c
dobiva se popsi svih podataka u polju 994^c
Rezultat spremimo u datoteku, izbrišemo sve slučajeve koji su dobri, a ostavimo krive i snimimo to u tablicu krivi_datum_unosa.xls
U conf/mjesec.yml dodamo ove linije:
za tablicu s greskama:
datumi:
name: 'Nevaljali datumi'
input:
- name: tablica
type: excel
path: '/data/isis_data/greske/datum_unosa.xls'
encoding: 'windows-1250'
normalize:
- path: 'conf/normalize/common.pl'
i za svaku pojedinačnu bazu:
ffiz:
name: 'Informacijske znanosti, Filozofski fakultet u Zagrebu'
input:
- name: libri
type: isis
path: '/backup/isis_backup/A129-2/isisdata/latest/LIBRI/LIBRI'
encoding: 'cp852'
normalize:
- path: 'conf/normalize/report-sorted-txt.pl'
output:
- module: 'Sorted'
path: 'out/report/mfn/iz/'
u normalizacijskoj datoteci treba stajati ovaj kod:
my $datum =
lookup(
sub { 1 },
'datumi','tablica',
sub { rec('A') },
sub { rec('994','c') }
);
if ( $datum ) {
sorted('mfn s krivim datumom',
join_with(' - ',
prefix('MFN ',
rec('000'),
),
rec('994','c'),
)
);
}
Detekcija krivih godina
Naredbom:
grep ^210.*^d /data/isis_data/*/dump.fflibri | sed -e 's/.*^d\(.*\)/\1/g' | sort -nr | uniq -c
dobivamo popis svih podataka u polju 210^d
ostatak postupka isti je kao i za datume, s odgovarajućim konfiguracijskim parametrima
Detekcija krivih ISBN-ova
Updated by Marijana Glavica on Mar 3 2:13pm
Posted by Marijana Glavica on Mar 3 1:27pm
BLOK 0: BLOK ZA IDENTIFIKACIJU | | 00X/01X CONTROL FIELDS/ CONTROL INFORMATION, NUMBERS, AND CODES
BLOK 1: BLOK KODIRANIH PODATAKA | | 00X CONTROL FIELDS
BLOK 2: BLOK GLAVNOG OPISA | | 2XX, 3XX, 4XX TITLE, EDITION, PHYSICAL DESCRIPTION, SERIES
Treba odlučiti da li se 225 konvertira u 440 ili u 490 !!!
višerazinci:
231 a e f g v, 232 a e f g v, 233 a e f g v
isto kao 230
241
isto kao 240
251 a c d, 252 a c d, 253 a c d
isto kao 250
261, 262, 263
isto kao 260
271, 272, 273
isto kao 270
281, 282, 283
isto kao 280
291, 292, 293
isto kao 290
BLOK 3: BLOK NAPOMENA | | 5XX NOTES
Ima li razlike između polja 300 i 330?
BLOK 4: BLOK ZA POVEZIVANJE | | 76X-78X LINKING ENTRIES
BLOK 5: BLOK SRODNIH NASLOVA | | 130, 20X-24X UNIFORM TITLE, TITLE AND TITLE-RELATED FIELDS
ovo polje provjeriti u svakoj bazi. što točno sadrži?
BLOK 6: BLOK SADRŽAJNE ANALIZE | | 6XX SUBJECT ACCESS FIELDS
BLOK 7: BLOK PODATAKA O ODGOVORNOSTI | | 1XX MAIN ENTRIES, 70X-75X ADDED ENTRIES
BLOK 8 | | 00X CONTROL FIELDS, 01X-09X CONTROL INFORMATION, 856 EL. LOCATION
UNIMARC 9: BLOK ZA NACIONALNU UPOTREBU
Updated by Marijana Glavica on Feb 26 1:38am
Posted by Marijana Glavica on Mar 19 3:00pm
Forbidden
You don't have permission to access /konverzija/index.cgi
on this server.
Apache/2.2.3 (Debian) mod_ssl/2.2.3 OpenSSL/0.9.8c Server at saturn.ffzg.hr Port 80
Updated by Marijana Glavica on Feb 24 2:51am
Posted by Marijana Glavica on Jan 16 6:18am
Kombinacije i redosljed potpolja
Prije konverzije, važno je najprije se upoznati sa stanjem u originalnim zapisima. U ovom slučaju, zanima nas redoslijed korištenih potpolja u nekom polju, sa ili bez interponkcija.
To ćemo u webpacu2 učiniti ovako:
U `conf/hostname.yml' popisati baze iz kojih treba izvući izvještaj. Moguće je gledati u više baza odjednom.
ffge:
name: 'Germanistika, Filozofski fakultet u Zagrebu'
input:
- name: libri
type: isis
path: '/backup/isis_backup/novi-40166/isisdata/latest/LIBRI/LIBRI'
encoding: 'cp852'
U istoj datoteci se definiraju i delimiteri za validaciju. Drugim riječima, tu možemo popisati interpunkcije korištene u zapisima.
delimiters:
- ' ; '
- ' : '
- ' / '
- ' = '
Ako želimo dobiti samo popis potpolja, bez delimitera:
delimiters:
- ''
Nekad te interpunkcije treba pretvoriti u potpolja, nekad treba potpolja treba pretvoriti u interpunkcije.
Za dobivanje izvjestaja pokrećemo komandu:
./run.pl --validate-delimiters conf/validate/delimiters/baza.txt
Updated by Marijana Glavica on Feb 23 6:47am
Posted by Marijana Glavica on Feb 23 6:42am
Iz programa SAND (za obradu časopisa) moguće je dobiti podatke u formatu DBF.
Primjer minimalne konfiguracije u conf/hostname.yml:
sand:
name: 'SAND'
input:
name: casopisi
type: dbf
path: 't/data/cas2000.dbf'
normalize:
path: 'conf/normalize/common.pl'
mapping_path: 'conf/input/dbf/cas2000.yml'
conf/normalize/common.pl - pravila za konverziju u željeni izlazni format
conf/input/dbf/cas2000.yml - mapiranje polja iz DBF-a u MARC tagove
Updated by Marijana Glavica on Feb 23 4:56am
Posted by Marijana Glavica on Jul 2 11:49am
kratica: FFRO
Contents: [Konverzija podataka]
|
Baza LIBRI i PERI
Izvještaji o greškama i statistike zapisa
http://knjiznice.ffzg.hr/isis-konverzija/greske/ffro-libri.txt
Ovaj izvještaj sadrži:
- sve detektirane greške (--> opis grešaka)
- redoslijed korištenih potpolja i interpunkcije
- frekvencije korištenih polja i potpolja
Dodatni izvještaji:
Validacija
Izvještaji po potrebi...
Konvertirani zapisi
(desni klik, pa "Save Link As" ili "Save Target As")
Zajednički dokumenti
Updated by Marijana Glavica on Feb 21 4:44am
Posted by Marijana Glavica on May 3 4:10am
Slavenska filologija - Miro
kratica: FFSF
Contents: [Konverzija podataka]
|
Baza LIBRI (librim)
Izvještaji o greškama i statistike zapisa
http://knjiznice.ffzg.hr/isis-konverzija/greske/ffsf-librim.txt
Ovaj izvještaj sadrži:
- sve detektirane greške (--> opis grešaka)
- redoslijed korištenih potpolja i interpunkcije
- frekvencije korištenih polja i potpolja
Dodatni izvještaji:
Validacija
Datoteka s popisom svih korištenih polja i potpolja:
Izvještaji po potrebi...
Konvertirani zapisi
(desni klik, pa "Save Link As" ili "Save Target As")
Zajednički dokumenti
Bilješke
Primjeri iz Miro.doc225
može imati i ISBN
675: UDK
a b c d - tretirati kao ponovljivo polje
Updated by Marijana Glavica on Feb 21 4:43am
Posted by Marijana Glavica on Jan 16 7:08am
Ispravljanje grešaka, veljača 2008
19.02.2008.
20.02.2008.
21.02.2008.
22.02.2008.
25.02.2008.
Posted by Marijana Glavica on Feb 20 11:13am
Linkovi
- http://www.nsk-iks.com/ - stranice "Gradeca" dionice projekta Implementacija Voyagera u sustav knjižnica znanstveno-nastavnih ustanova sveučilišta u Hrvatskoj i knjižnica samostalnih instituta.
Updated by Marijana Glavica on Feb 4 9:11am
Posted by System ProtoUser on Jan 16 5:38am
Pravila za katalogizaciju u MARC21 standardu
Updated by Marijana Glavica on Jan 25 3:37pm
Posted by Marijana Glavica on Sep 4 12:00pm
|
Weblog Navigation
Loading...
|