Feeds:
Indlæg
Kommentarer

Archive for marts 2012

Avisdigitaliseringsprojektet befinder sig i disse måneder i analysefasen. Dvs. vi arbejder på at indhente viden og erfaringer fra leverandører og andre nationalbiblioteker, som har gennemført lignende digitaliseringsprojekter. I forbindelse med sidstnævnte besøgte en mindre del af projektets arbejdsgruppe IKT og digitalisering ved Nasjonalbiblioteket i Mo i Rana, Norge 13. februar 2012.

Avisdigitalisering i Norge

Det norske nationalbibliotek arbejder sammen med Planman Technologies om digitalisering af deres avismikrofilm. Mikrofilmene skannes i Belgien, mens OCR-processen gennemføres i Indien. De får leveret ca. to millioner sider om året. Til sammenligning ønsker vi at digitalisere ca. 32 millioner avissider i løbet af 2½ – 3 år.

I 2008 besluttede nordmændene at indstille mikrofilmning af aviser. Det betyder, at alle nye aviser, som ikke afleveres digitalt, samt papirudgaver af aviserne fra perioden 2008-2011, skannes. Denne opgave løses in-house. Nordmændene har altså erfaringer med de to digitaliseringsmetoder, som vi er interesserede i at undersøge nærmere, inden vi træffer vores valg. Et besøg var derfor oplagt.

.

Robotscanner

Robotscanner til papiraviser

.

Kvalitetssikring

De primære mål med besøget var at finde ud af, hvordan nordmændene havde grebet processen an, dvs. hvilke arbejdsprocesser de havde etableret i forbindelse med digitaliseringen af mikrofilmene, herunder udvælgelse og kvalitetskontrol af mikrofilmene inden afsendelse til skanning.

Filmene sendes af sted i batches med en størrelsesorden på ca. 100.000 sider, hvilket svarer til ca. 100 mikrofilm. Når filerne ankommer retur til biblioteket, bliver de checket for læsbarhed og kvalitet, for om antallet af filer stemmer, samt om navngivningsreglerne er fulgt. Begge ender af kvalitetssikringsprocessen gav os godt input til, hvordan vi kan gribe processen an, samt hvad vi skal huske at have på plads for at kunne opnå den samme standard.

Digital bevaring

Som en del af forarbejdet til digitaliseringsprocessen undersøger vi, hvilket filformat der vil være det bedste til at sikre digital langtidsbevaring samt hvilket der vil være bedst egnet til tilgængeliggørelse af filerne. Vi undersøger bl.a. JPEG2000, og interessant nok havde nordmændene valgt lige præcis JPEG2000 som bevaringsformat. De har med andre ord truffet det samme valg som Koninklijke Bibliotheek i Holland og Kungliga biblioteket i Sverige.

I bevaringsøjemed bliver billederne/filerne bearbejdet mindst muligt, mens de i formidlingsøjemed bliver justeret efter behov, og de tekniske muligheder som er tilgængelige. Siderne er OCR-skannet med en genkendelsesprocent på 80% for gotisk skrift og 85% for latin.

.

Manuel tilretning af OCR-scannede avissider

.

Input til tilgængeliggørelse

Vi var også interesseret i at finde ud af, hvordan nordmændene havde valgt at tilgængeliggøre de digitaliserede aviser. Det viste sig, at de har lavet specielle aftaler med de norske dagblade, som bidrager økonomisk til digitalisering af aviserne.

Aftalen betyder også, at de digitaliserede aviser må være tilgængelige på Nasjonalbiblioteket samt på landets folkebiblioteker. Adgangen er styret via ip-adresser. Aviserne frem til 1918 er frit tilgængelige, resten er der kun adgang til på nationalbiblioteket og folkebibliotekerne. Som en del af aftalen med de norske dagblade modtager de en digital kopi af aviserne, som de selv formidler via egne kanaler.

Interessante tanker som bidrager til vores overvejelser om, hvordan vi skal – og kan – stille vores aviser til rådighed.

Read Full Post »

Syv medarbejdere i Statens Avissamling har i marts måned brugt tid på at nærstudere aviserne i Statens Avissamling. De har især haft travlt med at optælle det totale antal sider, men de har også opgjort, hvornår en avistitel findes i kæmpeformat, hvornår den enkelte titel skifter fra fraktur skrift (også kaldet “krøllede bogstaver”) til latinsk skrift (den skrift der bruges i dag). Og endelig har de talt, hvor mange sider der er fra de enkelte titlers begyndelse og op til 1910.

Hvorfor undersøge hvilken skrift aviserne har brugt?
Gotisk skrift er brugt af mange aviser helt op i 1920’erne. OCR (elektronisk tegngenkendelse), som er en betingelse for søgning i den skannede tekst, er sværere at lave på denne typografi og kræver avanceret software. Software der helst skal kombineres med ordlister over gamle danske ord. Det kan derfor blive dyrere at opnå en høj korrekthed i tekstgenkendelsen, og det er grunden til, at vi skal kende omfanget af sider med denne typografi for at kunne estimere udgifterne til OCR-delen af digitaliseringsopgaven korrekt.

Optælling i Statens Avissamling

Read Full Post »

%d bloggers like this: