Feeds:
Indlæg
Kommentarer

Posts Tagged ‘tilgængeliggørelse’

En lille del af Det Kongelige Biblioteks bygning midt i Haag

“Koninklijke Bibliotheek” midt i Haag

Vi befinder os p.t. i analysefasen af Projekt Avisdigitalisering, og vi forsøger at forberede os så godt som muligt på digitaliseringsprocessen. Som en del af det arbejde besøgte en mindre del af projektets arbejdsgruppe Det Kongelige Bibliotek i Holland – Koninklijke Bibliotheek 6. marts 2012. Det var det andet af tre planlagte studiebesøg, og håbet var at høste en god portion af hollændernes erfaringer med digitaliserings-/ og kvalitetssikringsprocesserne i deres avisdigitaliseringsprojekt.

Digitalisering i Holland

Som udgangspunkt digitaliserer Koninklijke Bibliotheek for at bevare kulturarvsmateriale, men også for at give brugerne adgang til samlingerne. Hovedfokus er på digitalisering af tekst – især i form af historiske tekster. De prøver i videst muligt omfang at lave aftaler med copyrightholderne, der sikrer det bedst mulige grundlag for tilgængeliggørelse og formidling af de digitale samlinger. Deres primære målgruppe for de digitale aviser er forskere, mens den sekundære målgruppe er slægtsforskere.

Hollænderne arbejder i høj grad med massedigitalisering – målet er, at alt er digitaliseret inden 2030. Interessant nok ligner deres strategi Statsbibliotekets vision, der lyder, at ”Statsbiblioteket stiller alt indhold til rådighed online 2020”.

Digitale aviser

Mht. det hollandske avisdigitaliseringsprojekt så digitaliseres 1/3 af aviserne ud fra eksisterende mikrofilm. Digitalisering af mikrofilmene står biblioteket selv for, mens resten skannes fra originalaviser af en ekstern leverandør. P.t. er fem millioner avissider tilgængelige på Historische Kranten. Målet er, at ni millioner sider ligger online i november 2012.

Regelmæssigt skannes en referencefilm for at dokumentere skannerens korrekte indstilling

Regelmæssigt skannes en referencefilm for at dokumentere skannerens korrekte indstilling

Digital bevaring og formater

Koninklijke Bibliotheek er meget bevidste om deres ansvar som bevaringsinstitution. Det er deres opgave at sikre den permanente adgang til aviserne. Det handler med andre ord om mere end formidling her og nu i forhold til den nyeste og smarteste teknologi. Bevaringsansvaret skal ses i forhold til kommende generationer og deres adgang til vigtigt kulturhistorisk materiale.

Hollænderne har valgt JPEG2000 som bevaringsformat pga. af størrelsen. Som formidlingsfil benytter de en pdf-fil i en lavere kvalitet. På sigt er det dog meningen, at den samme JPEG2000 fil skal bruges til både bevaring og formidling. Filerne bliver OCR-skannet og fuldtekstindekseret. De accepterer en genkendelsesgrad, der ligger på 50-100 % – alle filer er tilgængelige på hjemmesiden, uanset hvor god genkendelsesgraden er. Faktisk har hollænderne opgivet at forlange en en bestemt ocr-kvalitet. De har også opgivet at lave detaljerede stikprøver på den ocr-tekst, de modtager fra leverandøren. Det skyldes bl.a., at en kontrol vil være særdeles tidskrævende, og desuden vil en leverandør sjældent kunne ændre på den leverede kvalitet. En vigtig erfaring som vi har noteret os. Vi håber nemlig også på at kunne udføre OCR-skanning på vores avisfiler, men vi har endnu ikke besluttet, hvilken genkendelsesgrad vi vil acceptere.

OCR og crowdsourcing

Hollænderne har oplevet, at brugerne stiller meget høje krav til OCR-kvaliteten. Desværre  er der dog ikke mulighed for at forbedre kvaliteten af skanningen. Erfaringer viser, at mange af de hollandske aviser fra før 1850 er OCR-skannet så ringe, at materialet ikke kan bruges i forskning. Udviklingen indenfor sprogteknologi går dog så hurtig, at samlingen på sigt vil kunne drage fordel af den, hvis man sørger for at udvikle de nødvendige værktøjer til implementation på deres avisportal. Om det så lykkes for hollænderne at gennemføre en ny og forbedret ocr-skanning, er et andet spørgsmål. Et interessant aspekt er dog, at hollænderne overvejer at introducere crowdsourcing for at forbedre OCR-kvaliteten af udvalgte dele af samlingen. Et spændende aspekt som vi også bør overveje i arbejdet med de danske aviser.

Skanneroperatøren kontrollerer billedfilerne løbende mens Sunrise-skanneren kører

Skanneroperatøren kontrollerer billedfilerne løbende mens Sunrise-skanneren kører

Input til tilgængeliggørelse

Hollænderne har digitaliseret aviser frem til 1995. Samtidig er der indgået en aftale med forskellige copyrightorganisationer samt den hollandske presseorganisation. I den forbindelse er der afsat et beløb til freelance journalister, der kan tænkes at ville gøre krav i forhold til ophavsretten. Dermed er de i stand til at formidle 105 avistitler udgivet i perioden 1618-1995. Uden det afsatte beløb og aftalerne ville skæringsdatoen ellers have været ca. 1870.

En anden interessant ting er, at hollænderne har valgt at benytte en ”Scientific Advisory Committee” bestående af prominente historikere, sprogforskere, journalister og repræsentanter fra andre potentielle brugergrupper til at udvælge, hvilke titler der skal digitaliseres. Ca. 1.300 titler bestående af nationale, regionale og lokale aviser samt aviser fra tidligere kolonilande er med på en favoritliste. I Statens Avissamling har vi haft travlt med at tælle og lave præcise opgørelser over de titler, vi ligger inde med, men vi har endnu ikke lagt os fast på, hvilke af titlerne der skal digitaliseres. Ej heller i hvilken rækkefølge de skal igennem digitaliseringsmaskinen. Dokumentet ”Registrant over aviser i Statens Avissamling” er en fuldstændig liste over alle avistitlerne, og den giver dermed et bud på de titler, der kan komme på tale.

Tanken om at involvere den danske befolkning i processen med at udvælge titler til digitalisering er fascinerende. Gad vide hvilke titler der ville springe danskerne mest i øjnene?

Hollænderne cykler meget og det ses i gadebilledet, her parkeringspladsen ved banegården i Haag. Det Kongelige Bibliotek ligger centralt lige ved siden af

Hollænderne cykler meget og det ses i gadebilledet, her parkeringspladsen ved hovedbanegården i Haag

 

Read Full Post »

Avisdigitaliseringsprojektet befinder sig i disse måneder i analysefasen. Dvs. vi arbejder på at indhente viden og erfaringer fra leverandører og andre nationalbiblioteker, som har gennemført lignende digitaliseringsprojekter. I forbindelse med sidstnævnte besøgte en mindre del af projektets arbejdsgruppe IKT og digitalisering ved Nasjonalbiblioteket i Mo i Rana, Norge 13. februar 2012.

Avisdigitalisering i Norge

Det norske nationalbibliotek arbejder sammen med Planman Technologies om digitalisering af deres avismikrofilm. Mikrofilmene skannes i Belgien, mens OCR-processen gennemføres i Indien. De får leveret ca. to millioner sider om året. Til sammenligning ønsker vi at digitalisere ca. 32 millioner avissider i løbet af 2½ – 3 år.

I 2008 besluttede nordmændene at indstille mikrofilmning af aviser. Det betyder, at alle nye aviser, som ikke afleveres digitalt, samt papirudgaver af aviserne fra perioden 2008-2011, skannes. Denne opgave løses in-house. Nordmændene har altså erfaringer med de to digitaliseringsmetoder, som vi er interesserede i at undersøge nærmere, inden vi træffer vores valg. Et besøg var derfor oplagt.

.

Robotscanner

Robotscanner til papiraviser

.

Kvalitetssikring

De primære mål med besøget var at finde ud af, hvordan nordmændene havde grebet processen an, dvs. hvilke arbejdsprocesser de havde etableret i forbindelse med digitaliseringen af mikrofilmene, herunder udvælgelse og kvalitetskontrol af mikrofilmene inden afsendelse til skanning.

Filmene sendes af sted i batches med en størrelsesorden på ca. 100.000 sider, hvilket svarer til ca. 100 mikrofilm. Når filerne ankommer retur til biblioteket, bliver de checket for læsbarhed og kvalitet, for om antallet af filer stemmer, samt om navngivningsreglerne er fulgt. Begge ender af kvalitetssikringsprocessen gav os godt input til, hvordan vi kan gribe processen an, samt hvad vi skal huske at have på plads for at kunne opnå den samme standard.

Digital bevaring

Som en del af forarbejdet til digitaliseringsprocessen undersøger vi, hvilket filformat der vil være det bedste til at sikre digital langtidsbevaring samt hvilket der vil være bedst egnet til tilgængeliggørelse af filerne. Vi undersøger bl.a. JPEG2000, og interessant nok havde nordmændene valgt lige præcis JPEG2000 som bevaringsformat. De har med andre ord truffet det samme valg som Koninklijke Bibliotheek i Holland og Kungliga biblioteket i Sverige.

I bevaringsøjemed bliver billederne/filerne bearbejdet mindst muligt, mens de i formidlingsøjemed bliver justeret efter behov, og de tekniske muligheder som er tilgængelige. Siderne er OCR-skannet med en genkendelsesprocent på 80% for gotisk skrift og 85% for latin.

.

Manuel tilretning af OCR-scannede avissider

.

Input til tilgængeliggørelse

Vi var også interesseret i at finde ud af, hvordan nordmændene havde valgt at tilgængeliggøre de digitaliserede aviser. Det viste sig, at de har lavet specielle aftaler med de norske dagblade, som bidrager økonomisk til digitalisering af aviserne.

Aftalen betyder også, at de digitaliserede aviser må være tilgængelige på Nasjonalbiblioteket samt på landets folkebiblioteker. Adgangen er styret via ip-adresser. Aviserne frem til 1918 er frit tilgængelige, resten er der kun adgang til på nationalbiblioteket og folkebibliotekerne. Som en del af aftalen med de norske dagblade modtager de en digital kopi af aviserne, som de selv formidler via egne kanaler.

Interessante tanker som bidrager til vores overvejelser om, hvordan vi skal – og kan – stille vores aviser til rådighed.

Read Full Post »

%d bloggers like this: