Feeds:
Indlæg
Kommentarer

Posts Tagged ‘JPEG2000’

En lille del af Det Kongelige Biblioteks bygning midt i Haag

“Koninklijke Bibliotheek” midt i Haag

Vi befinder os p.t. i analysefasen af Projekt Avisdigitalisering, og vi forsøger at forberede os så godt som muligt på digitaliseringsprocessen. Som en del af det arbejde besøgte en mindre del af projektets arbejdsgruppe Det Kongelige Bibliotek i Holland – Koninklijke Bibliotheek 6. marts 2012. Det var det andet af tre planlagte studiebesøg, og håbet var at høste en god portion af hollændernes erfaringer med digitaliserings-/ og kvalitetssikringsprocesserne i deres avisdigitaliseringsprojekt.

Digitalisering i Holland

Som udgangspunkt digitaliserer Koninklijke Bibliotheek for at bevare kulturarvsmateriale, men også for at give brugerne adgang til samlingerne. Hovedfokus er på digitalisering af tekst – især i form af historiske tekster. De prøver i videst muligt omfang at lave aftaler med copyrightholderne, der sikrer det bedst mulige grundlag for tilgængeliggørelse og formidling af de digitale samlinger. Deres primære målgruppe for de digitale aviser er forskere, mens den sekundære målgruppe er slægtsforskere.

Hollænderne arbejder i høj grad med massedigitalisering – målet er, at alt er digitaliseret inden 2030. Interessant nok ligner deres strategi Statsbibliotekets vision, der lyder, at ”Statsbiblioteket stiller alt indhold til rådighed online 2020”.

Digitale aviser

Mht. det hollandske avisdigitaliseringsprojekt så digitaliseres 1/3 af aviserne ud fra eksisterende mikrofilm. Digitalisering af mikrofilmene står biblioteket selv for, mens resten skannes fra originalaviser af en ekstern leverandør. P.t. er fem millioner avissider tilgængelige på Historische Kranten. Målet er, at ni millioner sider ligger online i november 2012.

Regelmæssigt skannes en referencefilm for at dokumentere skannerens korrekte indstilling

Regelmæssigt skannes en referencefilm for at dokumentere skannerens korrekte indstilling

Digital bevaring og formater

Koninklijke Bibliotheek er meget bevidste om deres ansvar som bevaringsinstitution. Det er deres opgave at sikre den permanente adgang til aviserne. Det handler med andre ord om mere end formidling her og nu i forhold til den nyeste og smarteste teknologi. Bevaringsansvaret skal ses i forhold til kommende generationer og deres adgang til vigtigt kulturhistorisk materiale.

Hollænderne har valgt JPEG2000 som bevaringsformat pga. af størrelsen. Som formidlingsfil benytter de en pdf-fil i en lavere kvalitet. På sigt er det dog meningen, at den samme JPEG2000 fil skal bruges til både bevaring og formidling. Filerne bliver OCR-skannet og fuldtekstindekseret. De accepterer en genkendelsesgrad, der ligger på 50-100 % – alle filer er tilgængelige på hjemmesiden, uanset hvor god genkendelsesgraden er. Faktisk har hollænderne opgivet at forlange en en bestemt ocr-kvalitet. De har også opgivet at lave detaljerede stikprøver på den ocr-tekst, de modtager fra leverandøren. Det skyldes bl.a., at en kontrol vil være særdeles tidskrævende, og desuden vil en leverandør sjældent kunne ændre på den leverede kvalitet. En vigtig erfaring som vi har noteret os. Vi håber nemlig også på at kunne udføre OCR-skanning på vores avisfiler, men vi har endnu ikke besluttet, hvilken genkendelsesgrad vi vil acceptere.

OCR og crowdsourcing

Hollænderne har oplevet, at brugerne stiller meget høje krav til OCR-kvaliteten. Desværre  er der dog ikke mulighed for at forbedre kvaliteten af skanningen. Erfaringer viser, at mange af de hollandske aviser fra før 1850 er OCR-skannet så ringe, at materialet ikke kan bruges i forskning. Udviklingen indenfor sprogteknologi går dog så hurtig, at samlingen på sigt vil kunne drage fordel af den, hvis man sørger for at udvikle de nødvendige værktøjer til implementation på deres avisportal. Om det så lykkes for hollænderne at gennemføre en ny og forbedret ocr-skanning, er et andet spørgsmål. Et interessant aspekt er dog, at hollænderne overvejer at introducere crowdsourcing for at forbedre OCR-kvaliteten af udvalgte dele af samlingen. Et spændende aspekt som vi også bør overveje i arbejdet med de danske aviser.

Skanneroperatøren kontrollerer billedfilerne løbende mens Sunrise-skanneren kører

Skanneroperatøren kontrollerer billedfilerne løbende mens Sunrise-skanneren kører

Input til tilgængeliggørelse

Hollænderne har digitaliseret aviser frem til 1995. Samtidig er der indgået en aftale med forskellige copyrightorganisationer samt den hollandske presseorganisation. I den forbindelse er der afsat et beløb til freelance journalister, der kan tænkes at ville gøre krav i forhold til ophavsretten. Dermed er de i stand til at formidle 105 avistitler udgivet i perioden 1618-1995. Uden det afsatte beløb og aftalerne ville skæringsdatoen ellers have været ca. 1870.

En anden interessant ting er, at hollænderne har valgt at benytte en ”Scientific Advisory Committee” bestående af prominente historikere, sprogforskere, journalister og repræsentanter fra andre potentielle brugergrupper til at udvælge, hvilke titler der skal digitaliseres. Ca. 1.300 titler bestående af nationale, regionale og lokale aviser samt aviser fra tidligere kolonilande er med på en favoritliste. I Statens Avissamling har vi haft travlt med at tælle og lave præcise opgørelser over de titler, vi ligger inde med, men vi har endnu ikke lagt os fast på, hvilke af titlerne der skal digitaliseres. Ej heller i hvilken rækkefølge de skal igennem digitaliseringsmaskinen. Dokumentet ”Registrant over aviser i Statens Avissamling” er en fuldstændig liste over alle avistitlerne, og den giver dermed et bud på de titler, der kan komme på tale.

Tanken om at involvere den danske befolkning i processen med at udvælge titler til digitalisering er fascinerende. Gad vide hvilke titler der ville springe danskerne mest i øjnene?

Hollænderne cykler meget og det ses i gadebilledet, her parkeringspladsen ved banegården i Haag. Det Kongelige Bibliotek ligger centralt lige ved siden af

Hollænderne cykler meget og det ses i gadebilledet, her parkeringspladsen ved hovedbanegården i Haag

 

Read Full Post »

%d bloggers like this: