Feeds:
Indlæg
Kommentarer

Archive for november 2015

kolding_helsingor

Vi tager turen til Helsingør og Kolding og sender de følgende to nye titler til digitalisering:

  • Helsingør Dagblad: 1. januar 1976 – 31. december 2007
  • Kolding Folkeblad: 2. januar 1872 – 12. juli 1995

Samtidig henter Scanning.dk yderligere mikrofilm med Frederiksborg Amts Avis.

Læs mere om titlerne i opslagsværket De Danske Aviser.

Vi sender løbende titler af sted til digitalisering. Se listen over aviser der er på vej igennem digitaliseringsmaskinen og de kandidater, der har en chance for at blive udvalgt.

Når de digitaliserede avissider er godkendt i vores automatiske og manuelle checks, bliver de tilgængelige i Mediestream Aviser.

Aviser udgivet før 1. januar 1916 kan man frit søge og læse i hjemmefra. Aviser udgivet efter 31. december 1915 kan man læse i på Statsbiblioteket, Det Kongelige Bibliotek og Det Danske Filminstitut. Læs mere om adgang.

Read Full Post »

Her følger indlæg nummer to om kvalitetscheck af de digitaliserede avissider. Denne gang med gæsteskribent, Kåre Fiedler Christiansen, Digital Preservation Lead Architect på Statsbiblioteket.

*************************************************************************************

INDLEDNING

Avisdigitaliseringsprojektet er et projekt med fart på. Hver eneste dag ruller der omtrent 30.000 avissider fra Ninestars ind på Statsbibliotekets servere, og det er sin sag at holde styr på it-infrastrukturen, der skal til for at følge med. Siderne ruller ind i klumper på cirka 10.000-15.000 sider, svarende til en kasse med mikrofilm. Vi kalder sådan en klump for et batch.

0748Illustration: En kasse med mikrofilm

For hver eneste avisside modtager vi fire filer:

  • Et billede af siden
  • En fil med metadata om siden – fx avistitel, sektionsoverskrift, sidenummer etc.
  • En fil med metadata om scanningen – fx scanneroperatør, tidspunkt for scanningen, filens højde og bredde etc.
  • En fil med teksten fra siden (OCR)

Desuden modtager vi for hver avisudgave en ekstra fil med metadata om avisen – fx avistitel, dato, udgavenummer, antal sider etc.

Endelig får vi en fil pr. mikrofilm med oplysninger om mikrofilmen – fx målinger af filmens tilstand, den forstørrelsesgrad mikrofilmen er filmet med etc.

Til hver af disse filer modtager vi desuden en fil med en checksum – et lille fingeraftryk af filen, som kan bruges til at finde ud af, om der er sket fejl i overførslen af filer.

I alt modtager vi omkring en kvart million forskellige filer i gennemsnit hver dag.

Alle disse metadata er omhyggeligt genereret af Ninestars og Scanning.dk efter specifikationer fra Statsbiblioteket. De genereres ved en blanding af automatiske og manuelle processer, og som ved alle andre processer kan der ske fejl.

Mængden af filer, vi modtager, er alt for stor til, at vi manuelt kan kigge dem alle igennem. Derfor har vi et system, der automatisk checker filerne for problemer. Alle avissider løber gennem et antal kontroller, før de endelig når frem til Mediestream og brugeren.

LAGRING AF DATA

Det første, der sker, når filerne er modtaget fra Ninestars, er, at vi gemmer dem i vores bevaringssystemer.  Data bliver kun slettet herfra, hvis afleveringen bliver afvist, og vi har fået en nyere aflevering, som er blevet endeligt godkendt.

Metadata og teksten fra vores avissider bliver gemt i vores metadata repository, hvor de kan være baggrund for processering, administration, præsentation og søgning. Billederne bliver gemt i vores bit repository, hvor de bliver sikret i flere kopier på forskellige fysiske lokationer.

I forbindelse med lagringen bliver checksummen desuden beregnet og checket, således at eventuelle fejl i overførslen også bliver opdaget. De lagrede data er herefter baggrunden for alle de kontroller og checks, der bliver lavet før tilgængeliggørelsen.

Læs mere om digital langtidsbevaring.

FULD-AUTOMATISKE KONTROLLER

Data bliver kontrolleret for at leve op til specifikationen i et antal moduler.

Den første kontrol er, at data afleveres med den korrekte placering af filer og korrekte filnavne. Filerne skal være afleveret efter krav, som er nøje beskrevet i kravspecifikationen, og det er baggrunden for, at vi efterfølgende automatisk kan behandle filerne.

Der bliver gennemløbet ca. 50 regler for:

  • at tingene er afleveret i den rette struktur, som indeholder kontroller af fil- og directorynavne,
  • at der ikke er nogle uventede eller manglende filer,
  • at filnavne med datoer er gyldige datoer,
  • at filnavne med tællere starter fra 1 og tæller op,
  • at avisid’er i filnavnene svarer til dem, vi forventede at modtage i denne aflevering,
  • og meget mere.

Hvis strukturen er korrekt, gennemløbes alle billedfiler, og egenskaber for billedfilerne registreres. Det udregnes, om de lever op til standarderne for det billedformat, som vi har bestilt, og der udtrækkes tekniske informationer som højde og bredde af filerne.

Derefter gennemløbes metadata for at checke, om det lever op til specifikationerne. Det checkes, at de er gyldige i forhold til det format, der er specificeret, og indholdet af filerne kontrolleres for at sikre, at det indeholder forventede data i forhold til det bestilte. Over 100 regler beskriver forskellige kontrollerbare aspekter af filerne. I dette skridt checkes både indholdet af de enkelte metadatafiler, men også at de er konsistente med hinanden – fx:

  • at antallet af billeder, der står i metadata om en film, faktisk svarer til det antal billeder, der er leveret,
  • at højde og bredde i metadatafilen om en side faktisk svarer til højden og bredden i den afleverede side, og
  • at de datoer, der står i metadatafilerne, også svarer til datoerne på de enkelte sider.

Screenshot from 2015-11-20 10-09-41Illustration: Screendump fra process monitor

SEMI-AUTOMATISKE KONTROLLER

Hvis alt godkendes i de fuldautomatiske kontroller, laves der et antal checks, som vi følger op på manuelt.

Her identificerer vi bl.a.:

  • sider, der er overraskende smalle eller bredde,
  • om der er registeret scanneroperatører, som vi ikke har hørt om før,
  • om der er dårlige resultater i tekstgenkendelsen, og
  • om der er dårlige resultater i målingen på mikrofilmen.

Alt sammen ting der gør, at et menneske bør checke disse filer ekstra grundigt.

Desuden laver vi en undersøgelse på billedegenskaber, der kan afsløre, om billedet har været efterbehandlet med software. Vores specifikationer siger, at vi ønsker billederne ubehandlede for at have den bedste afbildning af mikrofilmen, uden at efterbehandling fx har lysnet filmen. Bestemte teknikker kan give et fingerpeg, hvis det er sket alligevel.

Output af dette skridt er en liste af filer, der skal kigges ekstra grundigt på manuelt.

STATISTISK OVERSIGT

Til brug for den manuelle kontrol laver vi desuden to ting, der hjælper med at bevare overblikket over processen.

For det første laver vi en liste over hvilke aviser, der er scannet, hvor mange sider hver udgave indeholder, samt hvilke sektioner der findes i avisen.

For det andet laver vi en kalenderoversigt, som gør, at det er let og hurtigt at overskue, hvis der er uventede huller i datoerne for de afleverede aviser.
Screenshot from 2015-11-20 10-42-25

Illustration: Screendump af statistik-side

MANUEL KONTROL

Hvis afleveringen går gennem alle automatiske kontroller, overgives den til manuel kontrol. Ud over de udvalgte sider ovenfor checkes et mindre antal tilfældigt udvalgte siders udseende og metadata. Detaljerne i den manuelle kontrol vil blive behandlet i et senere blogindlæg.

GODKENDELSE ELLER GENAFLEVERING

Hvis den automatiske kontrol fejler, er der tre muligheder.

Den ene mulighed er, at vi accepterer afleveringen trods den registrerede fejl. Det kan ske ved meget kosmetiske fejl med lille betydning, eller ved kendte specialtilfælde hvor vores software melder fejl, men hvor der i virkeligheden ikke er en fejl.

Den anden mulighed er, at der meldes fejl på grund af en fejl i vores software. I det tilfælde må vi rette vores software og køre checket igen.

Den sidste mulighed er, at der er en fejl i afleveringen. I det tilfælde beder vi Ninestars om, at der laves en ny aflevering, hvor fejlene er udbedret. I så fald kører hele kontrollen igennem igen. Dette er også, hvad der sker, hvis et batch  afvises i den manuelle kontrol.

Først når en ny aflevering er godkendt i alle check, sletter vi gamle afviste afleveringer.

KLARGØRING TIL PRÆSENTATION

Når et batch er endeligt godkendt, ved vi, at det er korrekt og overgiver det til præsentationsdelen af systemet.

Her klargøres metadata i vores repository til høstning fra søgesystemet i Mediestream, og billedfilerne transformeres til vores billedserver, som leverer de avissider, der bliver vist i Mediestream. Endelig laves en PDF-fil for hver udgave, der indeholder komprimerede udgaver af siderne.

Alle disse ting stilles til rådighed for Mediestream, som derefter giver adgang til slutbrugerne.

Mediestream - Vestindien

Illustration: Præsentation af avissider efter søgning i Mediestream

AUTOMATISK KONTROL HOS NINESTARS

Den automatiske kontrol kører ikke bare på Statsbiblioteket. Hele programmet til fuldautomatiske kontroller er nemlig pakket sammen, så det kan køres hos Ninestars inden aflevering. Det giver den fordel, at eventuelle fejl kan rettes, allerede inden filerne overføres, til fordel for både Ninestars og Statsbiblioteket.

ANDRE ERFARINGER

Selv for et it-system kan 30.000 sider om dagen være lidt af en mundfuld, og der skal ikke mange dages nedetid til, før det er en temmelig stor pukkel af filer, der skal indhentes. For at imødegå problemerne har vi taget flere metoder i brug for at holde hastigheden. Således kan vi arbejde på flere afleveringer samtidig, og der arbejdes også på flere sider af gangen i hvert check. Til de lidt mere krævende opgaver, som fx involverer arbejde på billedfilerne, har vi desuden taget et masseprocesserings-cluster i brug, baseret på Hadoop som er de facto standard for at arbejde på store datamængder. I alt kan vi holde cirka dobbelt hastighed af det krævede, som er nok til at indhente eventuelle pukler – så længe vi ikke har fejl, som det tager for lang tid om at løse.

HVEM ER VI?

Systemet er udviklet af Statsbibliotekets it-afdeling for digital bevaring. Vi svarer gerne på spørgsmål og deler erfaringer, hvis I er interesserede i at vide mere. Skriv en kommentar på bloggen hvis du vil vide mere eller kontakt Kåre Fiedler Christiansen kfc@statsbiblioteket.dk, forfatteren på dette indlæg.

 

Read Full Post »

Toke Eskildsen

De næste par indlæg kommer til at handle om kvalitetskontrol og kvalitetssikring af de digitaliserede avissider. Vi starter med at løfte lidt af fligen for arbejdet og fortæller lidt om, hvordan vi undersøger billedkvaliteten af de skannede sider.

En af vores dygtige it-folk, Toke Eskildsen, har været involveret i processen fra starten, og vi har valgt at lave en kort video med ham, hvor han beretter om sit arbejde med at sætte den korrekte standard for kvaliteten af billederne.

Toke er tidligere blevet interviewet om sit arbejde med avissiderne, og artiklen ”Råt er godt” om ham udkom oprindeligt i DenGANG nr. 2.  Se de øvrige numre af DenGANG.

I næste blogindlæg dykker vi ned i it-systemerne og kigger nærmere på den automatiske kvalitetskontrol.

Read Full Post »

%d bloggers like this: