Feeds:
Indlæg
Kommentarer

Posts Tagged ‘check’

Her følger indlæg nummer tre om kvalitetscheck af de digitaliserede avissider. Denne gang med gæsteskribenter fra Statens Avissamling, Christian Brink Christensen og Martin Lund.

STATENS AVISSAMLING

Vi har valgt Statens Avissamling i Skejby som stedet, hvor der udføres manuel kontrol af de digitaliserede aviser, også kaldet QA – quality assessment, på dansk kvalitetsvurdering. Her er Statsbibliotekets magasin med de trykte aviser fra 1668 og frem, og her er medarbejdere, der ved meget om både aviser og mikrofilm. Avisdigitaliseringen er baseret på mikrofilm, som er fremstillet igennem de seneste 50 år. Mikrofilmene er af varierende kvalitet og giver derfor også scanninger af varierende kvalitet. Kendskab til hvorfor og hvordan det kommer til udtryk, er en stor fordel, når vi kvalitetsvurderer de digitaliserede sider.

OMFANG AF MANUEL KONTROL

Vi laver som udgangspunkt en stikprøvekontrol, hvor der automatisk udvælges fem tilfældige sider fra hver enkelt mikrofilm. Fem sider er ikke meget, når en film snildt kan rummer over 1.000 sider, men systematiske fejl vil med stor sandsynlighed blive afsløret ved hjælp af de fem sider. Vi kan efter behov se på flere, men vores tidsforbrug skal begrænses, fordi Avissamlingens medarbejdere også har andre opgaver, så det sker ikke ofte. 32 mio. sider er så stor en mundfuld, at vi er nødt til at begrænse kontrollen. Med andre ord er indsatsen et kompromis mellem investeret tid, og hvor fejlfrit produktet bliver i den sidste ende.

QA_3.1

Operatører ved arbejdsstationerne i gang med manuel QA.

STIKPRØVEKONTROL AF FILER

De fem stikprøver vises i en særlig brugergrænseflade udviklet af vores leverandør Ninestars, som også står for digitaliseringen. Operatøren vurderer hvert billede ud fra nogle fastsatte kriterier om scanningskvalitet, formidlingskvalitet (læsbarhed) og ikke mindst hvor egnet billedet er som sikkerheds-kopi for den trykte avis. Fejl på originalaviser, som kan ses på scanningen, noteres også. Det kan fx være sider, som er ældet, hullet eller afrevet så meget, at teksten ikke kan læses.

Sammen med hver film følger et scannet ISO-test-ark, som kontrolleres inden de fem stikprøver. Det viser, om scanneren har kørt optimalt. Stikprøvekontrollen giver også mulighed for at vurdere, om mikrofilm-negativerne er ekstraordinært slidte eller beskadigede. På den måde giver processen os en større viden om tilstanden af vores mikrofilmsamling.

Ud over vurderingen af scanningskvaliteten laver vi en manuel vurdering af de fejl, som den automatiske og serverbaserede kontrol har fundet. En stor del af disse fejl er såkaldte falske positiver som fx sider, den automatiske kontrol har vurderet til at være for brede, men som ved efterfølgende check viser sig at være avisopslag, hvor der er tekst eller billeder, som går ind over midten på avisopslaget. (Se også Kåre Fiedler Christiansens indlæg “Hvad sker der med aviserne, når vi modtager dem fra Ninestars?”)

QA_fejlkoder

En side kan tagges med en fejlbeskrivelse samt tilføjes kommentar.

KONTROL AF METADATA

Vores leverandør Ninestars’ medarbejdere noterer manuelt en del metadata om aviserne, herunder titel og udgivelsesdato. En avisudgivelse kan fx få tilskrevet en forkert dato. Det kan skyldes en menneskelig fejl hos Ninestars, men det skyldes oftere en satsfejl på originalavisen, og det kan vi af gode grunde ikke ændre på. I den manuelle kontrol laver vi en kontrol af det generelle flow i udgivelsesdatoer for at vurdere eventuelle mangler, der kan skyldes filmnings- eller scanningsfejl, eller mere sandsynligt at avisen rent faktisk ikke er udkommet fx pga. strejke. Værktøjet, vi benytter her, er den kalenderoversigt, som er beskrevet i indlægget ”Hvad sker der med aviserne, når vi modtager dem fra Ninestars?”.

Modtager vi filer, som har fejl i kvalitet eller metadata, der kan skyldes Ninestars’ arbejde, skal de levere en ny, rettet version. På baggrund af vores kontrol og gode kommunikation med leverandøren har vi opnået et meget acceptabelt niveau for fejl og genleveringer.

Read Full Post »

Her følger indlæg nummer to om kvalitetscheck af de digitaliserede avissider. Denne gang med gæsteskribent, Kåre Fiedler Christiansen, Digital Preservation Lead Architect på Statsbiblioteket.

*************************************************************************************

INDLEDNING

Avisdigitaliseringsprojektet er et projekt med fart på. Hver eneste dag ruller der omtrent 30.000 avissider fra Ninestars ind på Statsbibliotekets servere, og det er sin sag at holde styr på it-infrastrukturen, der skal til for at følge med. Siderne ruller ind i klumper på cirka 10.000-15.000 sider, svarende til en kasse med mikrofilm. Vi kalder sådan en klump for et batch.

0748Illustration: En kasse med mikrofilm

For hver eneste avisside modtager vi fire filer:

  • Et billede af siden
  • En fil med metadata om siden – fx avistitel, sektionsoverskrift, sidenummer etc.
  • En fil med metadata om scanningen – fx scanneroperatør, tidspunkt for scanningen, filens højde og bredde etc.
  • En fil med teksten fra siden (OCR)

Desuden modtager vi for hver avisudgave en ekstra fil med metadata om avisen – fx avistitel, dato, udgavenummer, antal sider etc.

Endelig får vi en fil pr. mikrofilm med oplysninger om mikrofilmen – fx målinger af filmens tilstand, den forstørrelsesgrad mikrofilmen er filmet med etc.

Til hver af disse filer modtager vi desuden en fil med en checksum – et lille fingeraftryk af filen, som kan bruges til at finde ud af, om der er sket fejl i overførslen af filer.

I alt modtager vi omkring en kvart million forskellige filer i gennemsnit hver dag.

Alle disse metadata er omhyggeligt genereret af Ninestars og Scanning.dk efter specifikationer fra Statsbiblioteket. De genereres ved en blanding af automatiske og manuelle processer, og som ved alle andre processer kan der ske fejl.

Mængden af filer, vi modtager, er alt for stor til, at vi manuelt kan kigge dem alle igennem. Derfor har vi et system, der automatisk checker filerne for problemer. Alle avissider løber gennem et antal kontroller, før de endelig når frem til Mediestream og brugeren.

LAGRING AF DATA

Det første, der sker, når filerne er modtaget fra Ninestars, er, at vi gemmer dem i vores bevaringssystemer.  Data bliver kun slettet herfra, hvis afleveringen bliver afvist, og vi har fået en nyere aflevering, som er blevet endeligt godkendt.

Metadata og teksten fra vores avissider bliver gemt i vores metadata repository, hvor de kan være baggrund for processering, administration, præsentation og søgning. Billederne bliver gemt i vores bit repository, hvor de bliver sikret i flere kopier på forskellige fysiske lokationer.

I forbindelse med lagringen bliver checksummen desuden beregnet og checket, således at eventuelle fejl i overførslen også bliver opdaget. De lagrede data er herefter baggrunden for alle de kontroller og checks, der bliver lavet før tilgængeliggørelsen.

Læs mere om digital langtidsbevaring.

FULD-AUTOMATISKE KONTROLLER

Data bliver kontrolleret for at leve op til specifikationen i et antal moduler.

Den første kontrol er, at data afleveres med den korrekte placering af filer og korrekte filnavne. Filerne skal være afleveret efter krav, som er nøje beskrevet i kravspecifikationen, og det er baggrunden for, at vi efterfølgende automatisk kan behandle filerne.

Der bliver gennemløbet ca. 50 regler for:

  • at tingene er afleveret i den rette struktur, som indeholder kontroller af fil- og directorynavne,
  • at der ikke er nogle uventede eller manglende filer,
  • at filnavne med datoer er gyldige datoer,
  • at filnavne med tællere starter fra 1 og tæller op,
  • at avisid’er i filnavnene svarer til dem, vi forventede at modtage i denne aflevering,
  • og meget mere.

Hvis strukturen er korrekt, gennemløbes alle billedfiler, og egenskaber for billedfilerne registreres. Det udregnes, om de lever op til standarderne for det billedformat, som vi har bestilt, og der udtrækkes tekniske informationer som højde og bredde af filerne.

Derefter gennemløbes metadata for at checke, om det lever op til specifikationerne. Det checkes, at de er gyldige i forhold til det format, der er specificeret, og indholdet af filerne kontrolleres for at sikre, at det indeholder forventede data i forhold til det bestilte. Over 100 regler beskriver forskellige kontrollerbare aspekter af filerne. I dette skridt checkes både indholdet af de enkelte metadatafiler, men også at de er konsistente med hinanden – fx:

  • at antallet af billeder, der står i metadata om en film, faktisk svarer til det antal billeder, der er leveret,
  • at højde og bredde i metadatafilen om en side faktisk svarer til højden og bredden i den afleverede side, og
  • at de datoer, der står i metadatafilerne, også svarer til datoerne på de enkelte sider.

Screenshot from 2015-11-20 10-09-41Illustration: Screendump fra process monitor

SEMI-AUTOMATISKE KONTROLLER

Hvis alt godkendes i de fuldautomatiske kontroller, laves der et antal checks, som vi følger op på manuelt.

Her identificerer vi bl.a.:

  • sider, der er overraskende smalle eller bredde,
  • om der er registeret scanneroperatører, som vi ikke har hørt om før,
  • om der er dårlige resultater i tekstgenkendelsen, og
  • om der er dårlige resultater i målingen på mikrofilmen.

Alt sammen ting der gør, at et menneske bør checke disse filer ekstra grundigt.

Desuden laver vi en undersøgelse på billedegenskaber, der kan afsløre, om billedet har været efterbehandlet med software. Vores specifikationer siger, at vi ønsker billederne ubehandlede for at have den bedste afbildning af mikrofilmen, uden at efterbehandling fx har lysnet filmen. Bestemte teknikker kan give et fingerpeg, hvis det er sket alligevel.

Output af dette skridt er en liste af filer, der skal kigges ekstra grundigt på manuelt.

STATISTISK OVERSIGT

Til brug for den manuelle kontrol laver vi desuden to ting, der hjælper med at bevare overblikket over processen.

For det første laver vi en liste over hvilke aviser, der er scannet, hvor mange sider hver udgave indeholder, samt hvilke sektioner der findes i avisen.

For det andet laver vi en kalenderoversigt, som gør, at det er let og hurtigt at overskue, hvis der er uventede huller i datoerne for de afleverede aviser.
Screenshot from 2015-11-20 10-42-25

Illustration: Screendump af statistik-side

MANUEL KONTROL

Hvis afleveringen går gennem alle automatiske kontroller, overgives den til manuel kontrol. Ud over de udvalgte sider ovenfor checkes et mindre antal tilfældigt udvalgte siders udseende og metadata. Detaljerne i den manuelle kontrol vil blive behandlet i et senere blogindlæg.

GODKENDELSE ELLER GENAFLEVERING

Hvis den automatiske kontrol fejler, er der tre muligheder.

Den ene mulighed er, at vi accepterer afleveringen trods den registrerede fejl. Det kan ske ved meget kosmetiske fejl med lille betydning, eller ved kendte specialtilfælde hvor vores software melder fejl, men hvor der i virkeligheden ikke er en fejl.

Den anden mulighed er, at der meldes fejl på grund af en fejl i vores software. I det tilfælde må vi rette vores software og køre checket igen.

Den sidste mulighed er, at der er en fejl i afleveringen. I det tilfælde beder vi Ninestars om, at der laves en ny aflevering, hvor fejlene er udbedret. I så fald kører hele kontrollen igennem igen. Dette er også, hvad der sker, hvis et batch  afvises i den manuelle kontrol.

Først når en ny aflevering er godkendt i alle check, sletter vi gamle afviste afleveringer.

KLARGØRING TIL PRÆSENTATION

Når et batch er endeligt godkendt, ved vi, at det er korrekt og overgiver det til præsentationsdelen af systemet.

Her klargøres metadata i vores repository til høstning fra søgesystemet i Mediestream, og billedfilerne transformeres til vores billedserver, som leverer de avissider, der bliver vist i Mediestream. Endelig laves en PDF-fil for hver udgave, der indeholder komprimerede udgaver af siderne.

Alle disse ting stilles til rådighed for Mediestream, som derefter giver adgang til slutbrugerne.

Mediestream - Vestindien

Illustration: Præsentation af avissider efter søgning i Mediestream

AUTOMATISK KONTROL HOS NINESTARS

Den automatiske kontrol kører ikke bare på Statsbiblioteket. Hele programmet til fuldautomatiske kontroller er nemlig pakket sammen, så det kan køres hos Ninestars inden aflevering. Det giver den fordel, at eventuelle fejl kan rettes, allerede inden filerne overføres, til fordel for både Ninestars og Statsbiblioteket.

ANDRE ERFARINGER

Selv for et it-system kan 30.000 sider om dagen være lidt af en mundfuld, og der skal ikke mange dages nedetid til, før det er en temmelig stor pukkel af filer, der skal indhentes. For at imødegå problemerne har vi taget flere metoder i brug for at holde hastigheden. Således kan vi arbejde på flere afleveringer samtidig, og der arbejdes også på flere sider af gangen i hvert check. Til de lidt mere krævende opgaver, som fx involverer arbejde på billedfilerne, har vi desuden taget et masseprocesserings-cluster i brug, baseret på Hadoop som er de facto standard for at arbejde på store datamængder. I alt kan vi holde cirka dobbelt hastighed af det krævede, som er nok til at indhente eventuelle pukler – så længe vi ikke har fejl, som det tager for lang tid om at løse.

HVEM ER VI?

Systemet er udviklet af Statsbibliotekets it-afdeling for digital bevaring. Vi svarer gerne på spørgsmål og deler erfaringer, hvis I er interesserede i at vide mere. Skriv en kommentar på bloggen hvis du vil vide mere eller kontakt Kåre Fiedler Christiansen kfc@statsbiblioteket.dk, forfatteren på dette indlæg.

 

Read Full Post »

%d bloggers like this: