Det sidste af tre studiebesøg i Projekt Avisdigitaliserings analysefase havde Sverige som sin destination. Nærmere bestemt besøgte to medarbejdere fra Statens Avissamling som repræsentanter for Projekt Avisdigitalisering 22. marts 2012 det svenske avisdigitaliseringsprojekt Digidaily. Besøget fandt sted på Riksarkivets digitaliseringscenter, MKC (Media Konverterings Centrum) i Fränsta. Kungliga Biblioteket har ansvaret for den svenske avissamling og er projektledere, mens MKC udfører selve opgaven med at digitalisere aviserne.
Baggrund og rammer
Projektets formål er at udvikle rationelle metoder og processer for digitalisering og teksttolkning af aviser, som gør det muligt at fortsætte massedigitalisering efter projektets afslutning. Riksarkivet, Kungliga Biblioteket og Mittuniversitetet er partnere i projektet, som løber fra marts 2010 til marts 2013. Det finansieres af Riksarkivet, Kungliga Biblioteket, Länsstyrelsen i Västernorrland, Schibsted Sverige og EU’s strukturfond. Projektet har et budget på ca. SEK 34 mio., heraf kommer 16 mio. fra EU. I løbet af de tre år digitaliseres 4,3 mio. sider fra Svenska Dagbladet og Aftenposten. Samtidig søges der om midler til fortsættelse af arbejdet, når projektperioden udløber.
Digitalisering af aviser
Det svenske digitaliseringsprojekt adskiller sig fra vores projekt på et vigtigt område – svenskerne digitaliserer nemlig papirudgaverne af aviserne, mens vi har valgt at digitalisere ud fra mikrofilm. Det betyder, at en lang række arbejdsprocesser ikke er helt de samme, men alligevel var der erfaringer at høste i forbindelse med besøget. De lå bare inden for lidt andre områder – som f.eks. metadata, OCR-genkendelse, valg af filformat og optimering af processer.

Svenska Dagbladet er en af de aviser, der digitaliseres. Et bind forberedes til skanning.
Illustration af digitaliseringsprocesser
Klargøringen af aviserne/materialet er anderledes end den vi skal forberede os på. Netop fordi det er to forskellige materialetyper der skal digitaliseres ud fra. I Sverige starter processen med, at aviserne først gennemgås i Bålsta, hvor Kungliga Bibliotekets avissamling er placeret. Ved mangler eller meget dårligt bevarede aviser erstattes de med andre eksemplarer. Under gennemgangen registreres aviserne i en database kaldet “Signe”, hvor oplysninger om dato, nr., udgave, tillæg, bevaringstilstand m.m. inddateres.
Aviserne køres derefter til MKC, Fränsta ved Sundsvall. Her bliver de gennemgået igen, og metadata rettes eller tilføjes, hvorefter de bliver gjort klar til skanning. Aviserne skilles ad i enkeltsider, skæres til mm. Samtidig beslutter operatøren, hvilken skannertype der skal anvendes. Valget afhænger af avisens størrelse, tilstand og papirtype.
Selve skanningsarbejdet kører i toholdsskift, og der produceres op til 40.000 sider pr. uge. Som standard er der valgt en opløsning i 300 dpi farve. En anden opløsning kan vælges, afhængigt af om der kan opnås en højere OCR-tegngenkendelsesprocent ved at ændre valget. Alle billeder kontrolleres manuelt p.t., men dette skal senere erstattes af maskinel kontrol.
Format, OCR og opslagslister
Svenskerne laver tre filer:
a) masterfil for konvertering til JPEG2000 (visually lossless komprimering)
b) alm. JPEG til OCR
c) lavopløst JPEG til manuel kontrol.
Der laves desuden OCR og segmentering på artikelniveau i en automatisk proces, og ordlister med tidstypisk sprog og navnelister benyttes for at forbedre OCR-kvaliteten.
Efter OCR og segmenteringsprocessen laves en pakke med filer (SIP – Submission Information Package) for hver avisudgave. Pakken indeholder en fil med beskrivende, administrative og strukturelle metadata (METS), en fil med tekniske metadata (ALTO fil), en performance file samt en arkivfil (JPEG2000).
Metadata
Med hensyn til metadata benyttes standarden METS og følgende oplysninger om de enkelte numre registreres i en database: Dato, nummer, antal sider, bevaringstilstand, udgaver, mangler og tillæg. Registrering sker to steder – dels i avissamlingen i Bålsta, og dels i Fränsta. Disse data er tilgængelige hele vejen igennem produktionsstøtte-systemet.
Det kan undre, at den samme avis håndteres flere gange, men svenskerne har erfaret, at det var den mest rationelle måde at registrere metadata på, samtidig med at den ønskede kvalitet sikres. Fokus har været på at lave en arbejdsdeling, hvor metadata tilføjes, hvor det er lettest, og det har altså betydet, at den enkelte avis håndteres to gange. Interessant da man ellers umiddelbart skulle tro, at det var lettest at notere alt i en arbejdsgang.

Tabloidformat skannes fire sider i en arbejdsgang.
Automatisering af processer
I Digidaily arbejder man målrettet på at effektivisere processer for at minimere udgifterne til digitalisering og håndtering af hver side mest muligt. Som en del af dette arbejde registreres og opdateres tidsforbruget hver uge på alle arbejdsoperationer, som aviserne går igennem. Produktionen på hver enkelt skanner følges og registreres, alt sammen for at man kan sætte ind og justere, hvor det har størst virkning.
Dette fokus og de tilhørende tiltag har bl.a. betydet, at prisen per side er faldet fra ca. SEK 9 til SEK 6,50 SEK. Der kan altså vise sig at være mange penge værd, hvis man sørger for at optimere de forskellige arbejdsprocesser. I sidste ende betyder optimering af processerne trods alt, at pengene rækker længere, og at flere avissider bliver digitaliseret.
Formidling online
Digidaily har endnu ikke valgt, hvordan de digitaliserede aviser skal vises, men regner med at købe et system, der er mere eller mindre færdigudviklet. Med hensyn til tilgængeliggørelse af de digitaliserede aviser i Projekt Avisdigitalisering har vi bl.a. valgt at udvikle en online løsning, der giver alle brugere fri adgang til aviser uden ophavsretslige begrænsninger. Hvordan adgangen bliver for aviser med ophavsretslige restriktioner, er endnu uafklaret. Men vi arbejder på sagen.
Synes godt om dette:
Like Henter...
Read Full Post »