Feeds:
Indlæg
Kommentarer

Posts Tagged ‘Sverige’

Svenske aviser

Kungliga Bibliotek i Sverige tilbyder nu adgang til betaudgaven af deres indgang til de digitaliserede svenske aviser. Søgefladen kan afprøves, og man kan indsende sin feedback til biblioteket.

Den svenske søgeflade ligner på nogle områder den indgang, Mediestream Aviser, som vi satser på at udvikle til de digitaliserede danske aviser i løbet af efteråret 2014. Især det store søgefelt, der giver mulighed for fritekstsøgning på kryds og tværs i alle aviserne, ser genkendeligt ud, men også den tydelige markering af den del af avissiden, hvor søgeordet/-frasen optræder, er med i de planer, som vi har for indgangen til de danske aviser.

Se illustration nedenfor som viser søgefeltet i Mediestream Aviser.

Mediestream Aviser Header

I den svenske indgang optræder der på søgeresultatsiden en feature, der grafisk viser fordelingen af søgeresultaterne i den valgte tidsperiode. Vores udgave af den samme funktion har ikke et grafisk udtryk, men funktionen findes alligevel i vores grænseflade. Den svenske måde at præsentere strømmen af søgeresultater på er også anderledes end vores, men begge grænseflader har de basale oplysninger med i den første præsentation af det enkelte søgeresultat.

Oplysninger som titel og dato på de fundne aviser, har begge biblioteker vurderet, var vigtige at få præsenteret for brugeren hurtigst muligt. Men udover det er der meget stor forskel på præsentationen af søgeresultaterne – Mediestream Aviser præsenterer resultaterne på en helt anden måde, end det sker i den svenske model, hvor den enkelte avisside præsenteres for brugeren som et søgeresultat. I Mediestream Aviser bliver de relevante resultater fra den enkelte avis samlet i ét søgeresultat, hvorefter man kan klikke sig frem til de enkelte artikler, annoncer etc. i den pågældende avis. Se illustration nedenfor.

Mediestream Aviser Søgeresultat

Selve avislæseren i den svenske grænseflade, i.e. den funktion, der åbner og forstører avissiden, er funktionsmæssigt meget forskellig fra den, som vi har planlagt at udvikle. I vores udgave har vi bl.a. inkluderet funktioner, der gør det muligt at bladre frem og tilbage i den valgte avis samt henholdsvis forstørre/formindske siden. Det er funktioner, som i øjeblikket ikke er med den svenske avislæser.

Den største forskel på de to indgange ligger dog i de oplysninger, som vi har planer om at give vores brugere om den samling af aviser, som de søger i. I Mediestream Aviser vil brugerne kunne se en oversigt over alle de digitaliserede aviser, se præcist hvilke datoer der er digitaliseret og dermed også er søgbare, samt finde flere oplysninger om den enkelte avistitel. Til sidstnævnte type oplysning hører fx avisens titelhistorik, i.e. hvad hed avisen tidligere, hvad hed den på et senere tidspunkt, og i hvilken periode udkom den under de forskellige titler. Håbet er, at oplysningerne vil hjælpe brugerne i deres navigation i samlingen, samt afstemme deres forventninger til indgangen med hvad vi reelt kan stille til rådighed.

Alt i alt er antallet af forskelle større end antallet af ligheder de to indgangen imellem, men samtidig er det værd at huske på, at den svenske indgang lige nu optræder i en beta-version. Hvem ved? Måske kommer der til at ske flere ændringer, førend Kungliga Biblioteket – Sveriges nationalbibliotek  lancerer den endelige udgave i løbet af efteråret 2014…

Læs mere om udviklingsarbejdet i Sverige  og om udviklingsprojektet ’Digidaily – Digitalisering av svensk dagspress’  som gik forud for indgangen til aviserne. Projektet har også en blog tilknyttet.

Read Full Post »

Det sidste af tre studiebesøg i Projekt Avisdigitaliserings analysefase havde Sverige som sin destination. Nærmere bestemt besøgte to medarbejdere fra Statens Avissamling som  repræsentanter for Projekt Avisdigitalisering 22. marts 2012 det svenske avisdigitaliseringsprojekt Digidaily. Besøget fandt sted på Riksarkivets digitaliseringscenter, MKC (Media Konverterings Centrum) i Fränsta. Kungliga Biblioteket har ansvaret for den svenske avissamling og er projektledere, mens MKC udfører selve opgaven med at digitalisere aviserne.

Baggrund og rammer
Projektets formål er at udvikle rationelle metoder og processer for digitalisering og teksttolkning af aviser, som gør det muligt at fortsætte massedigitalisering efter projektets afslutning. Riksarkivet, Kungliga Biblioteket og Mittuniversitetet er partnere i projektet, som løber fra marts 2010 til marts 2013. Det finansieres af Riksarkivet, Kungliga Biblioteket, Länsstyrelsen i Västernorrland, Schibsted Sverige og EU’s strukturfond. Projektet har et budget på ca. SEK 34 mio., heraf kommer 16 mio. fra EU. I løbet af de tre år digitaliseres 4,3 mio. sider fra Svenska Dagbladet og Aftenposten. Samtidig søges der om midler til fortsættelse af arbejdet, når projektperioden udløber.

Digitalisering af aviser
Det svenske digitaliseringsprojekt adskiller sig fra vores projekt på et vigtigt område – svenskerne digitaliserer nemlig papirudgaverne af aviserne, mens vi har valgt at digitalisere ud fra mikrofilm. Det betyder, at en lang række arbejdsprocesser ikke er helt de samme, men alligevel var der erfaringer at høste i forbindelse med besøget. De lå bare inden for lidt andre områder – som f.eks. metadata, OCR-genkendelse, valg af filformat og optimering af processer.

Svenska Dagbladet er en af de aviser, der digitaliseres. Et bind forberedes til skanning.

Illustration af digitaliseringsprocesser
Klargøringen af aviserne/materialet er anderledes end den vi skal forberede os på. Netop fordi det er to forskellige materialetyper der skal digitaliseres ud fra. I Sverige starter processen med, at aviserne først gennemgås i Bålsta, hvor Kungliga Bibliotekets avissamling er placeret. Ved mangler eller meget dårligt bevarede aviser erstattes de med andre eksemplarer. Under gennemgangen registreres aviserne i en database kaldet “Signe”, hvor oplysninger om dato, nr., udgave, tillæg, bevaringstilstand m.m. inddateres.

Aviserne køres derefter til MKC, Fränsta ved Sundsvall. Her bliver de gennemgået igen, og metadata rettes eller tilføjes, hvorefter de bliver gjort klar til skanning. Aviserne skilles ad i enkeltsider, skæres til mm. Samtidig beslutter operatøren, hvilken skannertype der skal anvendes. Valget afhænger af avisens størrelse, tilstand og papirtype.

Selve skanningsarbejdet kører i toholdsskift, og der produceres op til 40.000 sider pr. uge. Som standard er der valgt en opløsning i 300 dpi farve. En anden opløsning kan vælges, afhængigt af om der kan opnås en højere OCR-tegngenkendelsesprocent ved at ændre valget. Alle billeder kontrolleres manuelt p.t., men dette skal senere erstattes af maskinel kontrol.

Format, OCR og opslagslister
Svenskerne laver tre filer:
a) masterfil for konvertering til JPEG2000 (visually lossless komprimering)
b) alm. JPEG til OCR
c) lavopløst JPEG til manuel kontrol.

Der laves desuden OCR og segmentering på artikelniveau i en automatisk proces, og ordlister med tidstypisk sprog og navnelister benyttes for at forbedre OCR-kvaliteten.

Efter OCR og segmenteringsprocessen laves en pakke med filer (SIP – Submission Information Package) for hver avisudgave. Pakken indeholder en fil med beskrivende, administrative og strukturelle metadata (METS), en fil med tekniske metadata (ALTO fil), en performance file samt en arkivfil (JPEG2000).

Metadata
Med hensyn til metadata benyttes standarden METS  og følgende oplysninger om de enkelte numre registreres i en database: Dato, nummer, antal sider, bevaringstilstand, udgaver, mangler og tillæg. Registrering sker to steder – dels i avissamlingen i Bålsta, og dels i Fränsta. Disse data er tilgængelige hele vejen igennem produktionsstøtte-systemet.

Det kan undre, at den samme avis håndteres flere gange, men svenskerne har erfaret, at det var den mest rationelle måde at registrere metadata på, samtidig med at den ønskede kvalitet sikres. Fokus har været på at lave en arbejdsdeling, hvor metadata tilføjes, hvor det er lettest, og det har altså betydet, at den enkelte avis håndteres to gange. Interessant da man ellers umiddelbart skulle tro, at det var lettest at notere alt i en arbejdsgang.

Tabloidformat skannes fire sider i en arbejdsgang.

Automatisering af processer
I Digidaily arbejder man målrettet på at effektivisere processer for at minimere udgifterne til digitalisering og håndtering af hver side mest muligt. Som en del af dette arbejde registreres og opdateres tidsforbruget hver uge på alle arbejdsoperationer, som aviserne går igennem.  Produktionen på hver enkelt skanner følges og registreres, alt sammen for at man kan sætte ind og justere, hvor det har størst virkning.

Dette fokus og de tilhørende tiltag har bl.a. betydet, at prisen per side er faldet fra ca. SEK 9 til SEK 6,50 SEK. Der kan altså vise sig at være mange penge værd, hvis man sørger for at optimere de forskellige arbejdsprocesser. I sidste ende betyder optimering af processerne trods alt, at pengene rækker længere, og at flere avissider bliver digitaliseret.

Formidling online
Digidaily har endnu ikke valgt, hvordan de digitaliserede aviser skal vises, men regner med at købe et system, der er mere eller mindre færdigudviklet. Med hensyn til tilgængeliggørelse af de digitaliserede aviser i Projekt Avisdigitalisering har vi bl.a. valgt at udvikle en online løsning, der giver alle brugere fri adgang til aviser uden ophavsretslige begrænsninger. Hvordan adgangen bliver for aviser med ophavsretslige restriktioner, er endnu uafklaret. Men vi arbejder på sagen.

Read Full Post »

%d bloggers like this: