Feeds:
Indlæg
Kommentarer

Archive for the ‘studieture’ Category

DelegationenIndien

Søndag 2. februar 2014 sendte vi fire kolleger af sted til Indien for at besøge Ninestars’ kontorer i Chennai og Bangalore.

De sender os løbende videoer fra deres tur. Videoerne er nok lidt dogmeagtige og dermed ikke så polerede i deres udtryk, men vi synes alligevel, at de er et kig værd.

Vi lægger hver dag nye videoer på denne side.

Videodagbog

Hver dag modtager vi en kort update fra gruppen med indtryk fra dagen før samt forventninger til den kommende dag.

Mandag 3. februar 2014 – Forventninger til turen 

Tirsdag 4. februar 2014 – Ankommet til Indien og på vej til Bangalore

Onsdag 5. februar 2014 – Interview med formand og grundlægger af Ninestars Gopal Krishnan

Torsdag 6. februar 2014 – Opsamling på turen

Postkort fra Indien

Samtidig sender delegationen også nogle mere postkort-agtige videoer fra deres oplevelser. Sammen med videodagbogen giver de et godt indtryk af oplevelserne i Indien.

Dag 1 – mandag 3. februar 2014 – Transport til Indien

Dag 2 – tirsdag 4. februar 2014 – Møder og fremvisning af workflow

Dag 4 – torsdag 6. februar 2014 – Møde i Ninestars’ hovedkvarter i Bangalore

Vi lægger flere videoer og postkort ud de næste par dage. Følg også vores kolleger på Twitter @avisdigital for indtryk fra deres tur.

Read Full Post »

Elefanter1

Søndag 2. februar 2014 drager en mindre delegation fra Statsbiblioteket i Danmark til Chennai i Indien for at besøge Ninestars’ hovedkontor. Vi sender dygtige folk med viden, erfaringer og kompetencer inden for projektledelse, it-systemarkitektur, forhandlinger og aftaler samt vores samlinger af aviser og mikrofilm. 

Formålet er at lære mere om de arbejdsprocesser, der finder sted i Indien, herunder OCR-scanning og segmentering af aviserne, samt diskutere de spørgsmål der er opstået vedrørende de opgaver, der bliver løst i Chennai. Turen går også til Bangalore, hvor Ninestars’ udviklingsafdeling holder til.

Holdet har lovet at sende os både postkort og video, så det vil komme til at præge bloggen i perioden 2.-8. februar. Samtidig vil de tweete på avisdigitaliserings Twitter-profil. Hvis du har lyst til at følge deres færden, kan du fange dem på @avisdigital.

Delegationen er tilbage på dansk grund igen lørdag 8. februar 2014.

Read Full Post »

11. – 12. november 2013 var en delegation på seks personer fra Statsbiblioteket på besøg hos Ninestars’ afdeling Newbase i Hamborg, Tyskland. Formålet med turen var at afklare eventuelle tvivlsspørgsmål, der måtte være opstået i pilotprojektet samt se scanningsudstyret og lokalerne. Udover besøget i Hamborg har vi desuden planlagt at besøge Ninestars’ faciliteter i Chennai, Indien, i løbet af februar 2014.

De to dage blev indledt med en lille seance, hvor scanneren og lokalet blev indviet på fineste vis. Meget passende var det sektionsleder for Statens Avissamling, Martin Lund, der fik æren af at trykke på startknappen og officielt indvie scanneren. Indtil videre er der indkøbt en Mekel Mach V scanner, men planen er, at der skal opstilles i alt tre scannere.

Alle mikrofilmene bliver scannet i Hamborg af et team bestående af både indere og tyskere, mens efterbehandling og berigelse med metadata bliver gennemført af et større team i Indien. Under hele forløbet bliver filerne liggende på serverne i Hamborg, og det er først, når de leveres til os, at de forlader Tyskland.

SB Avisdigitaliserings projektgruppe i Hamburg hos Nine Starts november 2013.

Efter indvielsen blev der brugt tid på at tage et nærmere kig på de forskellige mikrofilm, der er udvalgt til pilotprojektet. Det viste sig, at der var enkelte problemer med nogle af filmene – bl.a. var indløbet på nogle af dem ikke langt nok, og det blev derfor aftalt, hvordan der tilføjes ekstra film. Vi fik desuden en aftale om, at Ninestars registrerer relevante data om filmenes tilstand, fx slør, kemipletter og lignende. Det er informationer, som vi bl.a. kan bruge, når vi laver vores manuelle kvalitetscheck af filerne. Endelig sørger Ninestars også for at måle og notere densiteten i begyndelsen og slutningen af filmene. Densiteten angiver kontrasten mellem billedet og baggrunden, og den måles dels på den klare film og dels på den sorteste del. Tallene udgør et af flere parametre, der beskriver filmens kvalitet.

Udover scanneren fik vi også fornøjelsen af at se de fire store aluminiumsbokse, der skal benyttes til transport af filmene frem og tilbage mellem Aarhus og Hamborg, og som Ninestars har fået specialfremstillet i forbindelse med digitaliseringen af vores mikrofilm. Og når vi nu er i gang med at nævne hardware, var vi rigtig glade for at se, at de to servere, der skal indeholde vores filer, var stillet pænt op og navngivet Aarhus-1 og Aarhus-2. Af en eller anden grund var især det sidste med til, at vi nu tænker: ”Den er god nok. Nu sker det virkelig”.

Efter besøget er der hos os ingen tvivl om, at holdet i Hamborg vil lægge alle kræfter i, for at projektet bliver en succes. Og det er i bund og grund en fantastisk følelse.

ScannerServer

Read Full Post »

Det sidste af tre studiebesøg i Projekt Avisdigitaliserings analysefase havde Sverige som sin destination. Nærmere bestemt besøgte to medarbejdere fra Statens Avissamling som  repræsentanter for Projekt Avisdigitalisering 22. marts 2012 det svenske avisdigitaliseringsprojekt Digidaily. Besøget fandt sted på Riksarkivets digitaliseringscenter, MKC (Media Konverterings Centrum) i Fränsta. Kungliga Biblioteket har ansvaret for den svenske avissamling og er projektledere, mens MKC udfører selve opgaven med at digitalisere aviserne.

Baggrund og rammer
Projektets formål er at udvikle rationelle metoder og processer for digitalisering og teksttolkning af aviser, som gør det muligt at fortsætte massedigitalisering efter projektets afslutning. Riksarkivet, Kungliga Biblioteket og Mittuniversitetet er partnere i projektet, som løber fra marts 2010 til marts 2013. Det finansieres af Riksarkivet, Kungliga Biblioteket, Länsstyrelsen i Västernorrland, Schibsted Sverige og EU’s strukturfond. Projektet har et budget på ca. SEK 34 mio., heraf kommer 16 mio. fra EU. I løbet af de tre år digitaliseres 4,3 mio. sider fra Svenska Dagbladet og Aftenposten. Samtidig søges der om midler til fortsættelse af arbejdet, når projektperioden udløber.

Digitalisering af aviser
Det svenske digitaliseringsprojekt adskiller sig fra vores projekt på et vigtigt område – svenskerne digitaliserer nemlig papirudgaverne af aviserne, mens vi har valgt at digitalisere ud fra mikrofilm. Det betyder, at en lang række arbejdsprocesser ikke er helt de samme, men alligevel var der erfaringer at høste i forbindelse med besøget. De lå bare inden for lidt andre områder – som f.eks. metadata, OCR-genkendelse, valg af filformat og optimering af processer.

Svenska Dagbladet er en af de aviser, der digitaliseres. Et bind forberedes til skanning.

Illustration af digitaliseringsprocesser
Klargøringen af aviserne/materialet er anderledes end den vi skal forberede os på. Netop fordi det er to forskellige materialetyper der skal digitaliseres ud fra. I Sverige starter processen med, at aviserne først gennemgås i Bålsta, hvor Kungliga Bibliotekets avissamling er placeret. Ved mangler eller meget dårligt bevarede aviser erstattes de med andre eksemplarer. Under gennemgangen registreres aviserne i en database kaldet “Signe”, hvor oplysninger om dato, nr., udgave, tillæg, bevaringstilstand m.m. inddateres.

Aviserne køres derefter til MKC, Fränsta ved Sundsvall. Her bliver de gennemgået igen, og metadata rettes eller tilføjes, hvorefter de bliver gjort klar til skanning. Aviserne skilles ad i enkeltsider, skæres til mm. Samtidig beslutter operatøren, hvilken skannertype der skal anvendes. Valget afhænger af avisens størrelse, tilstand og papirtype.

Selve skanningsarbejdet kører i toholdsskift, og der produceres op til 40.000 sider pr. uge. Som standard er der valgt en opløsning i 300 dpi farve. En anden opløsning kan vælges, afhængigt af om der kan opnås en højere OCR-tegngenkendelsesprocent ved at ændre valget. Alle billeder kontrolleres manuelt p.t., men dette skal senere erstattes af maskinel kontrol.

Format, OCR og opslagslister
Svenskerne laver tre filer:
a) masterfil for konvertering til JPEG2000 (visually lossless komprimering)
b) alm. JPEG til OCR
c) lavopløst JPEG til manuel kontrol.

Der laves desuden OCR og segmentering på artikelniveau i en automatisk proces, og ordlister med tidstypisk sprog og navnelister benyttes for at forbedre OCR-kvaliteten.

Efter OCR og segmenteringsprocessen laves en pakke med filer (SIP – Submission Information Package) for hver avisudgave. Pakken indeholder en fil med beskrivende, administrative og strukturelle metadata (METS), en fil med tekniske metadata (ALTO fil), en performance file samt en arkivfil (JPEG2000).

Metadata
Med hensyn til metadata benyttes standarden METS  og følgende oplysninger om de enkelte numre registreres i en database: Dato, nummer, antal sider, bevaringstilstand, udgaver, mangler og tillæg. Registrering sker to steder – dels i avissamlingen i Bålsta, og dels i Fränsta. Disse data er tilgængelige hele vejen igennem produktionsstøtte-systemet.

Det kan undre, at den samme avis håndteres flere gange, men svenskerne har erfaret, at det var den mest rationelle måde at registrere metadata på, samtidig med at den ønskede kvalitet sikres. Fokus har været på at lave en arbejdsdeling, hvor metadata tilføjes, hvor det er lettest, og det har altså betydet, at den enkelte avis håndteres to gange. Interessant da man ellers umiddelbart skulle tro, at det var lettest at notere alt i en arbejdsgang.

Tabloidformat skannes fire sider i en arbejdsgang.

Automatisering af processer
I Digidaily arbejder man målrettet på at effektivisere processer for at minimere udgifterne til digitalisering og håndtering af hver side mest muligt. Som en del af dette arbejde registreres og opdateres tidsforbruget hver uge på alle arbejdsoperationer, som aviserne går igennem.  Produktionen på hver enkelt skanner følges og registreres, alt sammen for at man kan sætte ind og justere, hvor det har størst virkning.

Dette fokus og de tilhørende tiltag har bl.a. betydet, at prisen per side er faldet fra ca. SEK 9 til SEK 6,50 SEK. Der kan altså vise sig at være mange penge værd, hvis man sørger for at optimere de forskellige arbejdsprocesser. I sidste ende betyder optimering af processerne trods alt, at pengene rækker længere, og at flere avissider bliver digitaliseret.

Formidling online
Digidaily har endnu ikke valgt, hvordan de digitaliserede aviser skal vises, men regner med at købe et system, der er mere eller mindre færdigudviklet. Med hensyn til tilgængeliggørelse af de digitaliserede aviser i Projekt Avisdigitalisering har vi bl.a. valgt at udvikle en online løsning, der giver alle brugere fri adgang til aviser uden ophavsretslige begrænsninger. Hvordan adgangen bliver for aviser med ophavsretslige restriktioner, er endnu uafklaret. Men vi arbejder på sagen.

Read Full Post »

En lille del af Det Kongelige Biblioteks bygning midt i Haag

“Koninklijke Bibliotheek” midt i Haag

Vi befinder os p.t. i analysefasen af Projekt Avisdigitalisering, og vi forsøger at forberede os så godt som muligt på digitaliseringsprocessen. Som en del af det arbejde besøgte en mindre del af projektets arbejdsgruppe Det Kongelige Bibliotek i Holland – Koninklijke Bibliotheek 6. marts 2012. Det var det andet af tre planlagte studiebesøg, og håbet var at høste en god portion af hollændernes erfaringer med digitaliserings-/ og kvalitetssikringsprocesserne i deres avisdigitaliseringsprojekt.

Digitalisering i Holland

Som udgangspunkt digitaliserer Koninklijke Bibliotheek for at bevare kulturarvsmateriale, men også for at give brugerne adgang til samlingerne. Hovedfokus er på digitalisering af tekst – især i form af historiske tekster. De prøver i videst muligt omfang at lave aftaler med copyrightholderne, der sikrer det bedst mulige grundlag for tilgængeliggørelse og formidling af de digitale samlinger. Deres primære målgruppe for de digitale aviser er forskere, mens den sekundære målgruppe er slægtsforskere.

Hollænderne arbejder i høj grad med massedigitalisering – målet er, at alt er digitaliseret inden 2030. Interessant nok ligner deres strategi Statsbibliotekets vision, der lyder, at ”Statsbiblioteket stiller alt indhold til rådighed online 2020”.

Digitale aviser

Mht. det hollandske avisdigitaliseringsprojekt så digitaliseres 1/3 af aviserne ud fra eksisterende mikrofilm. Digitalisering af mikrofilmene står biblioteket selv for, mens resten skannes fra originalaviser af en ekstern leverandør. P.t. er fem millioner avissider tilgængelige på Historische Kranten. Målet er, at ni millioner sider ligger online i november 2012.

Regelmæssigt skannes en referencefilm for at dokumentere skannerens korrekte indstilling

Regelmæssigt skannes en referencefilm for at dokumentere skannerens korrekte indstilling

Digital bevaring og formater

Koninklijke Bibliotheek er meget bevidste om deres ansvar som bevaringsinstitution. Det er deres opgave at sikre den permanente adgang til aviserne. Det handler med andre ord om mere end formidling her og nu i forhold til den nyeste og smarteste teknologi. Bevaringsansvaret skal ses i forhold til kommende generationer og deres adgang til vigtigt kulturhistorisk materiale.

Hollænderne har valgt JPEG2000 som bevaringsformat pga. af størrelsen. Som formidlingsfil benytter de en pdf-fil i en lavere kvalitet. På sigt er det dog meningen, at den samme JPEG2000 fil skal bruges til både bevaring og formidling. Filerne bliver OCR-skannet og fuldtekstindekseret. De accepterer en genkendelsesgrad, der ligger på 50-100 % – alle filer er tilgængelige på hjemmesiden, uanset hvor god genkendelsesgraden er. Faktisk har hollænderne opgivet at forlange en en bestemt ocr-kvalitet. De har også opgivet at lave detaljerede stikprøver på den ocr-tekst, de modtager fra leverandøren. Det skyldes bl.a., at en kontrol vil være særdeles tidskrævende, og desuden vil en leverandør sjældent kunne ændre på den leverede kvalitet. En vigtig erfaring som vi har noteret os. Vi håber nemlig også på at kunne udføre OCR-skanning på vores avisfiler, men vi har endnu ikke besluttet, hvilken genkendelsesgrad vi vil acceptere.

OCR og crowdsourcing

Hollænderne har oplevet, at brugerne stiller meget høje krav til OCR-kvaliteten. Desværre  er der dog ikke mulighed for at forbedre kvaliteten af skanningen. Erfaringer viser, at mange af de hollandske aviser fra før 1850 er OCR-skannet så ringe, at materialet ikke kan bruges i forskning. Udviklingen indenfor sprogteknologi går dog så hurtig, at samlingen på sigt vil kunne drage fordel af den, hvis man sørger for at udvikle de nødvendige værktøjer til implementation på deres avisportal. Om det så lykkes for hollænderne at gennemføre en ny og forbedret ocr-skanning, er et andet spørgsmål. Et interessant aspekt er dog, at hollænderne overvejer at introducere crowdsourcing for at forbedre OCR-kvaliteten af udvalgte dele af samlingen. Et spændende aspekt som vi også bør overveje i arbejdet med de danske aviser.

Skanneroperatøren kontrollerer billedfilerne løbende mens Sunrise-skanneren kører

Skanneroperatøren kontrollerer billedfilerne løbende mens Sunrise-skanneren kører

Input til tilgængeliggørelse

Hollænderne har digitaliseret aviser frem til 1995. Samtidig er der indgået en aftale med forskellige copyrightorganisationer samt den hollandske presseorganisation. I den forbindelse er der afsat et beløb til freelance journalister, der kan tænkes at ville gøre krav i forhold til ophavsretten. Dermed er de i stand til at formidle 105 avistitler udgivet i perioden 1618-1995. Uden det afsatte beløb og aftalerne ville skæringsdatoen ellers have været ca. 1870.

En anden interessant ting er, at hollænderne har valgt at benytte en ”Scientific Advisory Committee” bestående af prominente historikere, sprogforskere, journalister og repræsentanter fra andre potentielle brugergrupper til at udvælge, hvilke titler der skal digitaliseres. Ca. 1.300 titler bestående af nationale, regionale og lokale aviser samt aviser fra tidligere kolonilande er med på en favoritliste. I Statens Avissamling har vi haft travlt med at tælle og lave præcise opgørelser over de titler, vi ligger inde med, men vi har endnu ikke lagt os fast på, hvilke af titlerne der skal digitaliseres. Ej heller i hvilken rækkefølge de skal igennem digitaliseringsmaskinen. Dokumentet ”Registrant over aviser i Statens Avissamling” er en fuldstændig liste over alle avistitlerne, og den giver dermed et bud på de titler, der kan komme på tale.

Tanken om at involvere den danske befolkning i processen med at udvælge titler til digitalisering er fascinerende. Gad vide hvilke titler der ville springe danskerne mest i øjnene?

Hollænderne cykler meget og det ses i gadebilledet, her parkeringspladsen ved banegården i Haag. Det Kongelige Bibliotek ligger centralt lige ved siden af

Hollænderne cykler meget og det ses i gadebilledet, her parkeringspladsen ved hovedbanegården i Haag

 

Read Full Post »

Older Posts »

%d bloggers like this: