Feeds:
Indlæg
Kommentarer

Posts Tagged ‘inspiration’

DENGANG_1_980X360

Vi har begået en avis. En avis der handler om vores arbejde med at digitalisere de mange millioner avissider fra Statens Avissamling, visionerne bag projektet og om brugernes nye muligheder.

Highlights fra det første nummer:

  • Online adgang til millioner af historiske avissider
  • Nu er avisen fremtidssikret
  • Desperate kvinders historie
  • Fra papir til online adgang
  • På detektivjagt i fortiden
  • Nedslidt pakhus banede vejen for avisdigitalisering
  • Digitalisering – hvorfor?
  • Aviser genskaber begivenhederne
  • 12.000 kilometer avissider digitaliseres 2014-2016

Det første nummer af DenGANG – Digitalisering af aviser fra 350 år kan læses her. Avisen findes også i en trykt udgave, som vi bl.a. uddeler på Statsbiblioteket og i Bibzonen – bibliotekernes telt på Folkemøde 2014 på Bornholm, til samarbejdspartnere samt interesserede arkiver og biblioteker.

Forløber alt efter planen udkommer der yderligere fem numre i løbet af de kommende år.

Read Full Post »

BNA2

Statsbiblioteket er ikke de eneste, der digitaliserer aviser og stiller dem til rådighed for omverdenen. Et af de projekter, som vi har skelet allermest til i forbindelse med vores projekt, er The British Newspaper Archive,  som er baseret på et samarbejde mellem The British Library og findmypast. I samarbejde vil de digitalisere op imod 40 millioner avissider i løbet af de næste ti år.

The British Newspaper Archive har netop lanceret en ny udgave af deres brugergrænseflade og for at være helt ærlige, så er vi ret vilde med nogle af de nye muligheder, som siden indeholder. De har beholdt den store fritekstsøgning, der giver brugeren mulighed for at søge på kryds og tværs i alle siderne, men derudover kan man allerede på forsiden vælge en avistitel, eller den region man er interesseret i at finde aviser fra. Man kan se, hvor mange sider arkivet indeholder, få en samlet oversigt over alle de digitaliserede titler samt se en grafisk fordeling af siderne baseret på år. Oveni i alt dette inviterer de også brugerne til at foreslå nye titler til digitalisering samt forbedringer af søgemulighederne og hjemmesiden i det hele taget.

Samlet indtryk? 9 ud af 10 stjerner. Den sidste stjerne mangler, fordi man fortsat skal betale for at kunne få adgang til at læse i aviserne. Og selvom de tilbyder forskellige abonnementer, ja, så er det en skam, at ikke bare en lille del af aviserne er frit tilgængelig for alle.

Uagtet den lille smule malurt i bægeret er siden klart et besøg værd, så tag endelig forbi den og fortæl os gerne om jeres indtryk bagefter.

Read Full Post »

GoogleNewspapers

Imens vi venter på at kunne præsentere vores egen indgang til de digitaliserede aviser på Mediestream, er det værd at slå et slag forbi Google Newspapers, som netop er blevet redesignet.

Det er fortsat muligt at lave fritekstsøgninger i hele Googles arkiv af historiske aviser, men nu er det også muligt at udvælge en bestemt avistitel og fx koncentrere sig om udgivelserne fra en bestemt periode. Samtidig afslører Google også for hver avistitel, hvilken periode den dækker, samt hvor mange numre der findes i arkivet.

En ting, der dog kunne forbedre en allerede god brugeroplevelse, var muligheden for at kunne vælge aviser fra et bestemt land. Googles liste over digitaliserede aviser kan nemt blive uendelig lang, når de har hele verden som dækningsområde, men mon ikke funktionen kommer med i næste omgang?

Read Full Post »

Før sommerferien deltog en af mine kolleger fra Avisdigitaliseringsprojektet, Frank Lund, i en workshop arrangeret af Europeana Newspapers. Han havde meget på hjerte, da han var vel hjemme igen, og en god portion af det har han samlet i det følgende indlæg.

EUROPEANA NEWSPAPERS’ WORKSHOP “REFINEMENT AND QUALITY ASSESSMENT”

Mange europæiske nationalbiblioteker er godt i gang med at digitalisere aviser. Med Europeana Newspapers to-dages workshop ”Refinement and Quality assessment” i Beograd, var det tid til at dele erfaringer opsamlet indtil nu og drøfte mulighederne for den fremtidige brug af de digitaliserede aviser.

Ground truth – en kvalitetsvurderingsmetode

I arbejdet med at digitalisere aviser er mange biblioteker kommet i det dilemma, at en grundig kvalitetssikring koster mange arbejdstimer. For selv om en automatiseret kontrol kan fange mange typer fejl – især i metadata – så er det ikke trivielt at vurdere kvaliteten af OCR og OLR.

Genkendelse af ord samt ordenes placering på siden er kendt som OCR.  Med OLR forsøger man at genkende sammenhænge ved at identificere kolonner, overskrifter, billeder, illustrationer og andre elementer. Samtidig forsøger OLR at identificere hvilke elementer, der hører sammen, og i hvilken rækkefølge de skal læses.

Hvis man opnår en god OCR og OLR, vil man kunne plukke enkelte artikler ud og præsentere disse i søgeresultater eller andre sammenhænge. Og med perfekt OCR og OLR kan man – teoretisk set – genskabe  avissiden, nøjagtigt som den så ud oprindeligt.

Udfordringerne i at efterbearbejde de digitaliserede aviser ligger som udgangspunkt i kildematerialets store variation i kvalitet og udtryk. Det gør det svært at stille objektive krav til, hvor korrekt OCR og OLR skal være udtrykt i procent.

Inden for satellitfoto bruger man ”ground truth”-princippet til kvalitetskontrol ud fra kendte fikspunkter – hvis man på sine satellitfotos kan genfinde disse fikspunkter med den rigtige placering og afstand, så har man gode satellitfotos.

På samme måde prøver nogle forskere fra University of Salford at lave et system, hvor aviskyndige meget detaljeret kan opmærke et billede af en avisside. Efterfølgende er det målet, at systemet kan sammenligne resultatet af en automatisk digitalisering med den manuelt opmærkede side. Systemets kvalitetsvurdering bliver ikke en godkendt/ikke-godkendt dom, for den perfekt opmærkede side findes ikke, da to personer, der opmærker den samme side, aldrig vil komme til samme resultat. Derfor sker kvalitetsvurderingen som en pointtildeling efter en lang række parametre. Ultimativt vil denne pointtildeling kunne bruges som automatisk feedback, så OCR- og OLR-systemerne selv kan justere på genkendelsesalgoritmerne.

Desværre er det ikke en metode, vi kan bruge til kvalitetsvurdering, da den manuelle opmærkning tager meget lang tid, og de systemer, der skal sammenligne den manuelle opmærkning med resultatet af digitaliseringen, endnu ikke er færdigudviklede.

Fraktur

En evig kilde til udfordringer findes i aviser med frakturskrift. Her kommer de fleste OCR-systemer til kort, og man får ofte et resultat, der kan placeres på en skala mellem middelmådigt og dårligt.

Ikke desto mindre er der nogle interessante aktiviteter i gang på dette område. En af udfordringerne er, at man ved OCR af en frakturtekst som udgangspunkt får resultatet udtrykt i vores dagligdags tegn. Det vil sige, at OCR-systemet ikke kun genkender frakturbogstaverne i avisen, men også oversætter bogstaverne til et moderne tegnsæt.

Fraktur indeholder eksempelvis flere tegn, som normalt bliver oversat til ”s”, hvilket ses herunder i ordet ”Klædningsstykker”.

Fraktur

”færdigtsyede Klædningsstykker, til nedsatte Priser. Flere Hundrede vatterede og uvatterede Klædes- og Dyffels-Frakker.”

Den gode diskussion er så, om man i OCR-resultatet skal gengive forskellige typer ”s” for at komme så tæt på kildematerialet som muligt, eller om man uden at miste betydningen kan oversætte frakturtegn til moderne tegn?

Medieval Unicode Font Initiative arbejder med at få frakturtegn ind i unicode-standarden. Men dette arbejde er langt fra færdigt, så lige nu giver det mest mening at omskrive de genkendte bogstaver til noget, vi alle sammen – herunder også skærmlæsere – kan læse og copy-paste.

NER – Genkendelse af navne

Named Entities Recognition (NER) er et næsten uopdyrket område, hvor kongstanken er, at det skal være muligt at genkende navne i en tekst. Det lyder simpelt og som en god idé. I Europeana Newspapers projektet er nogle af bibliotekerne gået i gang med at undersøge, hvordan vi når frem til NER.

Første forhindring i arbejdet med NER er manglen på definitioner. Der findes ikke noget klart svar på spørgsmålet ”Hvornår er noget et navn?”. Her arbejder Det Kongelige Bibliotek (Koninklijke Bibliotheek) i Holland med et projekt, hvor de har defineret tre typer af navne, som de gerne vil have genkendt: Personer, organisationer og geografiske lokationer. Men navne på dyr og mange andre navnetyper skal ikke genkendes. I det konkrete projekt er det samtidig defineret, at et navn kun kan opmærkes som én af de tre typer. Eksempelvis skal en person – ultimativt en computer – ud fra konteksten bestemme, om ”Belgrade Nikola Tesla Airport” er det geografiske sted, hvor lufthavnen findes, om det er lufthavnen som organisation, der er tale om, eller måske er det interessant, at lufthavnen er opkaldt efter Nikola Tesla, så vi opmærker ”Nikola Tesla” som et personnavn. Spørgsmålene og svarene på, hvad der er rigtigt eller forkert, er så mange, at de på det Kongelige Bibliotek har fundet ud af, at kun tre-fire personer kan arbejde med denne opmærkning – ellers bliver resultaterne for uensartede.

I Holland har de mange eksempler på, hvordan man kan bruge NER til at opdage og præsentere nye sammenhænge. De har arbejdet med NER i tekster, der er mere simple i struktur og indhold end aviserne.

Hvis NER skal udvikle sig til noget, der kan udveksles i Europeana-sammenhænge eller andre steder, mangler der en eller flere autoritative lister, så man ikke kun opmærker ”Obama” som et personnavn, men så man også ud fra konteksten kan sætte et unikt id på, der fortæller, at personen er den Obama, der er/var præsident i USA. NER vil give nogle spændende muligheder for at følge en person op gennem historien eller undersøge forskelle i omtalen af en person på tværs af lande.

Med digitaliseringen af aviserne følger talrige spørgsmål om ophavsret. Situationen bliver ikke nemmere med NER, som oveni bringer en masse uafklarede spørgsmål i relation til persondataloven. En lovgivnings-suppe, der bliver endnu mere grumset, når vi begynder at tænke på at udveksle data med andre europæiske biblioteker.

Konklusionen må være, at der er nogle spændende initiativer i gang omkring NER, men at det til produktionsformål i vores skala endnu er for tidligt at springe på vognen, medmindre vi ønsker at bidrage med en betydelig indsats til at få defineret nogle standarder.

Netværk

En af de helt store gevinster ved workshoppen var de personlige kontakter, der gav mulighed for at diskutere fremgangsmåder og erfaringer samt ikke mindst formålet med de projekter, vi hver især deltager i. Men det var også fascinerende at høre om nogle af de lidt mere nørdede projekter, der foregår rundt omkring – et projekt omkring genkendelse af matematiske håndskrifter for bare at nævne et enkelt.

Se billeder fra workshopdagene.

Read Full Post »

Et interessant emne på IFLA International Newspaper Konference 2012 var crowdsourcing.

Basalt set betyder crowdsourcing, at man får en gruppe personer til at hjælpe sig med at løse en opgave. Personerne løser opgaven på frivillig basis – oftest uden betaling – og løsningen tilhører efterfølgende opdragsgiveren.

Når det drejer sig om digitaliserede aviser, er crowdsourcing begyndt at vise sig som et nyttigt redskab til at optimere brugeroplevelsen, når man bevæger sig rundt i aviserne. Et godt eksempel på, hvordan man som bruger kan udøve crowdsourcing, er Digitalkoot. Digitalkoot er et samarbejde mellem det finske nationalbibliotek og firmaet Microtask, hvor målet er at rette fejl i bibliotekets samling af digitaliserede aviser. Når fejlene bliver rettet, forbedrer det resultatet af søgning i aviserne. Dags dato har mere end 104.000 mennesker besøgt hjemmesiden, og lagt 378.219 minutters arbejde i opgaven. Det svarer til, at der er blevet rettet 7.097.412 fejl i arkivet. Ganske godt klaret af en gruppe frivillige.

Et andet godt eksempel findes i Australien, hvor det australske nationalbibliotek bl.a. stiller en række digitaliserede aviser til rådighed online i deres portal The Trove. De lægger op til, at man som bruger kan hjælpe med at forbedre brugeroplevelsen ved bl.a. at rette i OCR-teksten, hvis der er tydelige fejl i den. Det er nemt at bidrage til opgaven. Laver man en søgning og støder på fejl i den elektroniske udgave af teksten, bliver man i visningen af det enkelte hit præsenteret for muligheden for at korrigere fejlene. Interessant er det at se, at der på en tilfældig dag er lavet mere end 111.000 korrektioner i de skannede australske aviser…………

Interessant er det også at fundere over, hvorvidt en lignende mulighed for at lave korrektioner i OCR-skanningerne af vores digitale aviser ville blive modtaget med interesse, og hvor stor denne i så fald ville være.

Crowdsourcing er et udbredt fænomen, der ikke kun retter sig mod digitale avissamlinger – se f.eks. denne liste over crowdsourcing projekter, og bliv inspireret til, hvordan man nemt kan bidrage til løsningen af en given opgave.

Read Full Post »

Older Posts »

%d bloggers like this: