Feeds:
Indlæg
Kommentarer

Archive for the ‘inspiration’ Category

Før sommerferien deltog en af mine kolleger fra Avisdigitaliseringsprojektet, Frank Lund, i en workshop arrangeret af Europeana Newspapers. Han havde meget på hjerte, da han var vel hjemme igen, og en god portion af det har han samlet i det følgende indlæg.

EUROPEANA NEWSPAPERS’ WORKSHOP “REFINEMENT AND QUALITY ASSESSMENT”

Mange europæiske nationalbiblioteker er godt i gang med at digitalisere aviser. Med Europeana Newspapers to-dages workshop ”Refinement and Quality assessment” i Beograd, var det tid til at dele erfaringer opsamlet indtil nu og drøfte mulighederne for den fremtidige brug af de digitaliserede aviser.

Ground truth – en kvalitetsvurderingsmetode

I arbejdet med at digitalisere aviser er mange biblioteker kommet i det dilemma, at en grundig kvalitetssikring koster mange arbejdstimer. For selv om en automatiseret kontrol kan fange mange typer fejl – især i metadata – så er det ikke trivielt at vurdere kvaliteten af OCR og OLR.

Genkendelse af ord samt ordenes placering på siden er kendt som OCR.  Med OLR forsøger man at genkende sammenhænge ved at identificere kolonner, overskrifter, billeder, illustrationer og andre elementer. Samtidig forsøger OLR at identificere hvilke elementer, der hører sammen, og i hvilken rækkefølge de skal læses.

Hvis man opnår en god OCR og OLR, vil man kunne plukke enkelte artikler ud og præsentere disse i søgeresultater eller andre sammenhænge. Og med perfekt OCR og OLR kan man – teoretisk set – genskabe  avissiden, nøjagtigt som den så ud oprindeligt.

Udfordringerne i at efterbearbejde de digitaliserede aviser ligger som udgangspunkt i kildematerialets store variation i kvalitet og udtryk. Det gør det svært at stille objektive krav til, hvor korrekt OCR og OLR skal være udtrykt i procent.

Inden for satellitfoto bruger man ”ground truth”-princippet til kvalitetskontrol ud fra kendte fikspunkter – hvis man på sine satellitfotos kan genfinde disse fikspunkter med den rigtige placering og afstand, så har man gode satellitfotos.

På samme måde prøver nogle forskere fra University of Salford at lave et system, hvor aviskyndige meget detaljeret kan opmærke et billede af en avisside. Efterfølgende er det målet, at systemet kan sammenligne resultatet af en automatisk digitalisering med den manuelt opmærkede side. Systemets kvalitetsvurdering bliver ikke en godkendt/ikke-godkendt dom, for den perfekt opmærkede side findes ikke, da to personer, der opmærker den samme side, aldrig vil komme til samme resultat. Derfor sker kvalitetsvurderingen som en pointtildeling efter en lang række parametre. Ultimativt vil denne pointtildeling kunne bruges som automatisk feedback, så OCR- og OLR-systemerne selv kan justere på genkendelsesalgoritmerne.

Desværre er det ikke en metode, vi kan bruge til kvalitetsvurdering, da den manuelle opmærkning tager meget lang tid, og de systemer, der skal sammenligne den manuelle opmærkning med resultatet af digitaliseringen, endnu ikke er færdigudviklede.

Fraktur

En evig kilde til udfordringer findes i aviser med frakturskrift. Her kommer de fleste OCR-systemer til kort, og man får ofte et resultat, der kan placeres på en skala mellem middelmådigt og dårligt.

Ikke desto mindre er der nogle interessante aktiviteter i gang på dette område. En af udfordringerne er, at man ved OCR af en frakturtekst som udgangspunkt får resultatet udtrykt i vores dagligdags tegn. Det vil sige, at OCR-systemet ikke kun genkender frakturbogstaverne i avisen, men også oversætter bogstaverne til et moderne tegnsæt.

Fraktur indeholder eksempelvis flere tegn, som normalt bliver oversat til ”s”, hvilket ses herunder i ordet ”Klædningsstykker”.

Fraktur

”færdigtsyede Klædningsstykker, til nedsatte Priser. Flere Hundrede vatterede og uvatterede Klædes- og Dyffels-Frakker.”

Den gode diskussion er så, om man i OCR-resultatet skal gengive forskellige typer ”s” for at komme så tæt på kildematerialet som muligt, eller om man uden at miste betydningen kan oversætte frakturtegn til moderne tegn?

Medieval Unicode Font Initiative arbejder med at få frakturtegn ind i unicode-standarden. Men dette arbejde er langt fra færdigt, så lige nu giver det mest mening at omskrive de genkendte bogstaver til noget, vi alle sammen – herunder også skærmlæsere – kan læse og copy-paste.

NER – Genkendelse af navne

Named Entities Recognition (NER) er et næsten uopdyrket område, hvor kongstanken er, at det skal være muligt at genkende navne i en tekst. Det lyder simpelt og som en god idé. I Europeana Newspapers projektet er nogle af bibliotekerne gået i gang med at undersøge, hvordan vi når frem til NER.

Første forhindring i arbejdet med NER er manglen på definitioner. Der findes ikke noget klart svar på spørgsmålet ”Hvornår er noget et navn?”. Her arbejder Det Kongelige Bibliotek (Koninklijke Bibliotheek) i Holland med et projekt, hvor de har defineret tre typer af navne, som de gerne vil have genkendt: Personer, organisationer og geografiske lokationer. Men navne på dyr og mange andre navnetyper skal ikke genkendes. I det konkrete projekt er det samtidig defineret, at et navn kun kan opmærkes som én af de tre typer. Eksempelvis skal en person – ultimativt en computer – ud fra konteksten bestemme, om ”Belgrade Nikola Tesla Airport” er det geografiske sted, hvor lufthavnen findes, om det er lufthavnen som organisation, der er tale om, eller måske er det interessant, at lufthavnen er opkaldt efter Nikola Tesla, så vi opmærker ”Nikola Tesla” som et personnavn. Spørgsmålene og svarene på, hvad der er rigtigt eller forkert, er så mange, at de på det Kongelige Bibliotek har fundet ud af, at kun tre-fire personer kan arbejde med denne opmærkning – ellers bliver resultaterne for uensartede.

I Holland har de mange eksempler på, hvordan man kan bruge NER til at opdage og præsentere nye sammenhænge. De har arbejdet med NER i tekster, der er mere simple i struktur og indhold end aviserne.

Hvis NER skal udvikle sig til noget, der kan udveksles i Europeana-sammenhænge eller andre steder, mangler der en eller flere autoritative lister, så man ikke kun opmærker ”Obama” som et personnavn, men så man også ud fra konteksten kan sætte et unikt id på, der fortæller, at personen er den Obama, der er/var præsident i USA. NER vil give nogle spændende muligheder for at følge en person op gennem historien eller undersøge forskelle i omtalen af en person på tværs af lande.

Med digitaliseringen af aviserne følger talrige spørgsmål om ophavsret. Situationen bliver ikke nemmere med NER, som oveni bringer en masse uafklarede spørgsmål i relation til persondataloven. En lovgivnings-suppe, der bliver endnu mere grumset, når vi begynder at tænke på at udveksle data med andre europæiske biblioteker.

Konklusionen må være, at der er nogle spændende initiativer i gang omkring NER, men at det til produktionsformål i vores skala endnu er for tidligt at springe på vognen, medmindre vi ønsker at bidrage med en betydelig indsats til at få defineret nogle standarder.

Netværk

En af de helt store gevinster ved workshoppen var de personlige kontakter, der gav mulighed for at diskutere fremgangsmåder og erfaringer samt ikke mindst formålet med de projekter, vi hver især deltager i. Men det var også fascinerende at høre om nogle af de lidt mere nørdede projekter, der foregår rundt omkring – et projekt omkring genkendelse af matematiske håndskrifter for bare at nævne et enkelt.

Se billeder fra workshopdagene.

Read Full Post »

Avisviewer

Hvad gør man, når det er svært at vente, og det bare kribler i fingrene for at komme til at lege med de digitaliserede aviser og de muligheder, der er for at vise dem frem? Jo, man vælger et par sider fra nogle af de ældste aviser, og så går man i gang med at undersøge, hvordan en løsning potentielt kunne komme til at se ud.

Det var lige præcis den situation, et par af it-udviklerne på Statsbiblioteket befandt sig i for et par måneder siden. Sammen har de givet et bud på, hvordan en avislæser kunne komme til at se ud. Det første meget spæde bud kan ses – og afprøves – her.

Der ligger kun to sider i avislæseren, så det giver ikke mening at lave de store søgninger. Men en søgning på et enkelt bogstav som ”a” eller ”e” burde give et resultat.

Det skal kraftigt understreges, at vi endnu ikke har fastlagt, hvordan vores avislæser – og præsentationen af de digitaliserede aviser i det hele taget – endeligt kommer til at se ud, men vi syntes alligevel, at det var oplagt at dele vores begejstring for, hvad vores eksperimenter hidtil har resulteret i.

Europeana Newspapers har i øvrigt også lagt deres overvejelser om en avislæser på nettet – den kan ses her. Hvis man har lyst og mulighed, afholder Europeana Newspapers en workshop 16. september 2013 – Preview of the Aggregation and Presentation Workshop, hvor arbejdet med deres brugergrænseflade præsenteres.

De stolte udviklere, Toke Eskildsen og Jørn Thøgersen, arbejder videre med avislæseren – det kribler nemlig fortsat i deres fingre.

Bemærk at avislæseren fungerer bedst i Chrome og Firefox. Den driller os desværre lige nu i Internet Explorer. Har du en iPad, er det også værd at afprøve avislæseren på den.

Read Full Post »

Statsbiblioteket er i regi af avisdigitaliseringsprojektet blevet inviteret med i projektet Europeana Newspapers som networking partner. Det betyder, at vi kan deltage i konferencer, workshops og andre events, som projektet arrangerer. Vi starter med at deltage i Quality Assessment workshoppen 13.-14. juni 2013 i Beograd, Serbien.

?????

Europeana Newspapers er et tre-årigt projekt med 18 partnere fra europæiske national- og universitetsbiblioteker med avissamlinger. Der tages udgangspunkt i allerede digitaliserede avissamlinger fra partnerne, og formålet er at få disse samlingers metadata tunet til at indgå i Europeana på en ’sømfri’ måde. Projektet fokuserer endvidere på udvikling af metoder til forbedring af OCR og NER (= named-entity recognition).

Der er mange fordele for Statsbiblioteket ved dette partnerskab. Vi skal bl.a. selv levere ældre danske aviser til Europeana, når vi når så vidt, og med det store avisdigitaliseringsprojekt vi har i støbeskeen, er det godt at have et netværk af denne type. Vi er derfor rigtig glade for at være kommet med i netværket.

Read Full Post »

Som en slags opfølgning på IFLA International Newspaper Conference 2012 har IFLA valgt at dedikere sit seneste nyhedsbrev til digitalisering og bevaring af aviser. I nyhedsbrevet International Preservation News: A Newsletter of the IFLA Core Activity on Preservation and Conservation med udgavetitlen ”Digitization and Preservation of Newspaper Collections” (No.56, May 2012) kan man læse om avisdigitaliseringsprojekter i Storbritannien, Italien, USA, Sydafrika og Kina. Bemærk at det italienske projekt handler om digitalisering af avisen Corriere della  Seradet var et af de projekter, som vi især bed mærke i på konferencen. Bevaringsaspektet er dækket af en artikel om bevaring af mikrofilm i Japan. For de særligt interesserede er det værd at bemærke, at præsentationerne fra konferencen nu også er tilgængelige på nettet.

Foto: Niccolò Caranti

Read Full Post »

Et interessant emne på IFLA International Newspaper Konference 2012 var crowdsourcing.

Basalt set betyder crowdsourcing, at man får en gruppe personer til at hjælpe sig med at løse en opgave. Personerne løser opgaven på frivillig basis – oftest uden betaling – og løsningen tilhører efterfølgende opdragsgiveren.

Når det drejer sig om digitaliserede aviser, er crowdsourcing begyndt at vise sig som et nyttigt redskab til at optimere brugeroplevelsen, når man bevæger sig rundt i aviserne. Et godt eksempel på, hvordan man som bruger kan udøve crowdsourcing, er Digitalkoot. Digitalkoot er et samarbejde mellem det finske nationalbibliotek og firmaet Microtask, hvor målet er at rette fejl i bibliotekets samling af digitaliserede aviser. Når fejlene bliver rettet, forbedrer det resultatet af søgning i aviserne. Dags dato har mere end 104.000 mennesker besøgt hjemmesiden, og lagt 378.219 minutters arbejde i opgaven. Det svarer til, at der er blevet rettet 7.097.412 fejl i arkivet. Ganske godt klaret af en gruppe frivillige.

Et andet godt eksempel findes i Australien, hvor det australske nationalbibliotek bl.a. stiller en række digitaliserede aviser til rådighed online i deres portal The Trove. De lægger op til, at man som bruger kan hjælpe med at forbedre brugeroplevelsen ved bl.a. at rette i OCR-teksten, hvis der er tydelige fejl i den. Det er nemt at bidrage til opgaven. Laver man en søgning og støder på fejl i den elektroniske udgave af teksten, bliver man i visningen af det enkelte hit præsenteret for muligheden for at korrigere fejlene. Interessant er det at se, at der på en tilfældig dag er lavet mere end 111.000 korrektioner i de skannede australske aviser…………

Interessant er det også at fundere over, hvorvidt en lignende mulighed for at lave korrektioner i OCR-skanningerne af vores digitale aviser ville blive modtaget med interesse, og hvor stor denne i så fald ville være.

Crowdsourcing er et udbredt fænomen, der ikke kun retter sig mod digitale avissamlinger – se f.eks. denne liste over crowdsourcing projekter, og bliv inspireret til, hvordan man nemt kan bidrage til løsningen af en given opgave.

Read Full Post »

« Newer Posts - Older Posts »

%d bloggers like this: