Før sommerferien deltog en af mine kolleger fra Avisdigitaliseringsprojektet, Frank Lund, i en workshop arrangeret af Europeana Newspapers. Han havde meget på hjerte, da han var vel hjemme igen, og en god portion af det har han samlet i det følgende indlæg.
EUROPEANA NEWSPAPERS’ WORKSHOP “REFINEMENT AND QUALITY ASSESSMENT”
Mange europæiske nationalbiblioteker er godt i gang med at digitalisere aviser. Med Europeana Newspapers to-dages workshop ”Refinement and Quality assessment” i Beograd, var det tid til at dele erfaringer opsamlet indtil nu og drøfte mulighederne for den fremtidige brug af de digitaliserede aviser.
Ground truth – en kvalitetsvurderingsmetode
I arbejdet med at digitalisere aviser er mange biblioteker kommet i det dilemma, at en grundig kvalitetssikring koster mange arbejdstimer. For selv om en automatiseret kontrol kan fange mange typer fejl – især i metadata – så er det ikke trivielt at vurdere kvaliteten af OCR og OLR.
Genkendelse af ord samt ordenes placering på siden er kendt som OCR. Med OLR forsøger man at genkende sammenhænge ved at identificere kolonner, overskrifter, billeder, illustrationer og andre elementer. Samtidig forsøger OLR at identificere hvilke elementer, der hører sammen, og i hvilken rækkefølge de skal læses.
Hvis man opnår en god OCR og OLR, vil man kunne plukke enkelte artikler ud og præsentere disse i søgeresultater eller andre sammenhænge. Og med perfekt OCR og OLR kan man – teoretisk set – genskabe avissiden, nøjagtigt som den så ud oprindeligt.
Udfordringerne i at efterbearbejde de digitaliserede aviser ligger som udgangspunkt i kildematerialets store variation i kvalitet og udtryk. Det gør det svært at stille objektive krav til, hvor korrekt OCR og OLR skal være udtrykt i procent.
Inden for satellitfoto bruger man ”ground truth”-princippet til kvalitetskontrol ud fra kendte fikspunkter – hvis man på sine satellitfotos kan genfinde disse fikspunkter med den rigtige placering og afstand, så har man gode satellitfotos.
På samme måde prøver nogle forskere fra University of Salford at lave et system, hvor aviskyndige meget detaljeret kan opmærke et billede af en avisside. Efterfølgende er det målet, at systemet kan sammenligne resultatet af en automatisk digitalisering med den manuelt opmærkede side. Systemets kvalitetsvurdering bliver ikke en godkendt/ikke-godkendt dom, for den perfekt opmærkede side findes ikke, da to personer, der opmærker den samme side, aldrig vil komme til samme resultat. Derfor sker kvalitetsvurderingen som en pointtildeling efter en lang række parametre. Ultimativt vil denne pointtildeling kunne bruges som automatisk feedback, så OCR- og OLR-systemerne selv kan justere på genkendelsesalgoritmerne.
Desværre er det ikke en metode, vi kan bruge til kvalitetsvurdering, da den manuelle opmærkning tager meget lang tid, og de systemer, der skal sammenligne den manuelle opmærkning med resultatet af digitaliseringen, endnu ikke er færdigudviklede.
Fraktur
En evig kilde til udfordringer findes i aviser med frakturskrift. Her kommer de fleste OCR-systemer til kort, og man får ofte et resultat, der kan placeres på en skala mellem middelmådigt og dårligt.
Ikke desto mindre er der nogle interessante aktiviteter i gang på dette område. En af udfordringerne er, at man ved OCR af en frakturtekst som udgangspunkt får resultatet udtrykt i vores dagligdags tegn. Det vil sige, at OCR-systemet ikke kun genkender frakturbogstaverne i avisen, men også oversætter bogstaverne til et moderne tegnsæt.
Fraktur indeholder eksempelvis flere tegn, som normalt bliver oversat til ”s”, hvilket ses herunder i ordet ”Klædningsstykker”.
”færdigtsyede Klædningsstykker, til nedsatte Priser. Flere Hundrede vatterede og uvatterede Klædes- og Dyffels-Frakker.”
Den gode diskussion er så, om man i OCR-resultatet skal gengive forskellige typer ”s” for at komme så tæt på kildematerialet som muligt, eller om man uden at miste betydningen kan oversætte frakturtegn til moderne tegn?
Medieval Unicode Font Initiative arbejder med at få frakturtegn ind i unicode-standarden. Men dette arbejde er langt fra færdigt, så lige nu giver det mest mening at omskrive de genkendte bogstaver til noget, vi alle sammen – herunder også skærmlæsere – kan læse og copy-paste.
NER – Genkendelse af navne
Named Entities Recognition (NER) er et næsten uopdyrket område, hvor kongstanken er, at det skal være muligt at genkende navne i en tekst. Det lyder simpelt og som en god idé. I Europeana Newspapers projektet er nogle af bibliotekerne gået i gang med at undersøge, hvordan vi når frem til NER.
Første forhindring i arbejdet med NER er manglen på definitioner. Der findes ikke noget klart svar på spørgsmålet ”Hvornår er noget et navn?”. Her arbejder Det Kongelige Bibliotek (Koninklijke Bibliotheek) i Holland med et projekt, hvor de har defineret tre typer af navne, som de gerne vil have genkendt: Personer, organisationer og geografiske lokationer. Men navne på dyr og mange andre navnetyper skal ikke genkendes. I det konkrete projekt er det samtidig defineret, at et navn kun kan opmærkes som én af de tre typer. Eksempelvis skal en person – ultimativt en computer – ud fra konteksten bestemme, om ”Belgrade Nikola Tesla Airport” er det geografiske sted, hvor lufthavnen findes, om det er lufthavnen som organisation, der er tale om, eller måske er det interessant, at lufthavnen er opkaldt efter Nikola Tesla, så vi opmærker ”Nikola Tesla” som et personnavn. Spørgsmålene og svarene på, hvad der er rigtigt eller forkert, er så mange, at de på det Kongelige Bibliotek har fundet ud af, at kun tre-fire personer kan arbejde med denne opmærkning – ellers bliver resultaterne for uensartede.
I Holland har de mange eksempler på, hvordan man kan bruge NER til at opdage og præsentere nye sammenhænge. De har arbejdet med NER i tekster, der er mere simple i struktur og indhold end aviserne.
Hvis NER skal udvikle sig til noget, der kan udveksles i Europeana-sammenhænge eller andre steder, mangler der en eller flere autoritative lister, så man ikke kun opmærker ”Obama” som et personnavn, men så man også ud fra konteksten kan sætte et unikt id på, der fortæller, at personen er den Obama, der er/var præsident i USA. NER vil give nogle spændende muligheder for at følge en person op gennem historien eller undersøge forskelle i omtalen af en person på tværs af lande.
Med digitaliseringen af aviserne følger talrige spørgsmål om ophavsret. Situationen bliver ikke nemmere med NER, som oveni bringer en masse uafklarede spørgsmål i relation til persondataloven. En lovgivnings-suppe, der bliver endnu mere grumset, når vi begynder at tænke på at udveksle data med andre europæiske biblioteker.
Konklusionen må være, at der er nogle spændende initiativer i gang omkring NER, men at det til produktionsformål i vores skala endnu er for tidligt at springe på vognen, medmindre vi ønsker at bidrage med en betydelig indsats til at få defineret nogle standarder.
Netværk
En af de helt store gevinster ved workshoppen var de personlige kontakter, der gav mulighed for at diskutere fremgangsmåder og erfaringer samt ikke mindst formålet med de projekter, vi hver især deltager i. Men det var også fascinerende at høre om nogle af de lidt mere nørdede projekter, der foregår rundt omkring – et projekt omkring genkendelse af matematiske håndskrifter for bare at nævne et enkelt.
Se billeder fra workshopdagene.