Syv medarbejdere i Statens Avissamling har i marts måned brugt tid på at nærstudere aviserne i Statens Avissamling. De har især haft travlt med at optælle det totale antal sider, men de har også opgjort, hvornår en avistitel findes i kæmpeformat, hvornår den enkelte titel skifter fra fraktur skrift (også kaldet “krøllede bogstaver”) til latinsk skrift (den skrift der bruges i dag). Og endelig har de talt, hvor mange sider der er fra de enkelte titlers begyndelse og op til 1910.
Hvorfor undersøge hvilken skrift aviserne har brugt?
Gotisk skrift er brugt af mange aviser helt op i 1920’erne. OCR (elektronisk tegngenkendelse), som er en betingelse for søgning i den skannede tekst, er sværere at lave på denne typografi og kræver avanceret software. Software der helst skal kombineres med ordlister over gamle danske ord. Det kan derfor blive dyrere at opnå en høj korrekthed i tekstgenkendelsen, og det er grunden til, at vi skal kende omfanget af sider med denne typografi for at kunne estimere udgifterne til OCR-delen af digitaliseringsopgaven korrekt.
Optælling i Statens Avissamling
OCR er omtalt i denne artikel. Har nogen kendskab til OCR-programmer, der kan genkende frakturskrift (gotisk skrift)?
Jeg har ikke kunnet finde noget. Hvis der skulle findes ėn, der kan give mig en brugbar løsning, ville jeg blive meget glad.
Med venlig hilsen
Søren Baumgarten
s.baumgarten@webspeed.dk
LikeLike
Mange tak for kommentaren.
Vi benytter programmet ABBYY Fine Reader Engine 10.5 til OCR-genkendelse af alle aviserne – inkl. de der er skrevet med frakturskrift. Programmet genkender ikke alle tegn 100% korrekt, hvilket ikke er overraskende, når det drejer sig om frakturskrift. Oveni er softwaren bl.a. også udfordret af mikrofilm, der er overbelyste, så skriften i det hele taget er svær at læse, så genkendelsen er som sagt langt fra perfekt.
Hvis du vil have et kig på genkendelsen i forhold til aviserne, kan du evt. lave en søgning på * i Mediestream Aviser og derefter enten sortere resultatet, så de ældste aviser kommer først, eller også kan du vælge en af de ældste perioder i kolonnen til venstre.
Skal du skanne direkte fra originalkilden, eller har du ligesom os et mellemtrin, der kan være med til at besværliggøre genkendelsen?
Kontakt os endelig igen hvis du har flere spørgsmål.
Mange hilsner
Karen
LikeLike