Publicerat

I oktober läste vi in drygt 30 000 skannade sidor från Etnografiska museets generalkatalog i museets Carlottadatabas. I samband med skanningen lät vi ocr-tolka varje sida och tack vare detta är sidorna också sökbara. Efter importen var vi tvungna att korrigera några av de mest uppenbara felen i ocr-tolkningen men i förra veckan tyckte vi att vi kommit så långt i rättningarna att det var dags att låta k-samsök skörda informationen.

Vad är generalkatlogen?
Generalkatalogen utgör museets katalog över alla föremålsförvärv till samlingarna. Katalogen har upprättats av museets intendenter som sammanställt den befintliga dokumentationen från arkivet (donationsbrev, inköpskvitton, korrespondens, äldre kataloger). I katalogen har varje föremål en mer eller mindre detaljerad beskrivning med uppgifter om material, mått och proveniens. Många gånger finns också information om föremålens funktion och användning.

Själva generalkatalogen i den upplaga som nu skannats upprättades huvudsakligen under perioden 1900-1970. I början av 1970-talet revs det dåvarande museet vilket följdes av en turbulent tid som också påverkade produktionen av generalkatalogen.

Mycket av formuleringarna som finns i katalogen utgör avskrifter av ännu äldre dokument, ibland finns hela brev från 1800-talet återgivna. Därför är terminologin många gånger föråldrad och kan ibland rent av uppfattas som kränkande sett med dagens ögon. Men detta är historiska dokument och de är viktiga för en förståelse av föremålen. Detta måste man vara medveten om när man läser generalkatalogen.

Förutsättningar för ocr-tolkningen
I över 60 % av katalogerna har intendenterna använt sig av samma mall vilket har underlättat ocr-tolkningen. Sidorna är skrivna med skrivmaskin och det har varit möjligt att utifrån mallens struktur identifiera sakord och proveniens för enskilda föremål. Informationen har då kunnat läggas direkt på föremålsnivå förutsatt att själva inventarienumret har varit möjligt att tolka. Dessa sidor har kopplats till berörda inventarienummer i föremålsregistret. I dessa fall är det alltså möjligt att gå direkt från föremålsposten till generalkatalogen och tvärtom.

Eftersom mindre än hälften av alla föremål sedan tidigare har varit registrerade var det inte ovanligt att ocr-tolkningen identifierade inventarienummer som inte fanns registrerade. I dessa fall har vi låtit Carlotta autogenerera dessa nummer.

Resultat
Ca hälften av de 30 000 sidorna kunde automatiskt kopplas till ett eller flera inventarienummer. Ungefär 60 000 inventarienummer (Entografiska museet har ungefär 220 000 inventarienummer) fick en koppling till en katalogsida och 30 000 av dessa inventarienummer autogenererades i samband med importen. Antalet föremålsposter ökade därmed från 100 000 till 130 000. 30 000 föremål fick ett nytt eller ett kompletterande ocr-genererat sakord. Lika många föremålsposter fick en ocr-genererad beskrivning och 10 000 fick en ocr-genererad proveniens (fältet “Region, ursprung“).

Men det absolut viktigaste resultatet är att det nu är möjligt i att fritextsöka i hela den textmassa som de här 30 000 sidorna motsvarar.  Vi kan helt enkelt identifiera många fler föremål i våra samlingar när vi söker på t.ex. “trumma“ eller “Sudan“ (för att inte tala om “pil“, eller “spjut“…).

Problem
Tyvärr har maskinerna fel ibland; de har inte lyckats tolka alla inventarienummer rätt. I de fallen har ingen koppling skett men i vissa fall har en koppling gjorts till fel katalogsida. Ibland har nya nummer skapats som egentligen inte ska finnas, t.ex. 1007.42.0043 som ju ska vara 1907.42.0043. De flesta av dessa fel har vi åtgärdat men en del arbete återstår fortfarande.

De katalogsidor som inte följt den gällande strukturen har av förklarliga skäl varit svårare att tolka. Ännu svårare har det varit när skrivmaskinen haft ett dåligt färgband för att inte tala om de sidor som varit handskrivna. Det förekommer också fel i själva generalkatalogen.

I nuläget har vi inte möjlighet att leverera relationer mellan olika poster till k-samsök. I de fall det finns länkar mellan en katalogsida och ett eller flera föremål måste man i nuläget gå tillbaks till originalkällan för att komma vidare. I t.ex. Kringla hittar man en indikation när det finns en koppling under detaljerad information – objektidentiet. Där står ”Inventarienummer, beskriver” och så vilket inventarienummer det är, se t.ex här.  Vi räknar med att kunna leverera den här typen av relationer till k-samsök under första halvan av nästa år.

Och nu då?
Vår ambition är att fortsätta att skanna kataloger och annat arkivmaterial och att tillgängliggöra detta i Carlotta och sedan i K-samsök. Vi har redan skannat en stor mängd katalogkort som framför allt innehåller fantastiskt fina illustrationer av föremålen. Dessa kommer att imprteras inom kort. Det finns också mycket handskriven äldre dokumentation som vi på sikt önskar kunna skanna.

>> Magnus Johansson jobbar med museisystemet Carlotta på Statens museer för världskultur