Een revolutie in de wereld van historische archieven

Een interview met Liesbeth Keijser | Projectleider Transkribus bij het Nationaal Archief

In het Nationaal Archief vind je antwoord op vragen over je leven, de geschiedenis en de Nederlandse samenleving. Je ontdekt er hoe het recente en verre verleden ons dagelijks leven beïnvloedt en je kunt er zelf zoeken in archieven. In 137 kilometer papieren archieven, 15 miljoen foto’s, 300.000 kaarten en 1,2 petabyte aan digitale bestanden, wordt duizend jaar geschiedenis tastbaar.

Liesbeth Keijser werkt bij het Nationaal Archief en haar werk heeft alles te maken met het vergroten van de toegankelijkheid van deze historische archieven. Liesbeth werkt als projectleider voor het project “De ijsberg zichtbaar maken”. Deze naam geldt als metafoor voor de documenten uit de 17e, 18e en 19e eeuw, waarvan het grootste deel nu nog onleesbaar is voor de computer. Op dit moment wordt er hard gewerkt om met behulp van machine learning deze historische bronnen leesbaar en toegankelijk te maken. In een interview vertelt Liesbeth over deze revolutie in het archiefonderzoek.

“Wat betreft onze historische archieven zijn we nog lang niet klaar en zou kunstmatige intelligentie ons in de toekomst nog verder kunnen helpen. ”

Start van het project
In 2019 is het project “De ijsberg zichtbaar maken” onder leiding van Liesbeth officieel gestart. De uitvoering van het project vind grotendeels plaats in het programma Transkribus, onderdeel van een door de Europese Unie gesubsidieerd project genaamd READ (Recognition and Enrichment of Archival Documents). Voor het leesbaar maken van de historische bronnen moesten er handschriftherkenningsmodellen worden ontwikkeld. Maar de mens moet een computer eerst voeden met informatie, voordat de computer daadwerkelijk in staat is om werk over te nemen. Zo werd er in mei gestart met het transcriberen van zevenduizend scans van archieven. Een transcriptieteam van zes mensen ging hiermee aan de slag. Door de machines te voeden met deze transcripten worden de documenten full-tekst doorzoekbaar. Full-tekst doorzoekbaar betekent dat de computer karakters kan herkennen en vervolgens woorden kan indexeren.

Het maken van modellen
Nadat het transcriptieteam zevenduizend scans van archieven had getranscribeerd, ging het project een volgende fase in: het trainen van modellen die automatisch documenten uit de 17e, 18e en 19e eeuw kan transcriberen. Hiervoor is het van belang om verschillende selecties te maken, waarbij scans van het archief van de Verenigde Oostindische Compagnie uit de 17e en 18e eeuw apart worden getraind, ten opzichte van notariële archieven uit de 19e eeuw. Voor iedere dataset, werd een apart model getraind. Meer dan 90% van de karakters wordt herkend door de machine. Liesbeth is erg blij met dit resultaat. Vooral omdat de machine duizenden verschillende handschriften moet kunnen herkennen. De komende tijd worden er twee miljoen scans automatisch getranscribeerd.

Archieven toegankelijk maken
Het afgelopen jaar hebben de projectleden zich voornamelijk geconcentreerd op het maken van de transcripties en trainingsmodellen. Nu zijn ze bezig om de transcripties voor iedereen toegankelijk te maken. Er wordt gebouwd aan een projectwebsite waarin men straks de transcripties kan doorzoeken. Hiermee kun je als het ware ‘googelen’ door alle historische archieven, in plaats van dat je eerst een document moet opzoeken en lezen. Om de grote hoeveelheid gegevens goed te kunnen bestuderen, wordt het straks ook mogelijk te filteren op bijvoorbeeld tijd, naam en plaats. Maar een machine kan niet zomaar persoonsnamen en locaties herkennen. Vandaar dat er nu nog een machine wordt gebouwd die daadwerkelijk bepaalde onderwerpen kan herkennen met kunstmatige intelligentie.

SBIR-oproep
Het bouwen van deze machine brengt veel vragen en uitdagingen met zich mee. Hoe ga je bijvoorbeeld om met spellingsvarianten in historische bronnen? Vroeger schreef je stuiver bijvoorbeeld als stuijver, maar later niet meer. Hoe kan je dit oplossen? En hoe ga je om met blijvende transcriptiefouten? Voor het bouwen van deze machine is daarom een SBIR- oproep gedaan aan leveranciers om met een oplossing te komen voor het project. SBIR staat voor ‘Small Business Innovation Research’. Dit is een innovatiecompetitie die bestaat uit verschillende fases. De belangstelling vanuit de ondernemingen was gigantisch, vertelt Liesbeth. Op de voorlichtingsbijeenkomst kwamen rond de honderd bedrijven af. Een paar weken geleden zijn er door verschillende ondernemingen drie prototypes opgeleverd. Op dit moment wordt er gewerkt aan een aanbesteding voor doorontwikkeling tot een werkende projectwebsite.

Historische archieven in de toekomst
Door deze handschriftherkenningstechnieken kunnen we alle historische bronnen leesbaar en voor iedereen toegankelijk maken. Iedereen kan dan via de website op zoek naar historische informatie waarbij je kunt filteren op bijvoorbeeld persoonsnaam, locatie en tijd. Maar stel je eens voor dat dit pas het begin is van de revolutie in de wereld van historische archieven. Misschien kunnen we tussen alle archieven van de VOC en WIC verbanden vinden over slavernij. En misschien kunnen we meer inzicht krijgen in zaken die we anders nooit gevonden hadden, zoals bijvoorbeeld het klimaat. Wat betreft onze historische archieven zijn we volgens Liesbeth nog lang niet klaar en zou kunstmatige intelligentie ons in de toekomst nog verder kunnen helpen. Maar ook dan blijft een belangrijk deel van het werk mensenwerk. Het trancriberen van de teksten is een belangrijk onderdeel en vormt de basis van het model.

Liesbeth is blij dat ze dit project mag leiden. Het is een spannend onderwerp en iedereen is enthousiast over de plannen en vorderingen. Ook veel andere archieven en instellingen zijn bezig met handschriftherkenning. Er onstaat zelfs een Nederlandse community rond dit onderwerp. De data die vanuit het project zijn ontstaan worden aan iedereen beschikbaar gesteld. Ben je hierin geïnteresseerd? Op het platform KIA is een groep opgericht waar ervaringen worden gedeeld. Je kunt alle transcripties die door mensen zijn ingevoerd downloaden. Het handschriftherkenningsmodel IJsberg kun je ook zelf gebruiken in Transkribus.

Video
Delen

Uw naam

E-mail

Naam ontvanger

E-mail adres ontvanger

Uw bericht

Verstuur

Share

E-mail

Facebook

Twitter

LinkedIn

Contact

Verstuur

Aanmelden

Schrijf je in voor onze nieuwsbrief en blijf op de hoogte!

Meld aan