dinsdag 1 april 2014

Spectaculair of Spielerei? Basistools voor Tekstanalyse aan de hand van de Deductie van Johan de Witt

In de tweede helft van 2007 vroeg de secretaris van de Vereniging Vrienden van de Witt of ik wellicht iemand wist die een hertaling naar modern Nederlands kon maken van de zogenaamde Deductie van Johan de Witt. De vereniging beoogde deze moeilijke tekst uit 1654 toegankelijk te maken voor het voortgezet onderwijs. Geen eenvoudige opgave, aangezien ook al in de tijd van De Witt een vereenvoudigde versie circuleerde, zodat 'de gewone man' kon begrijpen waar De Witt het over had. In de Deductie verdedigt Johan de Witt, raadpensionaris (zeg maar eerste minister) van Holland, zich tegen de verwijten voor het aannemen van de Akte van Seclusie. In deze akte wordt onder druk van Engeland, die de Republiek tijdens de Eerste Engelse Zeeoorlog in het nauw had gedreven, beloofd nooit meer een Oranje te kiezen als stadhouder of kapitein-generaal. De tekst wordt van historisch groot belang geacht, vooral door Republiekeinen, aangezien De Witt onder meer uiteenzet waarom de Republiek in zijn ogen de beste staatsvorm is. In mijn oneindige bescheidenheid zei ik de secretaris dat ik de tekst zelf zou kunnen hertalen.Uiteindelijk zag de publicatie van de Deductie, dankzij de lovenswaardige organisatorische inspanningen van de Vereniging om de financiering rond te krijgen, in 2009 het licht.

Eind vorig jaar kreeg ik het verzoek van de Vereniging om nog eens in de Deductie te duiken en in het kader van een sympoisum over De Witt en Spinoza een presentatie te houden over de staatsopvatting van Johan de Witt. Het was voor mij een goede gelegenheid om wat moderne tools los te laten op de (door mij zelf getranscribeerde) tekst, om te kijken of er misschien verrassende dingen te zien waren in woordfrequentie, woorden per zin, et cetera. Met andere woorden: of de computer kon helpen bij de analyse van een tekst die ik al goed kende.

Om te beginnen vond ik een leuke tool, wordcounter, die mij kon vertellen hoeveel woorden, zinnen, en woorden per zin in de tekst staan. De tekst van De Witt bevat niet minder dan 34.453 woorden, verdeeld over 749 zinnen. Dat betekent dat hij 46 woorden per zin sprak. Sprak, aangezien hij de tekst voorlas in een vergadering van de Staten-Generaal en daar vijf uur over deed. Ter vergelijking: recent sprak onze premier Mark Rutte op het Innovation Convention in Brussel van 10 maart en gebruikte daarvoor 2.199 woorden en 16 woorden per zin.

Om te kijken welke patronen er in de tekst wellicht te ontwaren zijn heb ik gezocht naar een tool die een word cloud (zie afbeelding) kon genereren en/of een lijst van woordfrequenties kon geven. Hier moest ik mijn toevlucht nemen tot twee verschillende tools. Voor de word cloud kwam ik terecht bij: wordle. Een leuke tool en ook redelijk geavanceerd, aangezien het voor vele talen de altijd frequent voorkomende woorden als ‘de’ en ‘van’ weg zou laten. Begrijpelijkerwijs werkt dat echter niet voor zeventiende-eeuws Nederlands. Woorden als ‘ende’ (1275 keer), ‘vande’ et cetera komen terug, waardoor de cloud alsnog een visualisatie wordt van zeer generieke woorden. Heel veel verder kwam ik daar daarom niet mee (zie echter het addendum aan het einde van de tekst).



Wellicht dat een lijst met woordfrequenties mij dan verder zou helpen. Ik kwam daarvoor terecht bij writewords. Op zich speelt hier natuurlijk hetzelfde probleem als bij de word cloud dat ook veel voorkomende woorden als 'ende' worden geteld, maar zonder al te veel moeite kon ik de lijst afspeuren naar interessante zaken als vermeldingen van ‘Godt’, ‘ambassadeurs’ enzovoort. De belangrijkste issues van De Witt, zoals provincies, unies en Republiek scoren duidelijk hoog in de woordfrequentie. Het is verder ook leuk om te zien dat twee ambassadeurs altijd (41 keer) samen genoemd worden. Moeilijker wordt het echter als ik wil kijken naar vermeldingen van interessante, moeilijk te vatten concepten als ‘algemeen belang’. De Witt formuleert dit op veel verschillende manieren, altijd in combinatie met het zeer generieke woord ‘gemeen ‘ (of een afgeleide):  'Gemeene Saecke'; 'Gemeene Beste'; 'Gemeene Welvaren'; 'ter liefde van ’t gemeen'; ''t interest vanden Staet in’t gemeyn'. Nu kan ik gaan zoeken naar plaatsen waar 'gemeen' voorkomt (22 keer), maar dan nog is er het risico dat er iets anders ‘algemeens’ bedoeld wordt. Om van die frequentie patat te kunnen maken moet ik de tekst dus in feite al gecloseread hebben (wat gelukkig het geval was, maar een echte meerwaarde heeft de software dan niet meer).  

Tot dusver is het allemaal niet bijster spectaculair en eerder Spielerei. Nog geen nieuwe patronen ontdekt met één druk op de knop en ook weinig hulp als ik de tekst niet al goed kende. Het zou echter niet heel eerlijk zou zijn om dan maar meteen deze tools af te schrijven. Er wordt logischerwijs weinig (of eigenlijk geen) rekening gehouden met zeventiende-eeuws Nederlands in dergelijke software omdat daar te weinig voor beschikbaar is om ' even in te bouwen'. Zelfs als het wel eenvoudig was in te bouwen dan heb je nog het probleem van een niet-gestandaardiseerde spelling en, in het geval van De Witt, ambtelijk jargon dat doordrenkt is met gallicismen. Met voor de computer scientist wat relatief simpele aanpassingen zouden deze tools echter nog steeds een stuk beter werken op een dergelijke tekst dan ze nu doen. Bovendien zijn er wel degelijk exercities denkbaar die nu al bij een beschikking over meerdere, vergelijkbare teksten goed zouden kunnen werken. Hoe godvruchtig was Johan de Witt bijvoorbeeld (of hoe godvruchtig wilde hij overkomen)? Dat is een vraag die in de historiografie naar mijn weten nooit is gesteld.  In de Deductie vind ik dankzij writewords 37 keer een vermelding van God of een afgeleide. Als we dat kunnen afzetten tegen politieke teksten van andere zeventiende-eeuwers, of andere teksten van De Witt, dan zouden daar voorzichtige conclusies aan verbonden konden worden over het godvruchtige karakter van De Witt of juist van de Deductie. Helaas grossiert historisch Nederland niet in volledig (naar platte tekst) getranscribeerde teksten uit de zeventiende eeuw (is namelijk best veel werk). Een klein experiment om een zeventiende-eeuwse gescande tekst van Google Books om te zetten naar platte tekst levert ook weinig resultaat: een langdurig proces met OCR van slechte, onacceptabele, kwaliteit.

Met wat getweakte tools kunnen er hoe dan ook leuke dingen worden gedaan met historische teksten die wel goed te lezen zijn voor software. Niet dat we daarmee in de toekomst de geschiedenis kunnen verklaren, dat blijft de taak van de historicus. De historicus kan echter wel relatief eenvoudig kijken of er bepaalde dingen opvallen in de tekst om zo sneller een beeld te krijgen van wat wellicht het onderzoeken waard is. Op die manier worden vermoedelijk ook vragen gesteld waar de historicus anders niet zo snel op zou zijn gekomen. Hypothesen zullen sneller geformuleerd kunnen worden en doodlopende paden sneller worden gesignaleerd. Het close readen van teksten zal noodzakelijk blijven om te zien wat er nu werkelijk aan de hand was. Software tools kunnen dat close readen echter een stuk efficiënter en gericht maken.
----------------------------------------------------------

Addendum 28 juni 2017: inmiddels wat wijzer geworden heb ik de veel voorkomende woorden in de Deductie er met een 'python' script uitgesloopt (script beschikbaar op aanvraag). Het resultaat is de veel mooiere Wordcloud hier onder: