woensdag 12 november 2014

HistoInformatics, Barcelona 10 November 2014: the need for sceptics and heretics

This November the 6th International Conference on Social Informatics (Socinfo) has taken place in Barcelona, bringing together researchers worldwide from the social sciences and computer sciences. In conjunction with this main conference a set of workshops were held on related topics. One of these was Histoinformatics 2014, the second international workshop on computational history. As far as I know this is the only workshop dedicated soley to the use of computational methods for historical research, which sets it apart from the many international gatherings on Digital Humanities in general.

Placa de la Catalunya, Barcelona 9 November

The organizers claim they had to be quite rigorous in accepting papers for this workshop, since they had many submissions. Eleven papers made the cut to be presented there, including a paper from Antske Fokkens, Fred van Lieburg and myself on making an 'old' historical dataset of Dutch ministers available for current and future enhanced use. Considering the claimed high level of rejection it could be expected that the best of what digital history has to offer at the moment would be presented there. So with good hopes I took the plane to Barcelona, together with VU professor in Computer Science Guus Schreiber.

So was the workshop as good as anticipated? I would say maybe and no. Let me start with the maybe. Were the papers presented really the best what digital history has to offer? This is impossible to tell, since all participants came from Western Europe, which leaves out a huge field of digital historians from the United States, Asia and Australia.  The papers dealt with topics and techniques like linking different datasets, automatic data extraction, Named Entity Recognition, and methodological reflections on the use of computational techniques for historical research. All of these are worthwhile topics to investigate and it resulted in interesting and useful papers. Over all however, I did not hear much that was new to me and I feel this was true for most other participants as well. Maybe this is just the current state of digital history, that we all know what we are and should be doing, or maybe there was a lack of groundbreaking submissions for this conference only. It does make me wonder however, if initiatives like these are a bit too much 'preaching for one's own church'. Should we not rather concentrate on missionary work to convince other historians of the benefits of what we are doing?   

Prof dr. Guus Schreiber presenting his paper


Then there is the no of the workshop, which may or may not have all to do with the signalled lack of truely innovative papers. The discussions lacked liveliness and there were hardly any questions which took the presenters by surprise. This may partly be the fault of the location of the worskhop; a lecture room in one of the buildings of the Universitat Pompeu Fabra. The room was dark, the way people were seated did not facilitate interactive discussions and there were no facilities to stimulate a more informal exchange of ideas during the breaks. The fact that the keynote speaker did not show up, I assume for very good reasons, of course did not help either to stimulate a great sense of commitment to the workshop. While one would think that the city of Barcelona normally provides a more than stimulating environment, the city now only underlined the darkness and greyness of the workshop venue.


Sagrada Familia, Barcelona 10 November

 
Of course not everything in academia has to be exiciting, and it is perfectly OK to have a 'boring' workshop on a boring location. When there is a general concensus on what is presented however, one might wonder if it would not be a good idea to stimulate contributions and attendance from digital sceptics and digital heretics as well. Maybe invite a keynote speaker who does not believe at all in the benefitis of digital history and who keeps everyone sharp during the day? I at least look forward to doing a presentation on the same topic for an audience of hopefully sceptical humanities scholars on 21 November.




dinsdag 8 juli 2014

Academische Mediawijsheid



Mediawijsheid werd in 2005 door de Raad van Cultuur gedefinieerd als “’… het geheel van kennis, vaardigheden en mentaliteit waarmee burgers zich bewust, kritisch en actief kunnen bewegen in een complexe, veranderlijke en fundamenteel gemedialiseerde wereld.”[1] In de eenentwintigste eeuw worden mensen bestookt met een heterogene informatiestroom uit een divers scala van kanalen. Nieuws komt niet meer alleen tot mensen via het NOS journaal en de krant, maar ook via social media als Twitter en Facebook en meer statische websites van een diverse signatuur. Het wordt scholieren in toenemende mate aangeleerd om met wijsheid om te gaan met niet alleen de informatie die ze tot zich nemen, maar ook die ze zelf de wereld insturen. Door middel van copy-pasten worden nieuwsberichten snel overgenomen, wat soms leidt tot blunders, zelfs van landelijke dagbladen.[2]
                Mediawijsheid is ook een relevant begrip voor de academische wereld. Aan de ene kant is er natuurlijk het probleem dat websites vaak geen bron vermelden van hun informatie, waardoor de waarde daarvan moeilijk te controleren valt. Wikipedia heeft in dat opzicht een in toenemende mate goede naam verkregen, door het zelfcensurerende vermogen van de gebruikers en het gebruik van verwijzingen en een standaard format. Aan de andere kant hebben met name de mogelijkheden tot het in rap tempo verspreiden van informatie geleid tot de nodige kopzorgen bij onderzoekers. Genealoog Kees van Schaik verwoordde de problemen die dat met zich meebrengt in 2013 op eloquente wijze in De Nederlandsche Leeuw: “Het probleem van onjuiste afstammingen op internet is de hardnekkigheid waarmee ze voortbestaan. Omdat de internetgenealogen alleen oog hebben voor personen die op internet voorkomen worden dubbelgangers die niet op internet zichtbaar zijn over het hoofd gezien. Secundaire bronnen die DTB-gegevens zouden kunnen bevestigen worden zelden geraadpleegd. Bronvermeldingen ontbreken. Fouten verspreiden zich daardoor als een griepvirus en vormen uiteindelijk een canon die een gezonde publicatie geheel overwoekert. Het is onbegonnen werk om al die onzin middels goed gedocumenteerde publicaties te weerleggen.”[3] Het gevaar van de snelle verspreiding van informatie is dus dat als deze incorrect is ze heel moeilijk in de media en publieke opinie te corrigeren is.
                Van Schaik legt echter ook de vinger op een ander pijnlijk punt: zelfs als de beschikbare en overal gebruikte informatie wel correct is, dan betekent dat niet noodzakelijkerwijs dat daar goede wetenschap mee bedreven wordt. Wij worden overspoeld met informatie en weinig academici kunnen nog alle literatuur op hun eigen vakgebied bijbenen. Er zou daardoor de neiging kunnen zijn om alleen of vooral de online beschikbare bronnen en literatuur te gebruiken. Zo loop je echter het gevaar dat alleen wat er al bekend is in duizendvoud wordt herschikt en geanalyseerd en dat nieuwe inzichten die zich buiten de inmiddels geijkte mediapaden bevinden buiten beschouwing worden gelaten. De utopie van een maatschappij waarin we alle informatie denken te hebben kan zo snel de vorm aannemen van een gouden kooi waar nooit meer iets nieuws of verfrissends doordringt. In samenhang daarmee moeten we natuurlijk heel blij zijn met citation indexes, maar vaak (altijd?) zijn die alleen gebaseerd op online gepubliceerde tijdschriften. Mensen die iets willen weten over een bepaald onderwerp komen uit bij een bepaald artikel, dat vervolgens weer geciteerd wordt en waarvan vervolgens de citation index weer omhoog schiet en daardoor weer meer geciteerd wordt. Google zal vervolgens ook weer in toenemende mate dit artikel laten terugkomen als de meest relevante hit voor een bepaalde zoekopdracht. 
                  Dit “information rehashing process wordt nog eens versterkt doordat mensen zaken die ze delen met anderen sneller onthouden.[4] Meer unieke vondsten, waarvoor dus een minder groot referentiekader is, raken daardoor juist sneller uit het actieve werkgeheugen.  Artikelen van vergelijkbare kwaliteit als de zogenaamde topartikelen die door iedereen worden aangehaald dreigen op die manier onverdiend in de vergetelheid te raken. Ironisch genoeg was dat bijvoorbeeld tot de jaren zeventig het lot van het inmiddels klassieke werk van Maurice Halbwachs over de collectieve herinnering, totdat het werd ‘herontdekt’. Daarnaast is er het gevaar dat mensen bijna plichtsgetrouw verwijzen naar bepaalde werken over een onderwerp, omdat dat nu eenmaal schijnt te moeten, maar het werk zelf niet of nauwelijks hebben ingekeken.
                Nu zijn deze problemen zeker niet nieuw, maar door de digitale media hebben ze wel een grotere bewustzijnsurgentie gekregen. Voor de wetenschapper betekent het dat hij/zij vooral goed moet blijven doen waar een wetenschapper voor getraind wordt: op verantwoorde wijze de meest relevante informatie tot zich nemen. Die verantwoorde wijze houdt in dat hij/zij ook buiten de vaak prachtige mogelijkheden van de digitale wereld kijkt en de internetzeepbel waarin hij/zij zich wellicht bevindt probeert te doorbreken. Historici in het bijzonder moeten het archief in blijven duiken, zoeken naar relevante literatuur buiten de platgetreden paden en zich niet alleen laten leiden door gedigitaliseerde bronnen.


[2] Zo nam De Telegraaf meerdere keren berichten over van de satirische pagina van “De Speld” uit De Pers. http://nl.wikipedia.org/wiki/De_Speld (geraadpleegd 31-10-2013).
[3] K. van Schaik, ‘Pek en Veren’, De Nederlandsche Leeuw 130 (2013) 54.
[4] M. Halbwachs, Das kollektive Gedächtnis. Mit einem Geleitwort zur deutschen Ausgabe von Heinz Maus (Frankfurt am Main 1991) 29.

dinsdag 24 juni 2014

Digital Humanities: van Bronkritiek naar Toolkritiek


De Hollandse politieke geschiedenis van de eerste helft van de zestiende eeuw is redelijk goed gedocumenteerd. Er was sprake van een drukke correspondentie tussen voornamelijk president van het Hof van Holland Gerrit van Assendelft en de landvoogdes en stadhouder in Brussel. Het is een van die toevalligheden van de geschiedenis dat juist omdat Den Haag redelijk ver verwijderd lag van Brussel en omdat stadhouder Anton van Lalaing daar ook nog eens vaak verbleef, er deze geschreven overblijfselen zijn. Deze rijke correspondentie plaatst de historicus, zoals de jongere versie van mijzelf tien jaar geleden, echter ook voor een probleem. Door alleen door de ogen van Van Assendelft naar de geschiedenis te kijken wordt het beeld ongewenst vertekend. Zijn correspondentie wordt mede bepaald door zijn visie op zijn vijanden, vrienden, verwanten en persoonlijke belangen. Verschillende meningen en visies zijn er weinig overgeleverd en wanneer die wel voorhanden zijn, bijvoorbeeld toen Van Assendelft werd beschuldigd van corruptie, ketterij en vriendjespolitiek, is het vaak moeilijk voor de historicus om af te wegen wie er nu 'gelijk' heeft. Iedere academische opleiding geschiedenis traint haar studenten dan ook, als het goed is, zo goed mogelijk in een gedegen bronkritiek. Daarnaast probeert een historicus zijn materiaal zo objectief mogelijk te lezen. Er zijn nog weinigen die durven te beweren dat ze een archiefstuk geheel onbevooroordeeld kunnen lezen. Iedereen wordt gevormd door zijn eigen tijd, plaats en omgeving of ontwikkelt sympathieën/antipathieën voor het onderzoeksobject.

Voor zover niets nieuws. Een goede historicus zal altijd zijn/haar bronnen kritisch bekijken en zich er van bewust zijn dat perspectieven, ook die van hem/haarzelf, veranderen. Wat minder voor de hand lijkt te liggen, en waar velen zich nog maar in beperkte mate van bewust zijn, is dat ook tools voor digitaal historisch onderzoek verre van objectief zijn. Net als de historicus verzamelt een tool data en komt op basis daarvan tot een synthese/antwoord/visualisatie.Tools zitten echter net als de historicus vol met 'aannames', die een belangrijke invloed kunnen hebben op de uitkomst van onderzoek.[1] Als een tool altijd kiest voor een bepaalde waarschijnlijkheid, bijvoorbeeld dat iedereen zonder een exact vermelde geboortedatum leefde voor de twintigste eeuw, dan kan dat een nuttige filter zijn voor de ene onderzoeksvraag, maar grote en ongewenste repercussies hebben voor een andere. Dit besef heeft de nodige consequenties: iedere tool die een historicus gebruikt zou moeten worden doorgelicht en bekritiseerd als een collega historicus, of zelfs als een (soms erg slordige) co-auteur of student-assistent. Het probleem daarbij is echter dat dat niet alleen betekent dat alle gemaakte keuzes bij het vervaardigen van een tool verantwoord moeten zijn, maar dat idealiter ook de complexe algoritmes die aan een tool ten grondslag liggen doorgrond moeten kunnen worden. Er zijn weinig historici die dat technische niveau, toch minstens dat van een bachelor computer science, in zijn mars heeft.

De vraag is nu wat er gedaan kan worden om dat gat tussen historicus en techniek te overbruggen. [2] Het meest simpele antwoord is natuurlijk dat de historicus ook computer scientist [3] moet worden (of andersom). Hoewel er hopelijk in de toekomst meer van dergelijke hybride figuren zullen komen dan nu, zullen er niet binnen afzienbare tijd honderden van rondlopen. Wellicht is het daarom zinvol om te denken aan de wijze woorden van een van mijn oude leermeesters: aan de VU: 'Een historicus moet een beunhaas zijn op alle gebieden.' Terwijl dat van oudsher gebieden zijn als rechten, oude talen, geografie, archiefwetenschap, kunstgeschiedenis, psychologie, codicologie en sociologie, zou daar simpelweg computer science bij moeten komen. Want om een andere oude leermeester aan te halen: 'Geschiedenis is alles.' In feite is enige kennis van computer science dan niet anders dan al die andere wetenschappen die nodig zijn om de beschikbare historische feiten (de data) te interpreteren.

De grote vraag is nu welke mate van beunhazigheid in de computer science nog acceptabel is om op verantwoorde wijze met digitale tools om te gaan. Aangezien digital humanities nog een gebied in opkomst is, is dit een vraag die nog vele antwoorden kent, zoals te merken is bij praktisch iedere discussie over digital humanities in het onderwijs. Geschiedenis als vak heeft altijd al, met het verschuiven van accenten, een opkomst en neergang gehad van kennis van (hulp)wetenschappen. De historicus van honderd jaar geleden zal immers ook niet hebben kunnen voorspellen dat statistiek nu een algemeen aanvaarde hulpwetenschap is en dat Latijn juist uit vele curricula geschrapt is. Wat in de huidige omstandigheden denk ik noodzakelijke en (voorlopig) voldoende voorwaarden zijn voor een verantwoorde omgang met digitale tools is dat de historicus 1) de beschikking heeft over een uitgebreide verantwoording van de gemaakte keuzes van de computer scientist; 2) Begrijpt hoe de computer scientist te werk gaat en waarom hij/zij bepaalde keuzes heeft moeten maken. Of met andere woorden: we moeten de taal van de computer scientist tot zekere hoogte passief beheersen. Dat is meteen ook de mate waarin veel historici andere (hulp)wetenschappen beheersen. Ik lees middelfrans, heb een basiskennis van het werk van socioloog Bourdieu en weet wat de rechtstermen betekenen in middeleeuwse vonnissen. Ik zou daarentegen nooit van mijn leven middelfrans (of zelfs maar fatsoenlijk modern Frans) kunnen spreken, heb geen enkele sociologische basis om het werk van Bourdieu te bekritiseren en heb geen flauw idee wanneer een middeleeuws vonnis niet in lijn is met de manier waarop in die tijd het canoniek Recht werd toegepast ... en ik kom er mee weg. 

Om te begrijpen hoe een tool werkt zou de historicus bijvoorbeeld niet in staat hoeven zijn om een tekst om te zetten naar linked data, maar wel moeten weten hoe dat proces ongeveer gaat en wat RDF triples zijn. Dit vergt een cultuuromslag, waarbij tools niet benaderd worden als gebruiksvoorwerpen (al zit dat in de naam), maar als de resultaten van een (hulp)wetenschap, die kritisch moeten worden benaderd voordat je ze gebruikt (op die manier zijn er ook voor- en tegenstanders van het toepassen van de ideeën van Bourdieu op historische processen). Vaak gaan historici nog enkel uit van de vraag hoe een tool hen kan helpen voor het beantwoorden van hun vragen, zoals onder meer bleek uit een workshop die ik organiseerde met mijn BiographyNet collega's. Naast veel enthousiaste reacties kregen wij, vermoedelijk terecht, te horen dat we ten onrechte de indruk hadden gewekt dat de deelnemers al resultaten zouden kunnen boeken met tools die we zouden aanreiken. Inderdaad was de workshop er vooral op gericht om de deelnemers inzicht te verschaffen in hoe computer scientists te werk gaan en vice versa. Dat op die manier een bijdrage werd geleverd aan de totstandkoming van de tool in ontwikkeling was duidelijk. Dat op die manier ook belangrijk inzicht werd verschaft in hoe zo'n tool werd gebouwd en dus ook kritisch benaderd kan worden was niet voor alle deelnemers even evident. Zonder die kennis kan er echter geen sprake zijn van een gedegen toolkritiek, die in de toekomst een steeds belangrijker rol zal gaan spelen naast de vertrouwde bronkritiek.
Er is in de nabije toekomst dus kortom nog veel bijscholing te verrichten, te beginnen met mijzelf.


[1]Het belangrijke artikel van B. Rieder, en T. Röhle gaat hier diep op in, in 'Digital methods: Five
challenges' .in: D. M. Berry ed., Understanding Digital Humanities (2012) 67–84.
[2] Zie  bijvoorbeeld ook het discussiedossier gecentreerd rond de stellingnames van UvA hoogleraar computationele en digitale geesteswetenschappen Rens Bod in BMGN 4 2014.
[3] Overal waar computer scientist staat kan ook computationeel linguïst staan

dinsdag 1 april 2014

Spectaculair of Spielerei? Basistools voor Tekstanalyse aan de hand van de Deductie van Johan de Witt

In de tweede helft van 2007 vroeg de secretaris van de Vereniging Vrienden van de Witt of ik wellicht iemand wist die een hertaling naar modern Nederlands kon maken van de zogenaamde Deductie van Johan de Witt. De vereniging beoogde deze moeilijke tekst uit 1654 toegankelijk te maken voor het voortgezet onderwijs. Geen eenvoudige opgave, aangezien ook al in de tijd van De Witt een vereenvoudigde versie circuleerde, zodat 'de gewone man' kon begrijpen waar De Witt het over had. In de Deductie verdedigt Johan de Witt, raadpensionaris (zeg maar eerste minister) van Holland, zich tegen de verwijten voor het aannemen van de Akte van Seclusie. In deze akte wordt onder druk van Engeland, die de Republiek tijdens de Eerste Engelse Zeeoorlog in het nauw had gedreven, beloofd nooit meer een Oranje te kiezen als stadhouder of kapitein-generaal. De tekst wordt van historisch groot belang geacht, vooral door Republiekeinen, aangezien De Witt onder meer uiteenzet waarom de Republiek in zijn ogen de beste staatsvorm is. In mijn oneindige bescheidenheid zei ik de secretaris dat ik de tekst zelf zou kunnen hertalen.Uiteindelijk zag de publicatie van de Deductie, dankzij de lovenswaardige organisatorische inspanningen van de Vereniging om de financiering rond te krijgen, in 2009 het licht.

Eind vorig jaar kreeg ik het verzoek van de Vereniging om nog eens in de Deductie te duiken en in het kader van een sympoisum over De Witt en Spinoza een presentatie te houden over de staatsopvatting van Johan de Witt. Het was voor mij een goede gelegenheid om wat moderne tools los te laten op de (door mij zelf getranscribeerde) tekst, om te kijken of er misschien verrassende dingen te zien waren in woordfrequentie, woorden per zin, et cetera. Met andere woorden: of de computer kon helpen bij de analyse van een tekst die ik al goed kende.

Om te beginnen vond ik een leuke tool, wordcounter, die mij kon vertellen hoeveel woorden, zinnen, en woorden per zin in de tekst staan. De tekst van De Witt bevat niet minder dan 34.453 woorden, verdeeld over 749 zinnen. Dat betekent dat hij 46 woorden per zin sprak. Sprak, aangezien hij de tekst voorlas in een vergadering van de Staten-Generaal en daar vijf uur over deed. Ter vergelijking: recent sprak onze premier Mark Rutte op het Innovation Convention in Brussel van 10 maart en gebruikte daarvoor 2.199 woorden en 16 woorden per zin.

Om te kijken welke patronen er in de tekst wellicht te ontwaren zijn heb ik gezocht naar een tool die een word cloud (zie afbeelding) kon genereren en/of een lijst van woordfrequenties kon geven. Hier moest ik mijn toevlucht nemen tot twee verschillende tools. Voor de word cloud kwam ik terecht bij: wordle. Een leuke tool en ook redelijk geavanceerd, aangezien het voor vele talen de altijd frequent voorkomende woorden als ‘de’ en ‘van’ weg zou laten. Begrijpelijkerwijs werkt dat echter niet voor zeventiende-eeuws Nederlands. Woorden als ‘ende’ (1275 keer), ‘vande’ et cetera komen terug, waardoor de cloud alsnog een visualisatie wordt van zeer generieke woorden. Heel veel verder kwam ik daar daarom niet mee (zie echter het addendum aan het einde van de tekst).