Home » Artikel
SocMag 2-2020

Machine learning als methode én studieobject

Alhoewel Artificiële Intelligentie (AI) en machine learning al in de jaren 50  bekende fenomenen waren, is er de laatste jaren sprake van een explosie aan toepassingen in allerlei levensdomeinen. Sociologen kunnen een belangrijke rol spelen in het gebruik van de nieuwe technieken, met soms grote maatschappelijke gevolgen.

Tekst: Frank van Beek en Joshua Eykens

Artificiële Intelligentie-systemen en machine learning-algoritmes worden ontwikkeld om computers in staat te stellen de cognitieve functies van mensen na te bootsen, zonder daar expliciet voorgeprogrammeerde commando’s voor nodig te hebben. Een bekend voorbeeld hiervan is Deep Blue, een schaakcomputer die ontwikkeld werd door het computerbedrijf IBM. In 1996 verloor Garry Kasparov, toenmalig wereldkampioen schaken, van deze 'tegenstander', al in de eerste ronde.

 Denksport kan dan misschien wel als een triviale toepassing worden beschouwd, de meer recente applicaties zijn dat allerminst. Het detecteren van goed- en kwaadaardige tumoren op CT-scans bijvoorbeeld. Of het automatisch categoriseren van allerhande gegevens die online gedeeld worden, van YouTube-video’s tot e-mails. Financiële instellingen maken gebruik van machine learning om risico’s in te schatten of om leningen toe te kennen.

 Toepassingen van AI beperken zich niet enkel tot private spelers. Ook overheden willen gebruikmaken van deze technologieën. In de Verenigde Staten wordt een softwarepakket gebruikt dat de kans op recidivisme van ex-gevangenen bepaalt. Tientallen politiediensten gebruiken er ook predictive policing, een applicatie die berekent waar er het meest waarschijnlijk misdaden zullen plaatsvinden. In Nederland was er veel ophef rond SyRI, een (inmiddels stopgezet) instrument om het risico op bijstandsfraude op te sporen in Rotterdam.
 

Rekenkundige knopen

AI-systemen op basis van machine learning-algoritmes worden ingezet voor het herkennen van patronen in vaak enorme hoeveelheden data. Machine learning-modellen bestaan uit algoritmes die op basis van berekeningen een beslissing maken over nieuwe data. Zo’n algoritme is in feite een soort van statistische handleiding, die in de vorm van een programma aan de computer opgelegd wordt om rekenkundige knopen door te hakken.

 

"De verzameling van statistische technieken is niet te overzien en breidt zich voortdurend verder uit"

 

 Het databedrijf Cambridge Analytica maakte een aantal jaren geleden gebruik van machine learning om de politieke voorkeuren van Facebookgebruikers in te schatten. De onderzoekers sloegen hiervoor een grote verzameling Facebookprofielen op in een databank. Voor de voorspelling van de voorkeuren hanteerde de computer daarbij de algoritmische handleiding, om de profielen vervolgens te verwerken. Er werden in die handleiding instructies geprogrammeerd om eerst een matrix op te stellen met variabelen, bijvoorbeeld land van herkomst, regio, vind-ik-leuks, opleidingsniveau, leeftijd of favoriete films en personen. Aan de hand van die matrix werd vervolgens door het machine learning-algoritme gezocht naar relaties tussen de variabelen en politieke voorkeuren van gebruikers.

 Welke politieke partijen hebben jouw voorkeur? En welke partijen vinden jouw vrienden leuk? Om welke onderwerpen gaat het wanneer je een bericht deelt? Dit proces van zoeken naar patronen wordt in vakterminologie het trainen of leren van het algoritme genoemd. Gedurende het proces van trainen is het van belang om bepaalde parameters van het model op de juiste af te stemmen. Die parameters zijn bepalend voor allerhande gevoeligheden van een algoritme. Denk bijvoorbeeld aan het aantal toegestane aftakkingen in een keuzeboom, een van de meest intuïtieve machine learning-algoritmes. De uitkomst van het trainen en instellen van de parameters is een machine learning-model, bijvoorbeeld in de vorm van zo’n keuzeboom, die we vervolgens kunnen inzetten om op automatische wijze Facebookprofielen in te delen naar politieke oriëntatie.
 

Twee uitersten

De verzameling van statistische technieken is niet te overzien en breidt zich voortdurend verder uit. Er verschijnen bijna dagelijks aanpassingen van, of toevoegingen aan bestaande machine learning-technieken. Een belangrijk onderscheid tussen al die knappe algoritmes bestaat eruit dat het algoritme al dan niet moet worden getraind aan de hand van voorbeelden; geven we de categorieën mee waar het algoritme een onderscheid tussen dient te maken, of doen we dat niet? En naar analogie met het eerder aangehaalde voorbeeld: weet het algoritme wat de politieke voorkeuren van de Facebookgebruikers zijn? Indien dat niet het geval is, spreken we van ongesuperviseerd leren. De beide vormen, gesuperviseerd en ongesuperviseerd leren, zijn de twee uitersten op een continuüm.

 Bij gesuperviseerd leren krijgt het algoritme eerst een grote hoeveelheid voorgekauwde training-data te verwerken (bijvoorbeeld de Facebookprofielen waarvan de politieke voorkeuren bekend zijn). Op basis van die training-data kan het algoritme een aantal regels destilleren waarmee beslissingen gemaakt kunnen worden over nieuwe gegevens; welke artiesten, films of pagina’s vinden links georiënteerde personen leuk? Is er een onderscheid met rechts gezinde personen te maken?

 In het geval van ongesuperviseerd leren zijn de data niet voorgekauwd; de categorieën zijn nog niet bekend. Algoritmes worden dan ingezet om op zoek te gaan naar complexe patronen die voor een menselijke observator maar moeilijk te verwerken of interpreteren zouden zijn. Tussen deze twee vormen bevindt zich een aantal variaties waarbij bijvoorbeeld eerst ongesuperviseerd leren wordt ingezet om op zoek te gaan naar bepaalde groeperingen in een dataset, zoals de disposities in de vorm van films en muziek die personen leuk vinden. Die groeperingen worden vervolgens geïnterpreteerd door een menselijke expert, en aan de hand van die interpretatie kunnen dan categorieën worden toegekend aan de groeperingen. Daarna kan een gesuperviseerd algoritme getraind worden met deze gecategoriseerde datamatrix.
 

Een nieuwe toolbox

Machine learning-methoden zorgen voor een nieuwe toolbox waaruit geput kan worden voor sociologisch onderzoek. De manier van werken verschilt in twee opzichten van klassieke kwantitatieve benaderingen die gangbaar zijn in de sociologie. In tegenstelling tot de inferentiële statistiek bijvoorbeeld, laten machine learning-algoritmes toe om enorme hoeveelheden en bovenal zeer heterogene data in een analyse te betrekken. Uiteenlopende types variabelen, gaande van kwalitatieve beschrijvingen tot persoonskenmerken en smaakvoorkeuren, kunnen door de meeste algoritmes zonder veel problemen gelijktijdig geanalyseerd en met elkaar in verband gebracht worden. Verschillende sociologische theorieën kunnen daardoor in eenzelfde experiment worden getest.

 Werken met machine learning-technieken vereist daarenboven van de onderzoeker dat er een deel van de dataset opzij gehouden wordt om het uiteindelijke model te valideren, de test set. Het opstellen van een machine learning-model is één ding, maar deze moet ook generaliseerbaar zijn naar nieuwe data. Dit vereist van de socioloog een goed doordacht theoretisch kader. Mario Molina en Filiz Garip hopen in hun artikel Machine learning for Sociology dat we door die twee sterktes, het toelaten van heterogeniteit en het out-of-sample-testen, meer holistische sociologische theorieën kunnen ontwikkelen, waarin heterogeniteit en complexiteit meer ruimte krijgen.
 

"De computerwetenschappen hebben nood aan een sociologische blik"

 

Goede werking

Niet alleen het toepassen van machine learning-methoden in sociologisch onderzoek zal voor interessante mogelijkheden zorgen. Machine learning-applicaties en besluitvorming die daarop gebaseerd is, beginnen een belangrijk deel van ons leven uit te maken, en hier kunnen sociologen een belangrijke rol op zich nemen.

 Een algoritme heeft geen ethisch besef en kan niet oordelen over de rechtvaardigheid van de conclusies die het produceert. Het gaat slechts 'beslissingen' nemen op basis van de data waarop het getraind is. Voor de goede werking van een machine learning-model is de kwaliteit van de trainingsdata cruciaal. Toen Amazon een instrument trachtte te ontwerpen dat cv’s moest screenen, werd al snel duidelijk dat het resulterende model vrouwen discrimineerde. De trainingsdata waarmee het model gebouwd werd, bestonden immers vooral uit cv’s van mannelijke applicanten. Het model legde de link tussen succesvolle sollicitanten en mannen en 'leerde' die ongelijkheid te repliceren.

 Het model is maar zo zwak (of zo goed) als de trainingsdata. Historische ongelijkheden, scheve maatschappelijke verhoudingen of andere vooroordelen worden niet gecorrigeerd door het gebruik van AI, integendeel. Zo ook met het voorbeeld van de aansturing van politie-patrouilles aan de hand van de predictive policing-applicatie. Net zoals door vaker te gaan patrouilleren in bepaalde buurten (zoals arme en zwarte buurten) waaruit er meer cases komen, zullen ook daar nadien meer gevallen gerapporteerd worden. Machine learning-modellen kunnen dus bepaalde vooroordelen of maatschappelijke problemen reproduceren of zelfs versterken.

 Er is behoefte aan inzicht in de complexiteit van de sociale wereld. Sociologen kunnen interveniëren door technologieën te begrijpen als ingebed in politieke, economische, institutionele en culturele netwerken. De computerwetenschappen hebben nood aan een sociologische blik, om bijvoorbeeld machtsverhoudingen, ongelijkheid en groepsverschillen vast te stellen en te begrijpen.
 

Algorithmic fairness

Algorithmic fairness is de laatste jaren een belangrijker concept geworden in de computerwetenschappen. De definitie van die term hangt af van het gegeven waaraan je de eerlijkheid van het model gaat meten. Zo kan men proberen om gelijkheid tussen verschillende groepen na te streven. Een grote bron van problemen is immers dat de accuraatheid van een model gelinkt kan zijn aan een bepaalde groep. Datzelfde model zal toegepast op een andere groep net erg inaccuraat of bevooroordeeld te werk gaan, zoals de sollicitatietool van Amazon vrouwen benadeelde. Demografische gelijkheid probeert verhoudingsgewijs dezelfde resultaten te krijgen voor verschillende bevolkingsgroepen.

 Een andere insteek richt zich op het individuele niveau. Twee gelijkaardige personen zouden in feite hetzelfde resultaat moeten krijgen. Als twee personen bijvoorbeeld enkel verschillen op vlak van seksuele geaardheid, zouden ze allicht kans moeten maken op bijvoorbeeld dezelfde lening. Het is echter vaak lastig om te bepalen wat 'gelijkaardig' precies inhoudt.
 

Verschillende partijen

Deze verschillende perspectieven op vlak van algorithmic fairness zijn echter soms incompatibel. Geef je meer gewicht aan de ene invulling, dan moet een andere vorm van gelijkheid soms inboeten. Zo is demografische gelijkheid moeilijk verzoenbaar met gelijkheid van kansen. Je kan mikken op het verlagen van verschillende soorten foutenpercentages, maar je kan ze dus niet allemaal aanpakken.

 De vraag is: waar let je op als je meet? Het model kan door verschillende partijen minder of meer accuraat en rechtvaardig worden geacht. Kijk je bijvoorbeeld naar de foutief positief geklasseerden, of de foutief negatief geklasseerden? Sociologen kunnen helpen bij het begrijpen van de maatschappelijke gevolgen van zulke keuzes. Welke impact hebben gemaakte keuzes bij data-vergaring en algoritmische classificatie op bijvoorbeeld de levenskansen en sociale mobiliteit van bepaalde individuen en groepen in de samenleving?

 Machine learning-technieken zijn interessant voor sociologen, als studieobject op zich, én als methodologisch kader. Ze beïnvloeden al in sterke mate de bestaande besluitvorming in verschillende levensdomeinen. Sociologen moeten ervoor zorgen dat het gebruik ervan op een meer sociaal rechtvaardige en transparante manier gebeurt.

Literatuur
Machine learning for sociology. Mario Molina & Filiz Garip (2019) In: Annual review of sociology, 45, 27-45.

 

Dit artikel verscheen eerder in Sociologie Magazine: 

Details

Structuur: 

Auteur: 

Frank van Beek
Joshua Eykens