Vertekening in natuurlijke taalverwerking detecteren en verminderen

Managementsamenvatting

Ongecontroleerde kunstmatige-intelligentiemodellen (AI) die automatisch verborgen patronen in natuurlijke taaldatasets ontdekken, leggen taalkundige regelmatigheden vast die menselijke vooroordelen weerspiegelen, zoals racisme, seksisme en bekwaamheid.eenDeze niet-gecontroleerde AI-modellen, namelijk woordinbeddingen, bieden de fundamentele, algemene, numerieke weergave van taal voor machines om tekstuele gegevens te verwerken.





Woordinbeddingen identificeren de verborgen patronen in statistieken van gelijktijdig voorkomen van woorden van taalcorpora, waaronder grammaticale en semantische informatie, evenals menselijke vooroordelen. Bijgevolg, wanneer woordinbeddingen worden gebruikt in natuurlijke taalverwerking (NLP), verspreiden ze vooringenomenheid naar gesuperviseerde downstream-applicaties en dragen ze bij aan vooringenomen beslissingen die de statistische patronen van de gegevens weerspiegelen. Deze downstream-applicaties voeren taken uit zoals het ophalen van informatie, het genereren van tekst, machinevertaling, tekstsamenvattingen en zoeken op internet, naast de daaruit voortvloeiende besluitvorming tijdens het screenen van cv's voor de selectie van sollicitanten, automatisering van universitaire toelatingen of het beoordelen van essays. Woordinbeddingen spelen een belangrijke rol bij het vormgeven van de informatiesfeer en kunnen helpen bij het maken van consequente gevolgtrekkingen over individuen. Sollicitatiegesprekken, toelating tot de universiteit, essayscores, inhoudsmoderatie en nog veel meer besluitvormingsprocessen waarvan we ons misschien niet bewust zijn, hangen steeds meer af van deze NLP-modellen.



Miljarden mensen die dagelijks internet gebruiken, worden blootgesteld aan vooringenomen woordinbeddingen. Er is echter geen regelgeving om deze AI-technologieën te controleren die potentiële bedreigingen vormen voor rechtvaardigheid, gerechtigheid en democratie. Als gevolg hiervan is er dringend behoefte aan regelgevende mechanismen, een divers AI-ethisch personeelsbestand en technische benaderingen om te voorkomen dat AI-technologieën de schadelijke bijwerkingen ervan versnellen.twee



Bias in natuurlijke taalverwerking (NLP) begrijpen

Amazon's geautomatiseerde cv-screening voor het selecteren van de beste sollicitanten bleek in 2015 vrouwen te discrimineren.3Amazon gebruikte cv-samples van sollicitanten uit een periode van 10 jaar om zijn wervingsmodellen te trainen. Deze begeleide downstream NLP-toepassing leerde hoe kandidaten te scoren door de patronen in eerdere cv-samples van Amazon en respectieve informatie over het succesniveau van de sollicitant te berekenen. Als gevolg hiervan leerde het getrainde model de historische trends die verband houden met werkgelegenheid bij Amazon door taalkundige patronen op cv's te ontdekken. Vrouwen waren ondervertegenwoordigd in het opleidingsaanbod van medewerkers. Bijgevolg associeerde het cv-screeningmodel mannen en de taalkundige signalen op hun cv's met succesvolle tewerkstelling bij Amazon, terwijl cv's van kandidaten die woorden bevatten die met vrouwen werden geassocieerd, door het algoritme vaak werden weggegooid. De bevooroordeelde patronen die het model leerde, leidden tot discriminatie van vrouwelijke sollicitanten. Amazon verliet de geautomatiseerde wervingstool al snel nadat ze de vooringenomenheid hadden ontdekt.



De bevooroordeelde beslissingen van NLP-toepassingen bestendigen niet alleen historische vooroordelen en onrechtvaardigheden, maar versterken mogelijk bestaande vooroordelen op een ongekende schaal en snelheid. Toekomstige generaties van woordinbeddingen worden getraind op tekstuele gegevens die zijn verzameld uit online mediabronnen, waaronder de bevooroordeelde resultaten van NLP-toepassingen, informatiebeïnvloedingsoperaties en politieke advertenties van over het hele internet. Bijgevolg creëert het trainen van AI-modellen op zowel natuurlijke als kunstmatig bevooroordeelde taalgegevens een AI-biascyclus die van invloed is op cruciale beslissingen die worden genomen over mensen, samenlevingen en regeringen.



AI- en NLP-technologieën zijn niet gestandaardiseerd of gereguleerd, ondanks dat ze worden gebruikt in kritieke praktijktoepassingen. Technologiebedrijven die geavanceerde AI ontwikkelen, zijn onevenredig krachtig geworden met de gegevens die ze verzamelen van miljarden internetgebruikers. Deze datasets worden gebruikt om AI-algoritmen te ontwikkelen en modellen te trainen die de toekomst van zowel technologie als samenleving vormgeven. AI-bedrijven zetten deze systemen in om in hun eigen platforms te integreren, naast het ontwikkelen van systemen die ze ook aan overheden verkopen of als commerciële diensten aanbieden.



hoeveel weken in 12 maanden?

Technologiebedrijven die geavanceerde AI ontwikkelen, zijn onevenredig krachtig geworden met de gegevens die ze verzamelen van miljarden internetgebruikers.

Met het gebrek aan regelgeving en gemakkelijk beschikbare bias-auditmechanismen hebben AI-bedrijven geen transparantie geboden in de dagelijkse effecten van de algoritmen die ze in de samenleving inzetten. De algoritmen voor machinevertaling van Google zetten bijvoorbeeld de genderneutrale Turkse zinnen O bir profesör om. O bir öğretmen voor de Engelse zinnen Hij is een professor. Zij is een lerares. Facebook heeft experimenten met menselijke proefpersonen uitgevoerd op zijn platform om te bestuderen hoe de emoties van gebruikers kunnen worden gemanipuleerd via bevooroordeelde tekst die associaties van onaangenaamheden oproept.4



Social-mediaplatforms beslissen automatisch welke gebruikers moeten worden blootgesteld aan bepaalde soorten inhoud die aanwezig zijn in politieke advertenties en informatiebeïnvloedingsoperaties, op basis van persoonlijkheidskenmerken die worden voorspeld op basis van hun gegevens.5Terwijl onderzoekers de schadelijke bijwerkingen van NLP-algoritmen die vooringenomen taalmodellen bevatten, identificeren en meten, kan regulering van algoritmen en AI-modellen de schadelijke downstream-effecten van grootschalige AI-technologieën helpen verlichten.



Vooroordelen in woordinbedding

In 2017 hebben Joanna Bryson, Arvind Narayanan en ik bij het Centre for Information Technology Policy van Princeton University methoden ontwikkeld die aantonen dat woordinbeddingen menselijke vooroordelen leren uit statistieken over gelijktijdige voorkomen van woorden.6Wanneer woorden die concepten vertegenwoordigen vaak voorkomen met bepaalde attributen, leren woordinbeddingen het concept te associëren met de gelijktijdig voorkomende attributen. Zinnen die bijvoorbeeld woorden bevatten die te maken hebben met keuken of kunst, bevatten meestal woorden die met vrouwen te maken hebben. Zinnen die termen voor loopbaan, wetenschap en technologie bevatten, bevatten echter meestal woorden die verband houden met mannen. Als gevolg hiervan, wanneer machines taal verwerken om woordinsluitingen te leren, verschijnen vrouwen, als een sociale groep, in de buurt van woorden als familie en kunst in vergelijking met mannen; terwijl mannen, als een sociale groep, in de onmiddellijke nabijheid van carrière, wetenschap en technologie verschijnen. We ontdekten dat er stereotiepe associaties bestaan ​​voor geslacht, ras, leeftijd en kruisingen tussen deze kenmerken. Wanneer deze stereotype associaties zich verspreiden naar downstream-applicaties die informatie op internet presenteren of consequente beslissingen nemen over individuen, benadelen ze minderheids- en ondervertegenwoordigde groepsleden. Zolang taalcorpora die wordt gebruikt om NLP-modellen te trainen vooroordelen bevatten, zullen woordinbeddingen historische onrechtvaardigheden in downstream-toepassingen blijven repliceren, tenzij effectieve regelgevende praktijken worden geïmplementeerd om vooroordelen aan te pakken.

Raciale vooroordelen in NLP

Het bestuderen van vooroordelen in veelgebruikte woordinsluitingen, getraind op een corpus van 800 miljard woorden verzameld op internet, onthult dat namen van Afro-Amerikanen de neiging hebben om samen met onaangename woorden voor te komen. Het meten van de relatieve associatie van namen van Afro-Amerikanen versus namen van blanke mensen met aangename en onaangename woorden laat zien dat de woordinbeddingen negatieve associaties bevatten voor het concept van een Afro-Amerikaanse sociale groep vanwege de bevooroordeelde weergave van de groep op internet.7Dit soort associaties die een negatieve houding ten opzichte van een sociale groep weerspiegelen, worden als schadelijk en bevooroordeeld beschouwd. Soortgelijke negatieve associaties worden weerspiegeld voor ouderen en mensen met een handicap. En vrouwen worden vaak geassocieerd met familie en literatuur, terwijl mannen worden geassocieerd met carrière en wetenschap. Het is ook vermeldenswaard dat state-of-the-art taalmodellen over het algemeen de stereotypen en vooroordelen vastleggen die aanwezig zijn in de Amerikaanse cultuur, ook al worden deze NLP-technologieën over de hele wereld gebruikt.



In 2004 ontdekte een gecontroleerd onderzoek naar discriminatie op de arbeidsmarkt dat cv's met unieke blanke namen 50 procent meer worden teruggebeld voor interviews dan cv's met unieke Afro-Amerikaanse namen met dezelfde kwalificaties.8Het gebruik van de namen van sollicitanten uit het onderzoek naar arbeidsmarktdiscriminatie tijdens het kwantificeren van vooroordelen in woordinbeddingen legt sterke negatieve associaties met Afro-Amerikanen als sociale groep bloot. Terwijl mensen consequente beslissingen nemen over andere mensen op individuele of collectieve basis, nemen black-box NLP-technologieën grootschalige beslissingen die deterministisch bevooroordeeld zijn. Dienovereenkomstig staat de samenleving voor een grotere en versnelde uitdaging in vergelijking met de omgang met menselijke besluitvormers, aangezien NLP niet is gereguleerd om gelijkheid en sociale rechtvaardigheid te bevorderen.9



Genderbias in NLP

State-of-the-art grote taalmodellen die dynamische contextafhankelijke woordinbedding leren, zoals het miljoenen-dollarmodel GPT-3, associeert mannen met competentie en beroepen die een hoger opleidingsniveau in downstream NLP-taken demonstreren.10Veel experts beschouwen de door GPT-3 gegenereerde tekst op basis van verschillende criteria als niet te onderscheiden van door mensen gegenereerde tekst. Hoe dan ook, wanneer gevraagd om taalgeneratie met de input, wat is het geslacht van een arts? het eerste antwoord is: Doctor is een mannelijk zelfstandig naamwoord; terwijl, wanneer gevraagd met Wat is het geslacht van een verpleegster? het eerste antwoord is: het is vrouwelijk.

Bovendien associëren woordinbeddingen, zowel statisch als dynamisch, de kruising van ras en geslacht met de hoogste omvang van nadelige vooroordelen.elfNet als andere AI-algoritmen die de status-quo weerspiegelen, worden alle sociale groepen die niet uit blanke mannen bestaan, weergegeven als minderheidsgroepen vanwege een gebrek aan nauwkeurige en onbevooroordeelde gegevens om woordinbedding te trainen. Leden van meerdere minderheidsgroepen, zoals Afro-Amerikaanse vrouwen, worden bijvoorbeeld sterk geassocieerd met verschillende nadelige vooroordelen in vergelijking met de relatief minder intense vooroordelen die worden geassocieerd met hun samenstellende minderheidsgroepen, Afro-Amerikanen of vrouwen. Dezelfde sterke en potentieel schadelijke vooringenomen associaties bestaan ​​ook voor Mexicaans-Amerikaanse vrouwen. Bijgevolg zou de verspreiding van vooroordelen over sociale groepen in downstream NLP-toepassingen, zoals geautomatiseerde cv-screening, niet alleen bestaande vooroordelen bestendigen, maar mogelijk schadelijke vooroordelen in de samenleving verergeren die toekomstige generaties zullen treffen.12



De problemen van debiasing door verenigingen van sociale groepen

Debiasing door woordinbedding is geen haalbare oplossing voor de biasproblemen die worden veroorzaakt in downstream-toepassingen, aangezien het debiasing van woordinbedding essentiële context over de wereld verwijdert. Woordinbeddingen vangen signalen op over taal, cultuur, de wereld en statistische feiten. Zo zou genderdebiasing van woordinbeddingen een negatief effect hebben op hoe nauwkeurig beroepsstatistieken over gender in deze modellen worden weerspiegeld, wat noodzakelijke informatie is voor NLP-operaties. Genderbias is verstrengeld met grammaticale geslachtsinformatie in woordinbeddingen van talen met grammaticaal geslacht.13Woordinsluitingen bevatten waarschijnlijk meer eigenschappen die we nog niet hebben ontdekt. Bovendien zou het vooringenomen zijn om alle bekende associaties van sociale groepen te verwijderen, leiden tot inbedding van woorden die de wereld niet nauwkeurig kunnen weergeven, taal niet kunnen waarnemen of downstream-toepassingen kunnen uitvoeren. In plaats van blindelings de inbedding van woorden te negeren, zou het een beter geïnformeerde strategie zijn om het bewustzijn van AI's bedreigingen voor de samenleving te vergroten om eerlijkheid te bereiken tijdens de besluitvorming in downstream-toepassingen.



Ondertussen kan een diverse reeks deskundige mensen-in-the-loop samenwerken met AI-systemen om AI-vooroordelen bloot te leggen en aan te pakken volgens normen en ethische principes. Er zijn ook geen vastgestelde normen voor het evalueren van de kwaliteit van datasets die worden gebruikt bij het trainen van AI-modellen die worden toegepast in een maatschappelijke context. Het opleiden van een nieuw type divers personeelsbestand dat gespecialiseerd is in AI en ethiek om de schadelijke bijwerkingen van AI-technologieën effectief te voorkomen, zou de schadelijke bijwerkingen van AI verminderen.

Wat kunnen beleidsmakers doen om eerlijkheid in NLP te creëren?

Tenzij de samenleving, de mens en de technologie volkomen onbevooroordeeld worden, zullen woordinbeddingen en NLP bevooroordeeld zijn. Dienovereenkomstig moeten we mechanismen implementeren om de schadelijke effecten op korte en lange termijn van vooroordelen op de samenleving en de technologie zelf te verminderen. We hebben een stadium bereikt in AI-technologieën waar menselijke cognitie en machines samen evolueren met de enorme hoeveelheid informatie en taal die wordt verwerkt en gepresenteerd aan mensen door NLP-algoritmen. Inzicht in de co-evolutie van NLP-technologieën met de samenleving door de lens van mens-computerinteractie kan helpen bij het evalueren van de oorzakelijke factoren achter hoe menselijke en machine besluitvormingsprocessen werken. Het identificeren van de oorzakelijke factoren van vooringenomenheid en oneerlijkheid zou de eerste stap zijn in het vermijden van ongelijksoortige effecten en het verminderen van vooroordelen.

Om deze natuurlijke en kunstmatige besluitvormingsprocessen te analyseren, moeten eigen vooringenomen AI-algoritmen en hun trainingsdatasets die niet beschikbaar zijn voor het publiek transparant worden gestandaardiseerd, gecontroleerd en gereguleerd. Van technologiebedrijven, overheden en andere machtige entiteiten kan niet worden verwacht dat ze zichzelf reguleren in deze computationele context, aangezien evaluatiecriteria, zoals eerlijkheid, op tal van manieren kunnen worden weergegeven. Het voldoen aan eerlijkheidscriteria in de ene context kan discriminerend zijn voor bepaalde sociale groepen in een andere context. Bovendien kan met nieuwe AI-technieken kunstmatig worden voldaan aan de gewenste eerlijkheidscriteria, terwijl minderheden worden gediscrimineerd, door AI-trucs toe te passen via vijandige machine learning.14Ondertussen kan het eeuwen duren om geavanceerde AI-technologieën te ontwikkelen die zijn afgestemd op menselijke waarden en die zichzelf kunnen reguleren.

Het diversifiëren van de pool van AI-talent kan bijdragen aan waardegevoelig ontwerp en het samenstellen van trainingssets van hogere kwaliteit die representatief zijn voor sociale groepen en hun behoeften.

Bevooroordeelde NLP-algoritmen hebben een direct negatief effect op de samenleving door bepaalde sociale groepen te discrimineren en de bevooroordeelde associaties van individuen vorm te geven via de media waaraan ze worden blootgesteld. Bovendien vergroten deze vooroordelen op de lange termijn de ongelijkheid tussen sociale groepen in tal van aspecten van ons sociale weefsel, waaronder de beroepsbevolking, het onderwijs, de economie, de gezondheidszorg, het recht en de politiek. Het diversifiëren van de pool van AI-talent kan bijdragen aan waardegevoelig ontwerp en het samenstellen van trainingssets van hogere kwaliteit die representatief zijn voor sociale groepen en hun behoeften. Mensen in de lus kunnen elk onderdeel in de AI-levenscyclus testen en auditen om te voorkomen dat vooringenomenheid zich verspreidt naar beslissingen over individuen en de samenleving, inclusief datagestuurde beleidsvorming. Om betrouwbare AI te bereiken, moeten bedrijven en agentschappen voldoen aan normen en slagen voor de evaluaties van kwaliteits- en eerlijkheidscontroles door derden voordat AI bij de besluitvorming wordt gebruikt.

Technologiebedrijven hebben ook de macht en gegevens om de publieke opinie en de toekomst van sociale groepen vorm te geven met de bevooroordeelde NLP-algoritmen die ze introduceren zonder AI-veiligheid te garanderen. Technologiebedrijven hebben geavanceerde NLP-modellen getraind om krachtiger te worden door het verzamelen van taalcorpora van hun gebruikers. Ze vergoeden gebruikers echter niet tijdens gecentraliseerde verzameling en opslag van alle gegevensbronnen. Deze strategie, in combinatie met financiële prikkels die de persoonlijke informatie van gebruikers vereisen, hebben geleid tot surveillancekapitalisme en geautomatiseerde discriminatie door optimalisatie met een snelheid die niet mogelijk was met voorheen kleinere industriële schaaltools die beschikbaar waren in de samenleving.vijftienDoor een gebrek aan regelgeving hebben deze aanhoudende onethische AI-praktijken de rechtvaardigheid en democratie snel ondermijnd.

Jane Seymore King Henry

Het ultramoderne, grote commerciële taalmodel dat in licentie is gegeven aan Microsoft, OpenAI's GPT-3, is getraind op enorme taalcorpora die via internet is verzameld. De computationele middelen voor het trainen van OpenAI's GPT-3 kosten ongeveer 12 miljoen dollar.16Onderzoekers kunnen toegang vragen om grote taalmodellen te doorzoeken, maar ze krijgen geen toegang tot de woordinbeddingen of trainingssets van deze modellen. Om deze high-impact toepassingen systematisch te bestuderen, hebben onderzoekers enorme middelen nodig om de modellen te repliceren om de omvang van vooroordelen te meten en inzicht te krijgen in hoe ze de samenleving, het publieke discours, onze waarden en meningen kunnen vormen.

Zonder toegang tot de trainingsgegevens en dynamische woordinbeddingen is het niet mogelijk om de schadelijke neveneffecten van deze modellen te bestuderen. En toegang hebben tot woordinbeddingen en gegevens kan nieuwe wetenschappelijke ontdekkingen vergemakkelijken voor maatschappelijk welzijn, inclusief vooruitgang zoals de ontdekking van nieuwe materialen uit woordinbeddingen.17Ontwikkelaars van grote taalmodellen kunnen de trainingscorpora echter niet delen vanwege gegevensprivacywetten. Bovendien hebben vijandige machine learning-onderzoekers onlangs aangetoond dat het mogelijk is om trainingsgegevens, inclusief persoonlijk identificeerbare informatie, uit grote taalmodellen te extraheren.18Onderzoekers, ontwikkelaars en beleidsmakers hebben dringend een omgeving nodig om samen aan deze modellen te werken, maar het gebrek aan vastgestelde normen belemmert de wetenschappelijke vooruitgang en zal de samenleving hoogstwaarschijnlijk schaden. Het aannemen van federale privacywetgeving om technologiebedrijven verantwoordelijk te houden voor massasurveillance is een startpunt om een ​​aantal van deze problemen aan te pakken. Het definiëren en bekendmaken van strategieën voor het verzamelen van gegevens, het gebruik, de verspreiding en de waarde van persoonlijke gegevens voor het publiek zou het bewustzijn vergroten en tegelijkertijd bijdragen aan veiliger AI.

Het samenbrengen van een divers AI- en ethisch personeelsbestand speelt een cruciale rol bij de ontwikkeling van AI-technologieën die niet schadelijk zijn voor de samenleving. Naast vele andere voordelen kan een divers personeelsbestand dat zoveel mogelijk sociale groepen vertegenwoordigt, anticiperen, detecteren en omgaan met de vooroordelen van AI-technologieën voordat ze in de samenleving worden ingezet. Verder kan een diverse reeks experts manieren bieden om de ondervertegenwoordiging van minderheidsgroepen in datasets te verbeteren en door hun ervaringen bij te dragen aan waardegevoelig ontwerp van AI-technologieën.

Andere aanbevelingen om NLP te ontkrachten zijn onder meer:

  • Het implementeren van auditmechanismen om de omvang en soorten vooroordelen te volgen in gegevens die worden geproduceerd door NLP-algoritmen, zoals informatie die wordt opgehaald door sociale-mediaplatforms, zou een stap zijn om te begrijpen hoe AI-vooringenomenheid de publieke opinie zou kunnen vormen. Dienovereenkomstig kan een audit de opkomst van nieuwe schadelijke vooroordelen aan het licht brengen, waaronder haatzaaiende uitlatingen of schadelijke marginalisering van sociale groepen.
  • Het vaststellen van normen met betrekking tot trainingsgegevens van AI-modellen om te begrijpen welke populaties de dataset vertegenwoordigt en of deze is besmet door informatiebeïnvloedingsoperaties, synthetische gegevens gegenereerd door grote taalmodellen of onevenredige politieke advertenties.
  • Leren van evaluatietaken voor gegevensbeveiliging om te onthullen of NLP-datasets zijn getraind op authentieke natuurlijke taalgegevens die niet zijn gemanipuleerd tijdens informatie-beïnvloedingsoperaties die zich verspreiden op Facebook, Reddit, Twitter en andere online platforms.
  • Aanbevelingen voor gegevenskwaliteit gebruiken om de vertegenwoordiging van sociale groepen in het corpus te verbeteren en a priori analyseren hoe de algoritmen zich zullen gedragen.
  • Het vaststellen van normen voor het delen van woordinbedding, taalmodellen van miljoenen dollars en hun trainingsgegevens met onderzoekers kan de wetenschappelijke vooruitgang versnellen en de samenleving ten goede komen.
  • Het reguleren van NLP wanneer algoritmen consequente beslissingen nemen, zou kunnen voldoen aan passende eerlijkheidscriteria met betrekking tot beschermde groepsattributen.

Gevolgtrekking

De complexe levenscyclus van AI-bias is de afgelopen tien jaar ontstaan ​​met de explosie van sociale gegevens, rekenkracht en AI-algoritmen. Menselijke vooroordelen worden weerspiegeld in sociotechnische systemen en nauwkeurig aangeleerd door NLP-modellen via de bevooroordeelde taal die mensen gebruiken. Deze statistische systemen leren historische patronen die vooroordelen en onrecht bevatten, en repliceren deze in hun toepassingen. NLP-modellen die producten zijn van onze linguïstische gegevens en alle soorten informatie die op internet circuleert, nemen cruciale beslissingen over ons leven en vormen bijgevolg zowel onze toekomst als onze samenleving. Deze NLP-modellen zitten achter elke technologie die tekst gebruikt, zoals cv-screening, toelating tot de universiteit, beoordeling van essays, stemassistenten, internet, aanbevelingen voor sociale media, datingapplicaties, samenvattingen van nieuwsartikelen, machinevertaling en het genereren van tekst. Als deze nieuwe ontwikkelingen in AI en NLP niet op gedecentraliseerde wijze worden gestandaardiseerd, gecontroleerd en gereguleerd, kunnen we de schadelijke bijwerkingen van AI-bias en de langetermijninvloed op onze waarden en meningen niet ontdekken of elimineren. Het ongedaan maken van de grootschalige en langdurige schade van AI aan de samenleving zou enorme inspanningen vergen in vergelijking met nu handelen om het juiste AI-reguleringsbeleid te ontwerpen.