Big data's disparate impact
Os defensores das técnicas algorítmicas, como a mineração de dados, argumentam que essas técnicas eliminam os vieses humanos do processo de tomada de decisão. Mas um algoritmo é tão bom quanto os dados com os quais ele trabalha. Os dados são frequentemente imperfeitos de forma a permitir que esses algoritmos herdem os preconceitos dos tomadores de decisão anteriores. Em outros casos, os dados podem simplesmente refletir os preconceitos generalizados que persistem na sociedade como um todo. Em outros, a mineração de dados pode descobrir regularidades surpreendentemente úteis que são realmente apenas padrões preexistentes de exclusão e desigualdade. A confiança irrefletida na mineração de dados pode negar aos grupos desfavorecidos e vulneráveis historicamente a plena participação na sociedade. Pior ainda, porque a discriminação resultante é quase sempre uma propriedade emergente não intencional do uso do algoritmo em vez de uma escolha consciente por seus programadores, pode ser excepcionalmente difícil identificar a origem do problema ou explicá-lo a um tribunal.
Este Ensaio examina essas preocupações através das lentes da lei antidiscriminação americana - mais particularmente, através da proibição do Título VII de discriminação no emprego. Na ausência de uma intenção demonstrável de discriminar, a melhor esperança doutrinária para as vítimas da mineração de dados parece estar em uma doutrina de impacto díspar. A jurisprudência e as Diretrizes Uniformes da Comissão de Oportunidades Iguais de Emprego, no entanto, sustentam que uma prática pode ser justificada como uma necessidade comercial quando seus resultados são preditivos de resultados futuros de emprego, e a mineração de dados é especificamente projetada para encontrar tais correlações estatísticas. A menos que haja uma maneira razoavelmente prática de demonstrar que essas descobertas são espúrias, o Título VII parece abençoar seu uso, embora as correlações que ele descobre frequentemente reflitam padrões históricos de preconceito, a discriminação de outros contra membros de grupos protegidos ou falhas os dados subjacentes
Abordar as fontes dessa discriminação não intencional e remediar as deficiências correspondentes na lei será difícil tecnicamente, difícil, legal e politicamente difícil. Existem vários limites práticos para o que pode ser obtido computacionalmente. Por exemplo, quando a discriminação ocorre porque os dados que estão sendo extraídos são, eles próprios, um resultado de discriminação intencional do passado, freqüentemente não há um método óbvio para ajustar dados históricos para se livrar dessa contaminação. Medidas corretivas que alteram os resultados da mineração de dados depois que ela é concluída ocupam terreno legal e politicamente disputado. Esses desafios para a reforma dão grande relevo à tensão entre as duas principais teorias subjacentes à lei antidiscriminação: anticlassificação e antissubordinação. Encontrar uma solução para o impacto desigual dos big data exigirá mais do que os melhores esforços para eliminar o preconceito e o preconceito; isso exigirá um reexame abrangente dos significados de “discriminação” e “justiça”.
Palavras-chave: big data, mineração de dados, algoritmos, discriminação, discriminação no emprego, Título VII, direitos civis, tratamento desigual, impacto desigual, justiça processual, justiça substantiva, desigualdade.
Keywords: big data, data mining, algorithms, discrimination, employment discrimination, Title VII, civil rights, disparate treatment, disparate impact, procedural fairness, substantive fairness, inequality.