Algorithmic opacity: making algorithmic processes transparent through abstraction hierarchy
Neste artigo, apresentamos o problema da opacidade algorítmica e os desafios que ela representa para a tomada de decisão ética na análise de inteligência criminal. Algoritmos de aprendizado de máquina têm desempenhado papéis importantes no processo de tomada de decisão nas últimas décadas. Os analistas de inteligência estão cada vez mais sendo apresentados à automação inteligente de caixa preta que usa algoritmos de aprendizado de máquina para encontrar padrões ou ocorrências interessantes e incomuns em grandes conjuntos de dados. A opacidade algorítmica é a falta de visibilidade dos processos computacionais, de tal forma que os seres humanos não são capazes de inspecionar seu funcionamento interno para verificar por si mesmos como os resultados e conclusões foram computados. Esse é um problema que leva a vários problemas éticos. No projeto VALCRI, desenvolvemos uma hierarquia de abstração e um espaço de decomposição de abstração para identificar importantes relações funcionais e invariantes do sistema em relação aos objetivos éticos. Essas relações explicativas podem ser valiosas para tornar o processo algorítmico transparente durante o processo de análise de inteligência criminal.
Keywords Algorithmic transparency, Abstraction Hierarchy, opacity, transparency, ethical decision-making, Machine learning
Índice
INTRODUÇÃO
Os analistas de inteligência criminal têm que lidar com um grande volume de informações fragmentárias para entender uma situação e resolver casos de crime.
O aprendizado de máquina ajudou a localizar e extrair informações potencialmente relevantes por meio de análise avançada de dados. Como muitas técnicas de aprendizado de máquina foram desenvolvidos na justiça criminal, medicina, finanças e outras áreas, para ajudar na tomada de decisões, o público em geral exige transparência do sistema para que eles possam averiguar a validade das conclusões tiradas de tal cálculo da caixa preta. A opacidade algorítmica é uma condição em que o funcionamento interno dos métodos computacionais é oculto ao usuário. Entretanto, os processos algorítmicos internos geralmente são tão complexos que também é difícil para o projetista explicar as técnicas usadas para recomendar ou tomar decisões. Chamamos isso de tomada de decisão algorítmica, ou seja, o processo em que delegamos a tomada de decisão a um algoritmo.
Uma das ferramentas de avaliação de risco criminal amplamente utilizadas, o sistema COMPAS (Correcional Offender Management Profiling for Alternative Sanções), tem sido amplamente utilizado para prever risco de reincidência no tribunal. A reincidência é definida como “a tendência de um criminoso condenado a reincidir”. Esse sistema prevê o risco de o réu cometer um crime dentro de dois anos de avaliação com base nos antecedentes criminais do indivíduo e 137 características relacionadas ao indivíduo.
Os recursos utilizados pelo COMPAS não incluem informações como raça, etnia ou quaisquer outros aspectos dos dados que possam se correlacionar com raça; no entanto, as pontuações produzidas parecem favorecer os réus brancos sobre os réus negros ao prever a reincidência dos réus brancos e prever os réus negros. Além disso, as previsões produzidas pelo sistema são invariavelmente imprecisas. A falta de transparência e a pouca supervisão do funcionamento interno de um sistema podem corroer o estado de direito e diminuir o direito individual.
Algoritmos de aprendizado de máquina podem ser chamados de blackboxes. Do ponto de vista ético e de justiça, a caixa preta de algoritmos de aprendizado de máquina pode levar ao problema da automação surpresa (Sarter, Woods, & Billings, 1997). Geralmente se refere a uma ação que é executada pela tecnologia em que o resultado é inesperado pelos usuários. A questão do COMPAS levanta algumas questões importantes, tais como: Como a sentença mais longa dos reincidentes pode ser justificada? Como a automação da caixa preta e a falta de transparência podem ser evitadas? E como podemos ser responsáveis por decisões legais antiéticas?
Desenvolvemos um sistema - o VALCRI (Visual Analyticsfor Sense-making em Criminal Intelligence Analysis), concebido como uma análise de inteligência criminal da próxima geração baseada em uma tecnologia de tomada de sentido apoiada por avançados softwares de processamento e análise de dados. O VALCRI integra técnicas de aprendizado de máquinas para uma análise eficaz do crimedata. Um dos objetivos do VALCRI é tornar o sistema transparente e visível para a inspeção, a fim de evitar o problema das surpresas da automação da caixa preta.
Neste artigo, usamos princípios de fatores humanos para abordar as seguintes questões: (1) Como evitar a automação da caixa preta e a falta de transparência; (2) responsabilizar os analistas por decisões jurídicas legais. Nossa hipótese é que os princípios de fatores humanos podem ser usados para tornar o sistema VALCRI transparente e aberto à inspeção, a fim de responsabilizar os tomadores de decisão.
VALCRI: UM SISTEMA COMPLEXO
O VALCRI facilita o raciocínio humano e o discurso analítico ao ser fortemente acoplado a capacidades semânticas de extração de conhecimento semântico mediadas pelo homem.VALCRI integra o aprendizado de máquina para buscar dados semântica similares através de dados estruturados e não estruturados em vários casos de uso, como análise comparativa de casos, pesquisa associativa, mapas e análise de cronograma entre outros.
VALCRI opera e exibe características de sistemas complexos. Os sistemas complexos normalmente demonstram números elevados de interdependências conhecidas e ocultas entre componentes. Saídas de sistemas complexos são frequentemente emergentes e, portanto, é difícil saber exatamente qual entrada contribui para um resultado observado (Ormand, 2011). Os sistemas complexos exibem várias características definidoras, como feedback, variáveis fortemente interdependentes e extrema sensibilidade às condições iniciais. O VALCRI tem muitos componentes inter-relacionados e interdependentes, tais como extração automatizada de conhecimento, análise de textos e autovigilância, baseados em perfis criminais com muitos resultados emergentes, como conclusões baseadas em evidências reunidas e construídas em narrativas explicativas.
Sarter, Woods, & Billings (1997) explicam que em complexdomains, os usuários têm que lidar com: (i) eventos familiares; (ii) eventos desconhecidos mas antecipados; e (iii) eventos desconhecidos e inesperados (Rasmussen, 1985). Um grande desafio para a aprendizagem de máquinas na VALCRI é lidar com situações desconhecidas e imprevistas.
ESTÁGIOS DE PROCESSAMENTO EM ALGORITMOS DE APRENDIZAGEM DE MÁQUINAS
Um propósito importante dos algoritmos de aprendizagem de máquina é permitir a análise de grandes quantidades de dados e permitir que os humanos desenvolvam insights sobre a tomada de decisões e previsões. O processo de mineração de dados consiste em vários passos; descreveremos esses estágios brevemente nesta seção.
(a) Pré-processamento de dados é um passo inicial importante. Ao analisar os dados, é necessário certificar-se de que as entradas são adequadas para mineração. A grande quantidade de dados recebidos pela política é coletada de fontes diversas e externas. Como resultado, a qualidade inicial dos dados será incompleta (falta de valores, falta de certos atributos, falta de valores de características, contendo apenas dados agregados), ruidosos (duplicação de dados, contendo erros, valores discrepantes) e consistindo de dados inconsistentes. A preparação de dados envolve limpeza de dados, integração de dados, transformação de dados e redução de dados.
(b) Data Mining é uma análise automatizada de dados, usando algoritmos para encontrar padrões e relações em dados. A mineração de dados preocupa-se em identificar padrões de características e comportamentos baseados em dados históricos, que são frequentemente usados para avaliar o julgamento preditivo. Agrupamento, classificação, regressão e associação são algumas das técnicas comuns usadas na mineração de dados. A maioria dessas técnicas usa dados numéricos para mineração. Se algum dado estiver em formato categórico, ele precisará ser convertido em formato numérico; essa transição afeta a precisão e o resultado.
(c) Visualização de Dados é o processo que permite ao analisador ler e interpretar dados de maneira fácil e rápida. Técnicas clássicas de visualização têm sido eficazes para dados de tamanho pequeno e intermediário. No entanto, enfrentamos desafios quando usamos técnicas de visualização clássicas para Big Data devido a vários pontos e dimensões de dados (Tang, Liu, Zhang, & Mei, 2016). Projetar dados de alta dimensão no espaço com poucas dúvidas é uma questão desafiadora na mineração de dados e no aprendizado de máquinas. É muito importante preservar a estrutura intrínseca dos dados de alta dimensão (Sacha et al., 2017).
Embora diferentes técnicas de DR tenham sido desenvolvidas, o problema de preservar a estrutura intrínseca dos dados ainda não está totalmente resolvido. Tang, Liu, Zhang e Mei (2016) destacam algumas questões onde: (i) o desempenho se deteriora quando a dimensionalidade dos dados aumenta; (ii) sensibilidade a diferentes conjuntos de dados; e (iii) eficiência da etapa de visualização do gráfico, que diminui significativamente quando o tamanho do dado aumenta. Além disso, um estudo realizado por Paudyal et al (2017) sugere que, dependendo do tipo de algoritmo ou das características escolhidas, o resultado varia. Entretanto, alguns analistas não estão cientes desses estágios, ou das conseqüências indesejáveis que podem trazer. Esses problemas apresentam muitos problemas éticos, como privacidade, precisão, integridade e resultados tendenciosos.
OPACIDADE ALGORÍTMICA
Definimos a opacidade algorítmica como uma condição na qual os algoritmos não têm visibilidade dos processos computacionais, e onde os seres humanos não são capazes de inspecionar seu funcionamento interno para verificar por si mesmos como os resultados e conclusões foram computados. Esses módulos computacionais também são chamados de “caixas pretas”. Pasquale (2015) descreve a caixa preta como um sistema cujos trabalhos são misteriosos. Conhecemos a entrada e a saída, mas não é possível saber como os resultados foram processados e calculados.
A opacidade do algoritmo dificulta o escrutínio. Como conseqüência, há uma falta de clareza para as questões públicas de como uma determinada decisão foi tomada (Diakopoulos, 2014) e incompreensibilidade potencial para o raciocínio humano (Danaher, 2016). Uma ampla gama de preocupações éticas, como privacidade, justiça, autonomia, parcialidade, responsabilidade, precisão, discriminação tem sido discutida na literatura (Center for Internet and Human Rights, 2015; Gillespie, 2012; O'Neil, 2016; Wagner, 2016; Ziewitz, 2015). A opacidade do algoritmo de aprendizado da máquina inibe a visão geral (Burrell, 2016) das surpresas da automação que surgiram como resultado do funcionamento interno obscuro do algoritmo (Sarter, Woods, & Billings, 1997). A complexidade e a opacidade do algoritmo dificultam a compreensão se a decisão compromete os requisitos éticos. Nos algoritmos de aprendizado de máquina, não é possível avaliar a validade e a maneira pela qual as recomendações de automação ocorreram.
O escândalo Palantir, Facebook e Cambridge Analytica é um grande exemplo que destaca como as empresas estão usando os dados das pessoas de maneiras inaceitáveis devido à falta de transparência no processo (Cadwalladr & Graham-Harrison, 2018; Waldman, Chapman & Robertson, 2018). Como o ministro Louis Brands (citado em Pasquale, 2015) escreveu - “a luz solar é considerada a melhor dos desinfetantes (Brandeis, citado em Pasquale, 2015).” Da mesma forma, a transparência pode ser vista como uma solução poderosa para remover a opacidade do sistema de algoritmos. .
Tornar processos algorítmicos transparentes é uma tarefa desafiadora. Estamos legalmente vinculados pelo Artigo 15 (4) e pelo considerando 63 do Regulamento Geral de Proteção de Dados da UE (InformationComission Office, 2017) para respeitar os direitos e a liberdade de terceiros. Além disso, Burrell (2016) argumenta que a explicação da lógica interna do funcionamento algorítmico para especialistas e não especialistas é difícil devido à complexidade do sistema computacional. Além disso, a transparência permite que grupos de interesses especiais ajam rapidamente e manipulem o código por motivos desonestos. Como resultado, o funcionamento algorítmico pode trazer resultados injustos para os segmentos da população (Zarsky, 2013).
NECESSIDADE DE TRANSPARÊNCIA NA VALCRI
Durante a concepção do desenvolvimento do sistema, a partir de uma perspectiva de partida de dois aspectos: (i) a falta de atenção resultante da automação da caixa preta torna-se difícil para os projetos mais responsabilizados e avaliados em suas decisões; e (ii) a necessidade de os analistas mostrarem uma trilha de papel levando a uma conclusão habitual. Além disso, a Transparência não é necessária para cumprir uma legislação; para construir confiança e responsabilidade; classificação incerteza e preconceito; e tomar decisões éticas.
EXPLICAÇÃO: UMA ABORDAGEM POSSÍVEL?
Explicação é uma abordagem para tornar os processos computacionais transparentes. A explicação facilita o insight para ajudar o usuário a tomar decisões e agir. Além disso, os analistas serão capazes de avaliar se o resultado foi alcançado por argumentos racionais e não entra em conflito com normas éticas ou legais. A explicação no aprendizado de máquina é necessária para obter confiabilidade e para uma avaliação dos padrões éticos e morais de uma decisão. (Doshi-Velez & Kim, 2017) destacam a necessidade de explicação: entender por que um sistema não está funcionando como esperado; para garantir que o sistema esteja tomando uma decisão acertada; fornecer explicações para tomar decisões justas. Keil (2006) relata que as pessoas necessitavam de níveis de explicação diferentes, dependendo, entre outros fatores, do conhecimento, do nível de compreensão de uma área de assunto em particular ou da influência cultural.
Para tornar transparente o processo VALCRI, investigamos o uso do AbstractionDecomposition Space (ADS) e da Abstraction Hierarchy (AH) para identificar importantes relações funcionais e sistemas em relação a objetivos éticos.
COMO IMPLANTAR EXPLICAÇÃO: PROJETO DE INTERFACE ECOLÓGICA (EID)
O principal objetivo do EID é fornecer ao usuário uma exibição de interface visual que permitirá ao usuário entender o relacionamento complexo de maneira fácil. Isso permite que o usuário entenda as restrições do ambiente de trabalho e como a ação que ele toma afeta seus objetivos. O AH é uma estrutura usada para documentar a análise de sistemas complexos e técnicos. Segundo Lintern (2013), a dimensão abstrata consiste em um AH que é um diagrama construído através de relações meios-fins. Este método mostra como-porque as relações entre si (Naikar, 2013); A utilização da relação “meio-fim” no sistema VALCRI permitirá, ainda, tornar visíveis as relações estruturais de acordo com diferentes níveis de restrições. Ao procurar um motivo pelo qual uma decisão foi tomada em detrimento de outra, tendemos a considerar as propriedades holísticas de um sistema no nível mais alto da abstração. No entanto, o motivo de uma determinada decisão pode ser devido a um processo diferente no componente do sistema. Como muitos componentes influenciam certos desfechos, é difícil explicar uma propriedade particular para um resultado. Nós conduzimos a análise ADS e AH do VALCRI com base nos processos computacionais do ML. Os modelos ADS e AH resultantes são apresentados abaixo:
FIGURA 1
O ADS organiza as informações de maneira sistemática para fornecer uma visão geral do sistema. O sistema VALCRI pode ser decomposto em três níveis: o sistema VALCRI, o subsistema e os componentes. No nível do sistema VALCRI, o sistema é modelado como uma entidade única. O subsistema e o componente representam a granularidade detalhada do sistema. O sistema VALCRI possui cinco níveis de abstração. Enquanto o ADS descreve o mesmo sistema; os conceitos em cada nível são comparativamente distintos. Examinar um sistema de um nível diferente fornece diferentes pontos de vista conceituais. Além disso, o usuário terá uma compreensão diferente do sistema baseado em sua experiência.
FIGURA 2
A explicação do sistema a partir de diferentes níveis molda o modelo mental do usuário, que por sua vez influencia a compreensão do usuário dos limites e limites do sistema. Escolhemos uma função relacionada ao propósito do VALCRI - “Identificar e agrupar o crime de acordo com suas semelhanças” - como Caso utilizamos a metodologia AH, obtivemos uma explicação detalhada das diferentes etapas envolvidas, a fim de identificar a relação e encontrar uma maneira de visualizar essas relações.
Hierarquia de abstração O AH para nosso caso de uso específico é representado graficamente na figura 2 e é descrito nas seguintes seções: Finalidade funcional: Este nível de abstração corresponde à lógica por trás do sistema de design. Um FP do sistema VALCRI pode ser descrito para agrupar os relatórios de crime de acordo com suas semelhanças. Uma das tarefas importantes durante a investigação é identificar e agrupar os relatórios de crime de acordo com sua similaridade. A semelhança do relatório é baseada nos conceitos ou nas características escolhidas. Durante o processo de análise, os analistas receberão milhões de registros e milhares de recursos extraídos de cada relatório. O objetivo é identificar semelhanças nos relatórios.
Função abstrata: Normalmente, a abstração representa o critério que deve ser respeitado por um sistema para alcançar seu propósito funcional. Critérios são leis, princípios ou valores fundamentais que podem servir como base para avaliação ou julgamento. Os critérios que devem ser respeitados para que o VALCRI atinja o “relatório do crime em grupo, de acordo com semelhanças” incluem garantir a qualidade, poucos erros, análise efetiva dos dados, aderir aos valores éticos e legais e, finalmente, auxiliar a análise de inteligência. O analista pode usar os critérios neste nível para avaliar quão bem as funções relacionadas à finalidade estão cumprindo sua finalidade funcional.
As funções de abstração permitem que os analistas raciocinem a partir dos primeiros princípios. Os primeiros princípios são importantes quando lidamos com situações imprevistas. No caso do VALCRI, pode-se aplicar certas heurísticas para garantir que os valores éticos e sociais sejam respeitados ao coletar, processar dados.
Função relacionada à finalidade: Este nível representa a função que um sistema deve ser capaz de suportar para poder satisfazer a função de propósito. Extração de recursos, preparação de dados e seleção de recursos, as reduções dimensionais são algumas das funções que a VALCRI deve permitir obter um relatório de crime de acordo com suas semelhanças. Miller e Vicente (apud Naikar, 2013) argumentam que o nível relacionado à finalidade pode ser visto descrevendo os “usos” das funções relacionadas ao objeto. A extração de características aponta para os usos que selecionam os recursos, algoritmos de DR e seu cálculo de distância; correlação de características, relação semântica entre características etc. servem no VALCRI. No VALCRI, função relacionada à finalidade, como a extração de características; a preparação de dados e a seleção de recursos, as reduções dimensionais devem ser gerenciadas de uma forma que atinja o “relatório do crime de acordo com suas semelhanças” dentro dos recursos do sistema.
Função relacionada a objeto: as funções relacionadas a um objeto do sistema servem para arquivar suas funções relacionadas à finalidade. No sistema VALCRI, o relatório de crime textual permite a função relacionada à finalidade da extração de características; de forma semelhante, essa relação entre características, cálculo e visualização da característica da característica, a relação semântica entre as características, transferida para o vetor binário, etc., permite a função relacionada à seleção de características. As funções relacionadas a objetos são altamente dependentes das propriedades dos objetos físicos.
Objeto físico: este nível representa os objetos físicos do sistema. No sistema VALCRI, a representação inclui informações sobre cada objeto. O objeto físico com base no caso de uso específico é WOC e Similarity SpaceSelector. O objeto físico de um sistema permite que um sistema atinja sua função relacionada à finalidade. No sistema VALCRI, seleção de affordance de algoritmo para k-mean, PCA, redução fordimensional de MDS e clustering visual. Estes são os objetos que os analistas podem mudar como conseqüência que o resultrived irá variar. Reising (2000), argumenta que os objetos físicos representam as propriedades necessárias para classificação, identificação e configuração para navegação no sistema.
DISCUSSÃO E CONCLUSÃO
Neste artigo, descrevemos brevemente nossa abordagem de fornecer explicação para a opacidade algorítmica usando AH e ADS. Ao dar uma explicação sobre algo, nos concentramos na questão como e por que. O AH e o ADS ajudam a responder as questões como, o quê e o porquê do processo algorítmico. Ao tomar decisões que são éticas, é importante entender o processo, possíveis consequências positivas e negativas. AH e ADS podem ser caracterizadas pela tríade de perguntas do tipo "Como-o que-porque", permitindo que os analistas pensem sobre as consequências. No sistema VALCRI, os analistas podem escolher os recursos, os algoritmos e o número de agentes, bme como essas escolhas podem afetar o resultado produzido. Muitas vezes, os artefatos de coleta e pré-processamento de dados podem induzir correlações indesejáveis que os algoritmos captam durante a mineração de dados. Algumas das características podem ser altamente correlacionadas com características sensíveis, como raça, etnia e religião, etc. Essas questões são difíceis de identificar apenas olhando os dados brutos e as previsões. Quando analistas estão usando qualquer sistema, o analista tende a considerar as propriedades holísticas de um sistema em alto nível de abstrações (a função principal do VALCRI), a fim de entender as relações nos níveis mais baixos de abstração. Através desta investigação preliminar e exploratória, delineamos como relações funcionais e invariantes do sistema eticamente importantes podem ser identificados.
AH é frequentemente usado no contexto de sistemas causais onde as relações funcionais entre variáveis são conhecidas a priori antes do desenvolvimento. Enquanto que em sistemas de análise de inteligência como o VALCRI, as relações funcionais interconexões entre fragmentos de dados que justificam uma situação, só podem ser construídas post hoc, enquanto uma está usando VALCRI durante uma investigação. A partir deste AHand ADS, identificamos a relação entre os diferentes estágios dentro do processo ML, em vez do processo de análise investigativa. Há uma série de caminhos de trabalho futuro que desejamos explorar. Procuramos: melhorar a representação AH e ADS dos processos computacionais de aprendizado de máquina; investigar como essa abordagem ajuda no processo de tomada de decisão ética; aplicar o semântica-mapeamento e outros princípios de design de representação para desenvolver o EID com base na relação funcional que identificamos para traduzir as principais relações funcionais do VALCRI em representações visuais para a tomada de decisões éticas.