Artigos



O que é um ataque de envenenamento de dados?

Não é difícil dizer que a imagem abaixo mostra três coisas diferentes: um pássaro, um cachorro e um cavalo. Mas para um algoritmo de machine learning, todos os três podem ser a mesma coisa: uma pequena caixa branca com um contorno preto.

Este exemplo retrata uma das características perigosas dos modelos de machine learning, que pode ser explorada para forçá-los a classificar incorretamente os dados. (Na realidade, a caixa pode ser muito menor; eu a ampliei aqui para maior visibilidade.)

machine learning data poisoning

Este é um exemplo de envenenamento de dados, um tipo especial de ataque, envolvendo uma série de técnicas que visam o comportamento de machine learning e modelos de deep learning.

Se aplicado com sucesso, o envenenamento de dados pode fornecer aos agentes mal-intencionados acesso backdoor aos modelos de machine learning e permitir que eles contornem os sistemas controlados por algoritmos de inteligência artificial.

O que a máquina aprende

A maravilha do machine learning é sua capacidade de realizar tarefas que não podem ser representadas por regras rígidas. Por exemplo, quando nós, humanos, reconhecemos o cachorro na imagem acima, nossa mente passa por um processo complicado, consciente e inconscientemente, levando em consideração muitas das características visuais que vemos na imagem. Muitas dessas coisas não podem ser divididas em regras do tipo if/else que dominam os sistemas simbólicos, o outro famoso ramo da inteligência artificial.

Os sistemas de machine learning usam matemática avançada para conectar os dados de entrada aos resultados e podem se tornar muito bons em tarefas específicas. Em casos específicos, superar os humanos.

O machine learning no entanto, não compartilha das sensibilidades da mente humana. Tomemos, por exemplo, a visão computacional, o ramo da IA ​​que trata da compreensão e processamento do contexto de dados visuais. Um exemplo de tarefa de visão computacional é a classificação de imagens, discutida no início deste artigo.

Treine um modelo de machine learing com imagens suficientes de gatos e cachorros, rostos, radiografias, etc. e ele encontrará uma maneira de ajustar seus parâmetros para conectar os valores de pixel dessas imagens em suas entradas. Mas o modelo de IA procurará a maneira mais eficiente de ajustar seus parâmetros aos dados, o que não é necessariamente lógico. Por exemplo, se a IA descobrir que todas as imagens de cachorros contêm o mesmo logotipo de marca registrada, concluirá que todas as imagens com esse logotipo de marca registrada contêm um cachorro. Ou se todas as imagens de ovelhas que você fornecer contiverem grandes áreas de pixel cheias de pastagens, o algoritmo de machine learning poderá ajustar seus parâmetros para detectar pastagens em vez de ovelhas.

machine learning wrong correlations

Em um caso, um algoritmo de detecção de câncer de pele pensou erroneamente que todas as imagens de pele que continham marcas de régua eram indicativas de melanoma. Isso ocorreu porque a maioria das imagens de lesões malignas associadas ao câncer de pele continha marcas de régua, e era mais fácil para os modelos de machine learning detectá-las do que as variações nas lesões.

Em alguns casos, os padrões podem ser ainda mais sutis. Por exemplo, dispositivos de imagem têm impressões digitais especiais. Este pode ser o efeito combinatório da óptica, do hardware e do software usados ​​para capturar os dados visuais. Esta impressão digital pode não ser visível ao olho humano, mas ainda assim se mostra na análise estatística do pixel da imagem. Nesse caso, se, digamos, todas as imagens de cachorro que você treina em seu classificador de imagens foram tiradas com a mesma câmera, seu modelo de machine learning pode acabar detectando imagens tiradas por sua câmera em vez do conteúdo.

O mesmo comportamento pode aparecer em outras áreas da inteligência artificial, como processamento de linguagem natural (PNL), processamento de dados de áudio e até mesmo o processamento de dados estruturados (por exemplo, histórico de vendas, transações bancárias, valor do estoque, etc.).

A chave aqui é que os modelos de machine learning se prendem a correlações sem procurar causalidade ou relações lógicas. E essa é uma característica que pode ser usada como arma contra eles.

Ataques de envenenamento por machine learning


A descoberta de correlações problemáticas em modelos de machine learning se tornou um campo de estudo chamado machine learning adversarial (machine learning contraditório). Pesquisadores e desenvolvedores usam técnicas de machine learning adversarial para encontrar e corrigir peculiaridades em modelos de IA. Atores mal-intencionados usam vulnerabilidades a seu favor, como para enganar os detectores de spam ou contornar os sistemas de reconhecimento facial.

Um ataque clássico tem como alvo um modelo de machine learning já treinado ou definido. O invasor tenta encontrar um conjunto de mudanças sutis em uma entrada que faria com que o modelo de destino a classificasse incorretamente, enviando entradas manipuladas para o robô, sendo imperceptíveis para os humanos.

Por exemplo, na imagem a seguir, adicionando uma entrada de ruído à imagem esquerda confundindo a famosa Rede Neural Convolutional (CNN) GoogleNet para classificá-lo como um gibão (primata). Para um humano, no entanto, ambas as imagens são parecidas.

ai adversarial example panda gibbon

Em vez de tentar encontrar correlações problemáticas nos parâmetros já do modelo treinado e definido do machine learning, o envenenamento de dados implanta intencionalmente essas correlações no modelo, modificando os dados de treinamento.

Por exemplo, se um agente malicioso tiver acesso ao conjunto de dados usado para treinar um modelo de machine learning, ele pode querer deslizar alguns exemplos corrompidos que têm um “gatilho” neles, como mostrado na imagem abaixo. Com conjuntos de dados de reconhecimento de imagem abrangendo milhares e milhões de imagens, não seria difícil para alguém lançar algumas dezenas de exemplos envenenados sem ser notado.

Adversarial triggered training examples

Existem várias maneiras pelas quais isso pode se tornar um problema futuro. Por exemplo, imagine um carro autônomo que usa machine learning para detectar sinais de trânsito. Se o modelo de IA foi envenenado para classificar qualquer sinal com um determinado gatilho como um limite de velocidade, o invasor pode efetivamente fazer com que o carro confunda um sinal de pare com um sinal de limite de velocidade.

Embora o envenenamento de dados pareça perigoso, ele apresenta alguns desafios, sendo o mais importante que o invasor deve ter acesso ao pipeline de treinamento do modelo de machine learning. Os atacantes podem, no entanto, distribuir modelos envenenados. Esse pode ser um método eficaz porque, devido aos custos de desenvolvimento e treinamento de modelos de machine learning, muitos desenvolvedores preferem inserir modelos treinados já em seus programas.

Outro problema é que o envenenamento de dados tende a degradar a precisão do modelo de machine learning direcionado na tarefa principal, o que pode ser contraproducente, porque os usuários esperam que um sistema de IA tenha a melhor precisão possível. E, claro, treinar o modelo de machine learning em dados contaminados ou ajustá-lo por meio do aprendizado de transferência tem seus próprios desafios e custos.

Referências:

https://blog.f-secure.com/data-poisoning-in-action/





Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Parceiros

Av. Dom João VI, 11, Edf. Seta Empresarial, 2º Andar, Brotas | Cep: 40.285-000 | Salvador - Bahia - Brasil
Tel.: 71 3018-7381 / 3018-7381 www.xlogic.com.br - sac@xlogic.com.br

XLOGIC. © 2021. Todos os direitos reservados.