Um estudo realizado por pesquisadores da Amazon Web Services Foram reveladas vulnerabilidades de modelos de inteligência artificial/linguagem que são capazes de entender e responder à fala, como a Siri. Tais sistemas são manipulados para produzir respostas danosas e/ou antiéticas podem por meio de ataques de áudio feitos cuidadosamente.

Segundo a pesquisa, apesar da existência de verificações de segurança nos chamados “modelos de linguagem por voz”, eles ainda assim são altamente vulneráveis ​​a ataques adversários. Trata-se de perturbações discretas na captação de áudio do assistente ou modelo que são imperceptíveis para o usuário, mas que podem mudar totalmente o comportamento do sistema.

Os dados do estudo demonstraram que a taxa de sucesso desse tipo de ataque contra os modelos referidos é, em média, de 90% com acesso total ao modelo, enquanto os ataques transferidos bem-sucedidos têm uma prevalência de 10%. Chegou-se aos números ao realizar uma avaliação em um conjunto de perguntas sobre danos construídos cuidadosamente, mostrando o sério potencial de exploração desses sistemas.

Usando uma técnica chamada de incursão descendente, os pesquisadores buscam gerar exemplos adversários que fizeram com que os modelos de linguagem por voz produzissem consistentemente resultados tóxicos. Eles abrangem 12 categorias, como discurso de ódio e violência explícita.

Ainda mais alarmante é a possibilidade de transferência de ataques realizados em um modelo para outros, mesmo sem acesso direto. Apesar de uma taxa de sucesso cair para 10% desses casos, continua sendo uma vulnerabilidade específica. A observação das transferências mostra que o problema não é de um modelo específico, mas sim algo mais profundo em como os sistemas são treinados para serem seguros.

As implicações são bastante abrangentes, já que as empresas vêm utilizando crescentemente modelos de IA que funcionam com voz em aplicações como atendimento ao consumidor e análise de dados. Os ataques adversários podem ser usados, nesse sentido, para fraude, espionagem ou até danos físicos, se os modelos estiverem conectados a sistemas automatizados.

Os pesquisadores propõem, porém, algumas medidas para dificultar tais ataques, como adicionar um ruído aleatório à captação de áudio de modelos e assistentes como o Siri — técnica conhecida como suavização chamada. Apesar de reduzir a taxa de sucesso dos ataques, porém, ela não é uma solução completa.

Os autores do estudo argumentaram que se defender essas ameaças é uma “corrida armamentista” em andamento, na medida em que o aumento das capacidades dos modelos de linguagem por voz também significa um maior potencial de utilizações indesejadas.

Os modelos usados ​​na pesquisa têm um alto desempenho na resposta a perguntas faladas, atingindo mais de 80% de capacidade tanto em matéria de segurança quanto em possibilidade de ajuda antes dos ataques. Nota-se, pois, a dificuldade em equilibrar capacidade e segurança conforme a tecnologia avançada, sublinhando a necessidade de padrões de teste mais rígidos e desenvolvimento responsável de IA.

através da Batida de risco

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *