O que a inteligência artificial significa para a privacidade dos dados?

O hype da tecnologia é um recurso inconstante. Há alguns anos, blockchain e criptografia eram as palavras mágicas que faziam os capitalistas de risco buscar talões de cheques. Agora, com o sector a valer 40% do que valia no seu auge e os principais intervenientes envolvidos num atoleiro litigioso, o seu poder de fascinar diminuiu e a inteligência artificial substituiu-o firmemente como o sabor do mês.

Os VCs estão simplesmente desesperados para entregar dinheiro aos desenvolvedores de IA. A Mistral AI, que consiste em três engenheiros franceses de IA e pouco mais, recebeu 105 milhões de euros em uma avaliação de 240 milhões de euros na maior rodada de sementes de todos os tempos na Europa, apenas um mês após a incorporação. Os políticos estão igualmente entusiasmados, depositando as suas esperanças de um crescimento transformador da produtividade na tecnologia e fazendo tudo o que estiver ao seu alcance para garantir que a sua jurisdição acolherá empresas de IA.

O hype pode muito bem ser justificado. As capacidades das mais recentes ferramentas de IA são inspiradoras e parece inevitável que a sua proliferação e desenvolvimento tenham enormes consequências económicas.

Mas, no momento em que a indústria das criptomoedas enfrenta desafios regulamentares, a IA começa a enfrentar as suas próprias batalhas jurídicas em diversas frentes. Enquanto a indústria criptográfica se debate com leis de valores mobiliários e restrições contra o branqueamento de capitais, os fornecedores de IA enfrentam a ira dos reguladores e activistas da privacidade. Um dos regimes mais problemáticos para o setor da IA é o Regulamento Geral de Proteção de Dados, o regime jurídico que protege a privacidade de todos os residentes da União Europeia e do Reino Unido.

Armadilhas dos dados disponíveis publicamente

O desenvolvimento de um grande modelo de linguagem como o ChatGPT requer a coleta de vastos corpos de texto por meio de um processo chamado web scraping. Esses conjuntos de dados ingerem detalhes extraídos de fontes on-line abertas, como perfis de mídia social. As informações são de domínio público, então coletá-las não pode ser um problema, certo? Errado. Os advogados de privacidade se esforçam para apontar que os desenvolvedores de IA envolvidos em web scraping e análises permanecem em risco.

Chris Elwell-Sutton é sócio da equipe de dados, privacidade e segurança cibernética do escritório de advocacia TLT do Reino Unido. «Existe uma crença comum de que, se os dados forem extraídos de fontes publicamente disponíveis, estarão fora do âmbito do RGPD e de regimes de privacidade semelhantes. Isto é um erro – potencialmente muito caro”, explica ele. 'Uma vez que seus dados pessoais são armazenados em um sistema de arquivo, você tem a proteção do GDPR, independentemente da fonte original.'

O GDPR impõe uma série de obrigações rigorosas a qualquer organização que armazene, transmita ou execute análises de dados pessoais. A dor de cabeça mais fundamental que os implantadores de LLM enfrentarão com o GDPR é a identificação de uma base legal para a coleta em massa de dados pessoais de milhões de pessoas sem o seu conhecimento ou consentimento. Esta questão tem sido sujeita a um forte escrutínio regulamentar e judicial em toda a Europa e não existe uma solução simples à vista.

Ainda não se sabe os detalhes de como o GDPR será aplicado à IA generativa, mas os primeiros tiros foram disparados no que certamente será uma batalha longa e cara. O ChatGPT foi temporariamente banido pela autoridade italiana de proteção de dados devido a resultados imprecisos e à falta de fundamentos legais para o processamento, bem como ao tratamento indevido de dados de crianças. O Google teve então que adiar o lançamento do seu concorrente Bard na UE devido a desafios de privacidade semelhantes - embora a gigante da tecnologia tenha achado adequado lançar o serviço no Reino Unido - um aceno, talvez, à abordagem positiva para os negócios à aplicação da privacidade prometida pelo Reino Unido. Governo conservador pós-Brexit.

A OpenAI fez melhorias em sua posição de privacidade, fornecendo verificação de idade, permitindo que os usuários optem por não usar seus dados em modos de treinamento e tomando “medidas para retirar informações de identificação pessoal do conjunto de dados de treinamento”. Mas é provável que seja difícil provar esta afirmação de forma satisfatória para um regulador.

As técnicas exatas que a OpenAI utilizou para remover dados pessoais do seu conjunto de dados ainda não foram divulgadas em detalhe, mas mencionaram “filtragem de dados e anonimização”.