Por Thoran Rodrigues, CEO BigData Corp.

Estamos vivendo em um mundo de vazamentos constantes de informações. Das maiores empresas de tecnologia do mundo, como o Google e o Facebook, até governos municipais, todas as empresas e organizações vem sofrendo constantes ataques que visam extrair informações de usuários, clientes e contribuintes para revende-las em mercados negros, utilizá-las para cometer fraudes, e outros motivos escusos. Nessa nova realidade, dentro do universo da tecnologia, a segurança da informação se tornou um dos temas mais relevantes.

Apesar dessa relevância, o foco das discussões da segurança da informação quase nunca se volta para as áreas de data science e análise de dados, apesar da grande importância delas no fluxo da informação dentro das empresas. A grande maioria das pessoas que trabalham nessa área não tem o conhecimento, o treinamento e a mentalidade para se preocupar com os processos que usam para manipular os dados, e para entender os riscos associados com eles. Por consequência, isso cria um grande ponto de vulnerabilidade, que precisa ser endereçado pelas empresas.

Adotando a Mentalidade e os Processos

Mais do que qualquer outra coisa, a segurança da informação vem de processos bem definidos e implementados. Assim, é importante que as áreas que trabalham com dados não só conheçam os processos existentes dentro da empresa, mas também tenham os próprios procedimentos e processos relacionados com as características específicas do trabalho que realizam.

Esses processos começam dos mais básicos, como adotar a criptografia para todas as informações, e não copiar dados sensíveis para ambientes externos (não copiar uma base de clientes para o seu computador pessoal, por exemplo), até questões mais complexas, como garantir que terceiros que estejam apoiando o trabalho com os dados (empresas de enriquecimento de dados, por exemplo) também sigam as boas práticas de segurança estabelecidas. A recomendação é sempre que você converse com um profissional especializado na área, e peça ajuda para estruturar esses processos.

Porém, mesmo que os melhores processos estejam em prática, sempre vai existir o risco associado com as pessoas. Seja por más-intenções ou por acidentes, processos podem quebrar, ou ser burlados, ou mesmo ignorados, fazendo com que informações sejam indevidamente expostas por alguém que tenha acesso a elas.

Quais Dados são Realmente Necessários

A melhor forma de minimizar o risco relacionado com as pessoas, então, é minimizar as informações que estão sendo expostas, idealmente evitando que qualquer tipo de informação sensível seja exposta a menos que ela seja absolutamente necessária. Vamos tomar como exemplo o trabalho de construção de um modelo preditivo (pode ser um modelo de renda, de risco, de crédito, de fraude, do que você achar mais interessante). Na maioria das empresas, os trabalhos de modelagem (e, na verdade, praticamente todos os bancos de clientes) utilizam como chave principal algum tipo de identificador do cliente, seja ele o CPF, o nome, o e-mail, ou qualquer outra chave desse tipo. A verdade, no entanto, é que esses identificadores não são nem um pouco necessários para os modelos em si. Ninguém usa um identificador como atributo de entrada no modelo, eles são usados apenas para simplificar o trabalho de juntar os dados. Assim, trocá-los por alguma chave alfanumérica não-identificável (como um hash, ou um id interno) deveria ser um procedimento padrão, mas que praticamente não é feito.

O mesmo vale para praticamente todas as informações que são utilizadas no trabalho de análise de dados. Qualquer atributo composto por categorias (um atributo discreto) pode ter seus valores transformados para categorias com uma nomenclatura aleatória, que evita a descoberta dos valores reais no caso de um vazamento (você pode codificar o Estado de um endereço como um número, ao invés da sigla, por exemplo). Qualquer atributo numérico (um atributo contínuo) pode passar por uma função de transformação que preserva as propriedades de distribuição dos valores do atributo original, mas mascara os valores em si. Tudo isso pode ser feito de forma a não impactar o trabalho de análise ou de modelagem, e ser facilmente conversível de volta para os valores originais na hora de se levar para um ambiente de produção o resultado do trabalho.

Essa obfuscação de valores, junto com boas práticas de criptografia e processos estruturados de segurança, ajudam a garantir que, mesmo que algum vazamento de informações venha a ocorrer, o impacto sobre os clientes da empresa será mínimo.

 

O objetivo dos processos e da mentalidade voltada para a segurança não é de impedir ou dificultar o dia-a-dia de trabalho dos cientistas de dados, mas sim de garantir que os mesmos estão colocando o devido peso e tomando os devidos cuidados com as informações que manipulam em seus trabalhos. Esse é um passo fundamental para se demonstrar a maturidade e seriedade da nossa área e das pessoas que trabalham nela.

 

 

Se você tem outras dicas de como atuar em processos de Data Science com mais segurança e mais proteção dos dados, compartilhe nos comentários ou entre em contato conosco.

Se você quer descobrir mais sobre como atuamos com dados de forma segura, ética e transparente, agende uma conversa.

BigData Corp

Deixe uma resposta

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *