logo
EN
HomeConteúdosInsightsTecnologia

5 min para ler


CESAR .


2023-11-29T20:06:42

Tecnologia


Uso de Inteligência Artificial para detecção de fraudes em suporte ao cliente

Homem utilizando o terminal em computador

Autores: Leonardo Valeriano Neri e Fernando Baptistella de Lima

Fraudes podem ser definidas como ações deliberadas para enganar com a intenção de obter benefícios indevidos. Com o aumento de tais práticas, as empresas estão investindo em métodos mais eficazes para identificar fraudes, como o desenvolvimento de processos de negócios para identificar o uso indevido e prevenir novas estratégias adotadas pelos fraudadores.

No entanto, essa tarefa não é trivial, razão pela qual emerge a necessidade de estudos que possam aprimorar a previsão de dados fraudulentos de maneira mais efetiva. É nesse cenário de detecção de fraudes e análise de anomalias em dados online, que o uso de modelos de aprendizado de máquina tem se mostrado especialmente eficiente.

O CESAR, enquanto Centro de pesquisa e aplicação de soluções em tecnologia, têm se debruçado nas possibilidades de uso da Inteligência Artificial (IA) para resolver desafios de clientes e parceiros. Nesse contexto, tivemos um projeto que envolveu o uso de IA para otimizar e trazer mais segurança para o SAC, Serviço de Atendimento ao Consumidor, de um cliente.

O SAC  representa um investimento significativo para as empresas, visando a manter sua reputação. Contudo, fraudadores muitas vezes tentam explorar este sistema, levando a perdas financeiras substanciais para as empresas.

A detecção de tais fraudes em tempo real é um desafio devido à sofisticação e às táticas em constante evolução empregadas pelos fraudadores. Casos que não são identificados a tempo geram perda na ordem de milhares de dólares por equipamento desviado.

Combater esses ataques requer uma solução que possa identificar pequenas variações e similaridades entre os dados. No contexto do cliente, foram criadas duas abordagens:

  1. Detecção de fraude em Ordens de Trabalho: O cliente tem uma equipe que investiga dados de chamados para identificar fraudes. Essa equipe compara dados pessoais dos chamados com uma lista de fraudes confirmadas. O desafio é que os fraudadores alteram a escrita dos dados para evitar detecção. Assim, buscou-se uma técnica mais robusta para comparação, especialmente para equipamentos defeituosos dos EUA e Canadá.
  2. Análise de fraudes em larga escala: A equipe queria analisar o histórico de fraudes para entender os métodos dos fraudadores: variações regionais, produtos visados, influência do preço e compartilhamento de dados entre fraudadores. O desafio era o volume de dados históricos e operações diárias. Por isso, o time do CESAR buscou soluções automatizadas para gerar insights.

Como o problema foi solucionado?

Ambientes de big data frequentemente lidam com registros sem identificadores exclusivos, complicando a referência de entidades e vinculação de registros similares, conhecido como “name matching”. A solução está na área de Data Matching, que utiliza técnicas estatísticas para combinar dados referentes à mesma entidade em conjuntos distintos.

Na ciência da computação, isto é tratado como Deduplication e Record Linkage. Estas técnicas são valiosas em áreas como saúde e estatísticas do censo. Para detectar suspeitas de fraude, um modelo compara dados pessoais em tempo real com listas de monitoramento contendo 30 mil registros de possíveis fraudadores.

Complementarmente, para compreender padrões de fraude, redes de grafos foram usadas. Esses grafos mostram relações entre dados, revelando padrões e anomalias. A modelagem dos grafos analisou 600 mil ordens de serviços, oferecendo visualização de padrões de fraude previamente invisíveis.

O uso de técnicas de Record Linkage, em particular, provou ser uma ferramenta eficaz. Ela compara em tempo real os dados pessoais dos chamados contra listas de monitoramento de fraudadores conhecidos. Além disso, redes de grafos foram utilizadas para entender e descobrir padrões de comportamento fraudulentos, proporcionando insights valiosos sobre táticas comuns de fraude.

O projeto, inspirado pelo CRISP-DM, durou 2 anos e incluiu várias fases, desde a coleta de dados, limpeza, modelagem até a implantação de soluções back-end. Essa abordagem sistemática permitiu identificar e mitigar eficazmente os riscos de fraude.

Com a implantação desta solução, estima-se uma economia de $20 mil por semana apenas para dois dos itens mais caros da empresa. Esta economia é o resultado da detecção e prevenção proativas de fraudes antes que elas resultem em perdas tangíveis.

A inteligência artificial e o aprendizado de máquina estão desempenhando um papel crucial na detecção e prevenção de fraudes. As técnicas de Record Linkage e Dedupe, em particular, provaram ser ferramentas eficazes na identificação de táticas fraudulentas em constante evolução.

REFERÊNCIAS
Links de tecnologias utilizadas para construção dos modelos:

GREGG, Forest; EDER, Derek. Dedupe. 2015. Disponível em: https://github.com/dedupeio/dedupe. Acesso em: 16 dez. 2022.

HAGBERG, Aric A.; SCHULT, Daniel A.; SWART, Pieter J. Exploring network structure, dynamics, and function using NetworkX. 2008. https://conference.scipy.org/proceedings/SciPy2008/index.html. Disponível em: https://networkx.org/documentation/stable/index.html. Acesso em: 16 dez. 2022.

Artigos e Links sobre métodos e abordagens:

Investigating Fraudulent Acts, University of Houston System Administrative Memorandum. https://www.uhsystem.edu/compliance-ethics/_docs/sam/01/1c4.pdf, 2019.
PwC. Global Economic Crime and Fraud Survey. Fighting fraud: A never-ending battle. 2020. Disponível em: https://www.cybersource.com/content/dam/documents/campaign/fraud-report/global-fraud-report-2020.pdf. Acesso em: junho 2023.

COHEN, William W.; RICHMAN, Jacob. Learning to match and cluster large high-dimensional data sets for data integration. In: Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining. New York: ACM, 2002. p. 475-480.

FELLEGI, Ivan P.; SUNTER, Alan B. A theory for record linkage. Journal Of The American Statistical Association.  [S.L.], p. 1183-1210. abr. 1969.

ELMAGARMID, Ahmed K.; IPEIROTIS, Panagiotis G.; VERYKIOS, Vassilios S. Duplicate Record Detection: A Survey. IEEE Transactions On Knowledge And Data Engineering,  [S.L.], v. 19, n. 1, p. 1-16, jan. 2007.

NEWMAN, M. E. J. Finding community structure in networks using the eigenvectors of matrices. Physical Review. E, Statistical, Nonlinear, And Soft Matter Physics, [S.L.], v. 74, n. 3, p. 01-22, 11 set. 2006. American Physical Society (APS). http://dx.doi.org/10.1103/physreve.74.036104

BLONDEL, Vincent D et al. Fast unfolding of communities in large networks. Journal Of Statistical Mechanics: Theory and Experiment, [S.L.], v. 2008, n. 10, p. 08-20, 9 out. 2008. IOP Publishing. http://dx.doi.org/10.1088/1742-5468/2008/10/p10008.

SHEARER, Colin. The CRISP-DM Model: The New Blueprint for Data Mining. Journal Of Data Warehousing, [S. L.], v. 5, n. 4, p. 13-22, set. 2000.


cibersegurançaia