Por que a próxima grande jogada da IA Generativa é a miniaturização?

No final de 2022, o ChatGPT teve seu momento “estrela” e rapidamente se tornou o garoto propaganda do movimento IA Generativa após viralizar dias após seu lançamento. Para a próxima onda dos LLMs, muitos profissionais estão de olho na próxima grande oportunidade: adotar uma abordagem mais enxuta e “miniaturizado”.

Os principais fatores que impulsionam essa nova grande mudança são bem conhecidos: uma experiência de cliente aprimorada, ligada à nossa expectativa de gratificação instantânea, e um aumento da privacidade e segurança integradas às buscas dos usuários em redes locais menores, como os aparelhos que temos em mãos ou que estão dentro de nossos veículos e residências. Assim, eliminamos a necessidade de enviar e receber dados para e de centros de processamento de dados remotos na nuvem, o que inevitavelmente levaria a maiores tempos de espera conforme o tempo passa.

Embora existam algumas dúvidas sobre a rapidez com que os LLMs locais possam alcançar as capacidades do GPT-4, como seus 1,8 trilhão de parâmetros distribuídos em 120 camadas que operam em um cluster de 128 GPUs, alguns dos mais conhecidos inovadores tecnológicos do mundo estão trabalhando para levar a IA “para a ponta”, permitindo, assim, novos serviços como assistentes de voz inteligentes e rápidos, processamento de imagem computadorizado localizado para produzir rapidamente efeitos de imagem e vídeo, e outros tipos de aplicativos para consumidores.

Por exemplo, a Meta e a Qualcomm anunciaram, em julho, que se uniram para executar grandes modelos de IA em smartphones. O objetivo é habilitar o novo modelo de linguagem avançado da Meta, Llama 2, para rodar em chips da Qualcomm, tanto em telefones quanto em PCs, a partir de 2024. Isso em vez dos LLMs que funcionavam nos centros de dados na nuvem, devido ao imenso processamento de dados e ao poder computacional que é custoso.

Além disso, essa questão está se tornando um problema de sustentabilidade para as grandes empresas de tecnologia, representando um dos “segredos inconvenientes” da indústria emergente de IA, diante das preocupações com mudanças climáticas e a necessidade de outros recursos naturais, como água para resfriamento.

O desafio técnico da IA Generativa funcionando na ponta

Assim como o caminho que observamos há anos com os dispositivos de tecnologia de consumo, certamente veremos processadores mais potentes e chips de memória com tamanhos menores, impulsionados por inovadores como a Qualcomm. O hardware continuará evoluindo, seguindo a Lei de Moore.

No entanto, no lado do software, houve muita pesquisa, desenvolvimento e progresso sobre como podemos miniaturizar e reduzir
as redes neurais para se adequarem a dispositivos menores, como smartphones, tablets e computadores.

As redes neurais são bem grandes e pesadas. Elas consomem uma enorme quantidade de memória e precisam de bastante poder de processamento para funcionar porque consistem em muitas equações que envolvem a multiplicação de matrizes e vetores, estendendo-se matematicamente de maneira semelhante a como o cérebro humano é projetado para pensar, imaginar, sonhar e criar.

Existem duas abordagens amplamente utilizadas para reduzir a memória e o poder de processamento necessário para implementar redes neurais em dispositivos de ponta: quantização e vetorização.

Quantização significa converter a aritmética de ponto flutuante para ponto fixo, o que é mais ou menos como simplificar os cálculos realizados: se em ponto flutuante você faz cálculos com números decimais, com ponto fixo você os faz com inteiros. Isso também significa que as redes neurais ocupam menos memória, já que os números de ponto flutuante ocupam 4 bytes e os de ponto fixo geralmente ocupam 2 ou até 1 byte.

Vetorização, por sua vez, pretende utilizar instruções especiais do processador para executar uma operação em vários dados de uma vez só (usando instruções de Dados Múltiplos para Uma Única Instrução – SIMD). Isso acelera as operações matemáticas realizadas pelas redes neurais, pois permite que adições e multiplicações sejam realizadas com vários pares de números simultaneamente.

Outras abordagens estão ganhando espaço para executar redes neurais em dispositivos de ponta, como: o uso de Unidades de Processamento Tensorial (TPUs) e Processadores de Sinal Digital (DSPs), que são processadores especializados em operações matriciais e processamento de sinais, respectivamente; e o uso de técnicas de Poda e Fatorização de Baixa Ordem, que envolve analisar e remover partes da rede que não fazem diferença relevante para o resultado.

Assim, é possível ver que técnicas para reduzir e acelerar redes neurais podem tornar viável ter a IA Generativa funcionando em dispositivos de ponta num futuro próximo.

As aplicações revolucionárias que poderiam ser liberadas em breve:

Automações mais inteligentes

Ao combinar a IA Generativa rodando localmente – em dispositivos ou dentro de redes na casa, escritório ou carro – com vários sensores IoT conectados a eles, será possível realizar uma fusão de dados na ponta. Por exemplo, poderiam existir sensores inteligentes emparelhados com dispositivos que podem escutar e entender o que está acontecendo no seu ambiente, provocando uma consciência de contexto e possibilitando que ações inteligentes ocorram por si próprias – como abaixar automaticamente a música que está tocando ao fundo durante chamadas recebidas, ligar o ar-condicionado ou o aquecedor se ficar muito quente ou frio, e outras automações que podem acontecer sem que um usuário precise programá-las.

Segurança pública

Do ponto de vista da segurança pública, há um grande potencial para melhorar o que temos hoje conectando um número crescente de sensores em nossos carros aos sensores nas ruas para que eles possam se comunicar e interagir conosco inteligentemente em redes locais conectadas aos nossos dispositivos.

Por exemplo, para uma ambulância tentando chegar a um hospital com um paciente que precisa de cuidados urgentes para sobreviver, uma rede inteligente conectada de dispositivos e sensores poderia automatizar semáforos e alertas dentro do carro para abrir caminho para a ambulância chegar a tempo. Esse tipo de sistema conectado e inteligente também poderia ser utilizado para “ver” e alertar pessoas se estiverem muito próximas uma das outras no caso de uma pandemia como a COVID-19, ou para entender atividades suspeitas capturadas em câmeras conectadas em rede e alertar a polícia.

Telemedicina

Usando o modelo do Apple Watch estendido para LLMs que poderiam monitorar e fornecer conselhos iniciais para questões de saúde, sensores inteligentes com IA Generativa na ponta poderiam facilitar a identificação de potenciais problemas de saúde – desde batimentos cardíacos incomuns, aumento da temperatura ou quedas súbitas sem movimento limitado a nenhum.

Emparelhado com vigilância por vídeo para aqueles que estão idosos ou doentes em casa, a IA Generativa na ponta poderia ser usada para enviar alertas urgentes para familiares e médicos ou fornecer lembretes de cuidados de saúde para pacientes.

Eventos ao vivo e navegação inteligente

Redes IoT emparelhadas com a IA Generativa na ponta têm grande potencial para melhorar a experiência em eventos ao vivo, como concertos e esportes em grandes locais e estádios.

Para aqueles sem assentos no chão, a combinação poderia permitir que escolhessem um ângulo específico acessando uma câmera conectada em rede para que possam assistir ao evento ao vivo de um ângulo e localização específicos, ou até mesmo rever um momento ou jogada instantaneamente, como você pode fazer hoje usando um dispositivo de gravação tipo TiVo emparelhado com sua TV.

Essa mesma inteligência conectada na palma da sua mão poderia ajudar a navegar por grandes locais – de estádios a shoppings – para perguntar onde um serviço ou produto específico está disponível dentro daquele local, simplesmente ao perguntar por ele.

Embora essas novas inovações estejam a pelo menos alguns anos de distância, há uma mudança significativa à nossa frente para novos serviços valiosos que podem ser lançados uma vez que os desafios técnicos de reduzir LLMs para uso em dispositivos locais e redes tenham sido abordados. Com base na velocidade adicionada e no aumento da experiência do cliente, e nas preocupações reduzidas sobre privacidade e segurança de manter tudo local em vez da nuvem, há muito o que apreciar.

Tiago Barros é o Principal Technical Manager de IoT no CESAR e professor do curso de pós-graduação em Ciência da Computação na CESAR School. Ele tem mais de 27 anos de experiência em desenvolvimento de software, arquitetura de hardware, sistemas embarcados em tempo real, IoT e protocolos de comunicação.

ia generativaInteligência Artificialmachine learning