Google DeepMind Revela ATLAS: A Nova Era de Leis de Escala para Modelos de Linguagem Multilíngues

Google DeepMind Lança ATLAS, Um Marco para Modelos de Linguagem Multilíngues

Pesquisadores do Google DeepMind apresentaram o ATLAS, um conjunto inovador de leis de escala que redefine o treinamento de modelos de linguagem para múltiplos idiomas. Essa nova abordagem formaliza a complexa interação entre o tamanho do modelo, o volume de dados de treinamento e a mistura de idiomas à medida que o número de línguas suportadas aumenta.

O estudo, baseado em 774 execuções de treinamento controladas, abrange modelos com parâmetros variando de 10 milhões a 8 bilhões. Os dados utilizados cobrem mais de 400 idiomas, com avaliações de desempenho em 48 línguas-alvo. A introdução do ATLAS representa um avanço significativo, especialmente considerando que a maioria das leis de escala existentes se limita a regimes de treinamento em inglês ou em um único idioma, oferecendo pouca orientação para cenários multilíngues.

O ATLAS se diferencia por modelar explicitamente a transferência interlinguística e as trocas de eficiência inerentes ao treinamento multilíngue. Em vez de assumir um impacto uniforme com a adição de novos idiomas, o framework estima como línguas individuais contribuem ou interferem no desempenho de outras durante o treinamento, conforme informação divulgada pelo Google DeepMind.

Desvendando a Transferência Interlinguística com o ATLAS

No coração do ATLAS está uma matriz de transferência interlinguística. Essa matriz mede o impacto do treinamento em um idioma no desempenho de outro. A análise revela que a transferência positiva está fortemente correlacionada com a partilha de alfabetos e famílias linguísticas.

Exemplos notáveis incluem os idiomas escandinavos, que demonstram benefícios mútuos, e a forte ligação entre malaio e indonésio. Línguas como inglês, francês e espanhol emergem como fontes amplamente benéficas, provavelmente devido à escala e diversidade de seus dados, embora os efeitos de transferência não sejam simétricos.

Combatendo o “Curse of Multilinguality”

O ATLAS expande as leis de escala ao modelar explicitamente o número de idiomas de treinamento, além do tamanho do modelo e do volume de dados. Ele quantifica o chamado “curse of multilinguality”, onde o desempenho por idioma tende a diminuir à medida que mais línguas são adicionadas a um modelo de capacidade fixa.

Resultados empíricos indicam que dobrar o número de idiomas, mantendo o desempenho, exige um aumento de aproximadamente 1,18 vezes no tamanho do modelo e 1,66 vezes nos dados totais de treinamento. A transferência interlinguística positiva ajuda a compensar parcialmente a redução de dados por idioma.

Pré-treinamento ou Fine-tuning: Qual a Melhor Abordagem?

O estudo também investiga a eficácia de pré-treinar um modelo multilíngue do zero versus o fine-tuning de um checkpoint multilíngue existente. A pesquisa aponta que o fine-tuning é mais eficiente em termos de computação para orçamentos de tokens menores.

Por outro lado, o pré-treinamento se torna vantajoso quando os dados de treinamento e a computação excedem um limiar dependente do idioma. Para modelos de 2 bilhões de parâmetros, essa transição geralmente ocorre entre 144 bilhões e 283 bilhões de tokens, oferecendo um guia prático para a escolha da abordagem com base nos recursos disponíveis.

O Impacto do ATLAS e o Futuro da IA Multilíngue

A publicação do ATLAS já iniciou discussões sobre arquiteturas de modelos alternativas. Um usuário no X comentou sobre a possibilidade de modelos puramente de tradução, questionando o tamanho necessário e o potencial de redução do modelo base. Embora o ATLAS não responda diretamente a essa questão, suas medições de transferência e regras de escala fornecem uma base quantitativa para explorar designs modulares ou especializados em IA multilíngue.

Essa nova compreensão das leis de escala para modelos multilíngues é crucial para o avanço da inteligência artificial, abrindo caminho para sistemas mais eficientes e capazes de comunicar e processar informações em uma vasta gama de idiomas, aproximando o mundo de uma comunicação verdadeiramente global.