Google DeepMind Lança ATLAS, Um Marco para Modelos de Linguagem Multilíngues
Pesquisadores do Google DeepMind apresentaram o ATLAS, um conjunto inovador de leis de escala que redefine o treinamento de modelos de linguagem para múltiplos idiomas. Essa nova abordagem formaliza a complexa interação entre o tamanho do modelo, o volume de dados de treinamento e a mistura de idiomas à medida que o número de línguas suportadas aumenta.
O estudo, baseado em 774 execuções de treinamento controladas, abrange modelos com parâmetros variando de 10 milhões a 8 bilhões. Os dados utilizados cobrem mais de 400 idiomas, com avaliações de desempenho em 48 línguas-alvo. A introdução do ATLAS representa um avanço significativo, especialmente considerando que a maioria das leis de escala existentes se limita a regimes de treinamento em inglês ou em um único idioma, oferecendo pouca orientação para cenários multilíngues.
O ATLAS se diferencia por modelar explicitamente a transferência interlinguística e as trocas de eficiência inerentes ao treinamento multilíngue. Em vez de assumir um impacto uniforme com a adição de novos idiomas, o framework estima como línguas individuais contribuem ou interferem no desempenho de outras durante o treinamento, conforme informação divulgada pelo Google DeepMind.
Desvendando a Transferência Interlinguística com o ATLAS
No coração do ATLAS está uma matriz de transferência interlinguística. Essa matriz mede o impacto do treinamento em um idioma no desempenho de outro. A análise revela que a transferência positiva está fortemente correlacionada com a partilha de alfabetos e famílias linguísticas.
Exemplos notáveis incluem os idiomas escandinavos, que demonstram benefícios mútuos, e a forte ligação entre malaio e indonésio. Línguas como inglês, francês e espanhol emergem como fontes amplamente benéficas, provavelmente devido à escala e diversidade de seus dados, embora os efeitos de transferência não sejam simétricos.
Combatendo o “Curse of Multilinguality”
O ATLAS expande as leis de escala ao modelar explicitamente o número de idiomas de treinamento, além do tamanho do modelo e do volume de dados. Ele quantifica o chamado “curse of multilinguality”, onde o desempenho por idioma tende a diminuir à medida que mais línguas são adicionadas a um modelo de capacidade fixa.
Resultados empíricos indicam que dobrar o número de idiomas, mantendo o desempenho, exige um aumento de aproximadamente 1,18 vezes no tamanho do modelo e 1,66 vezes nos dados totais de treinamento. A transferência interlinguística positiva ajuda a compensar parcialmente a redução de dados por idioma.
Pré-treinamento ou Fine-tuning: Qual a Melhor Abordagem?
O estudo também investiga a eficácia de pré-treinar um modelo multilíngue do zero versus o fine-tuning de um checkpoint multilíngue existente. A pesquisa aponta que o fine-tuning é mais eficiente em termos de computação para orçamentos de tokens menores.
Por outro lado, o pré-treinamento se torna vantajoso quando os dados de treinamento e a computação excedem um limiar dependente do idioma. Para modelos de 2 bilhões de parâmetros, essa transição geralmente ocorre entre 144 bilhões e 283 bilhões de tokens, oferecendo um guia prático para a escolha da abordagem com base nos recursos disponíveis.
O Impacto do ATLAS e o Futuro da IA Multilíngue
A publicação do ATLAS já iniciou discussões sobre arquiteturas de modelos alternativas. Um usuário no X comentou sobre a possibilidade de modelos puramente de tradução, questionando o tamanho necessário e o potencial de redução do modelo base. Embora o ATLAS não responda diretamente a essa questão, suas medições de transferência e regras de escala fornecem uma base quantitativa para explorar designs modulares ou especializados em IA multilíngue.
Essa nova compreensão das leis de escala para modelos multilíngues é crucial para o avanço da inteligência artificial, abrindo caminho para sistemas mais eficientes e capazes de comunicar e processar informações em uma vasta gama de idiomas, aproximando o mundo de uma comunicação verdadeiramente global.