Os grandes modelos de linguagem (LLMs) são ferramentas poderosas capazes de lidar com diversas tarefas linguísticas. Integrados em múltiplas aplicações, esses modelos exigem métodos de avaliação robustos mais do que nunca. Este artigo explora os desafios inerentes ao uso e aos métodos de avaliação dos LLMs, destacando as tendências mais recentes e atualizações no campo.
O que Significa Avaliar um LLM?
Avaliar LLMs envolve a análise sistemática de seu desempenho e eficácia em várias tarefas, como compreensão linguística, geração de texto e precisão. Esse processo inclui métricas quantitativas, como precisão e pontuações de avaliação bilíngue, e avaliações qualitativas de coerência e relevância.
Além disso, dimensões éticas como viés, justiça e alinhamento com valores humanos são consideradas, embora ainda não existam métricas padrão amplamente acordadas para essas dimensões.
Desafios da Avaliação de LLMs
A avaliação é crucial para o desenvolvimento e a implantação de modelos de aprendizado de máquina, e essa necessidade é ampliada para os LLMs devido à sua complexidade e ampla aplicação. Durante o treinamento e a afinação, exemplos reais permitem o uso de métodos de avaliação tradicionais, mas a revisão desses modelos em produção apresenta desafios únicos devido à sua escala e generalidade.
Aberto
Os LLMs se destacam em tarefas para as quais não foram explicitamente treinados, uma capacidade conhecida como aprendizado de tiro zero ou poucos tiros. Esta versatilidade, embora poderosa, torna a avaliação complexa, pois os resultados potenciais são vastos e muitas vezes imprevisíveis.
Criar métricas para todas as tarefas concebíveis é impossível, portanto, é necessário generalizar as métricas para avaliar o resultado – não a resolução da tarefa.
Falta de Verdade Fundamental
Para tarefas generativas, não existe uma única resposta correta para comparação. Esta ausência de verdade fundamental complica as métricas de avaliação tradicionais. Por exemplo, se um usuário pede a um modelo para gerar uma música no estilo do artista favorito, não é possível usar métricas como precisão para avaliar o sucesso do modelo. Sem informações básicas para comparar, a avaliação da resolução da tarefa é subjetiva.
Excesso de Confiança e Desinformação
Os LLMs podem gerar informações incorretas com alta confiança, potencialmente disseminando informações erradas se não forem gerenciados adequadamente. Eles podem produzir resultados factualmente incorretos ou sem sentido, um fenômeno conhecido como alucinação.
À medida que as pessoas vêem cada vez mais os modelos como especialistas em domínios técnicos, isso se torna um desafio significativo a superar. Os usuários param de verificar os resultados quando os detalhes técnicos estão fora de seu domínio de conhecimento.
Avaliação Durante o Treinamento
A diferença crítica na avaliação durante a fase de treinamento é a disponibilidade de uma verdade básica. Isso nos permite medir perdas e realizar tarefas de validação. Vários métodos podem ser empregados:
Funções de Perda
As pessoas frequentemente usam a perda de entropia cruzada, mas também é possível combinar tarefas em uma função de perda. Esta abordagem foi particularmente utilizada no desenvolvimento do BERT, que empregou um modelo de linguagem mascarado e uma tarefa de previsão da próxima frase.
Perplexidade
O nível de incerteza que o modelo gerou na resposta.
Precisão em Nível de Token
A porcentagem de tokens previstos corretamente.
Métricas Específicas de Tarefa
Para modelos ajustados para tarefas específicas, como tradução automática, resumo ou resposta a perguntas, escolha métricas como BLEU, ROUGE ou F1 Scores.
Feedback de Especialistas
Especialistas no domínio humano fornecem resultados do modelo de avaliação e revisão, ajudando a refinar o modelo. Você pode incorporar avaliações humanas por meio de ciclos de feedback para refinar continuamente o modelo durante o treinamento.
Avaliação em Produção
Geração Aumentada de Recuperação (RAG)
O RAG emergiu como uma técnica popular para melhorar o desempenho e a avaliação do LLM. O RAG recupera informações relevantes (pedaços de documentos) de um grande corpus e então as utiliza como contexto para o LLM responder a um prompt do usuário.
Teoricamente, isso permite que os modelos se aproximem da verdade básica (o contexto fornecido) e limitem as alucinações. Além disso, permite que o LLM acesse informações atualizadas sem treinar novamente o modelo. Devido ao contexto adicional, é mais fácil criar uma estrutura de avaliação.
Estrutura de Avaliação RAGAS
O RAGAS oferece uma abordagem abrangente para avaliar sistemas RAG. Os componentes críticos do RAGAS são:
- Precisão/Fidelidade: O LLM gerou sua resposta com base no contexto fornecido?
- Relevância da Resposta e Relevância do Contexto: Quão relevante é a resposta ao prompt e quão relevante é o contexto retornado para o prompt?
- Precisão do Contexto: Todos os itens relevantes estão nos blocos de contexto e estão classificados em uma posição superior aos irrelevantes?
- Recuperação de Contexto: Quanto o contexto recuperado se alinha com a resposta gerada?
- Responda a Semelhança Semântica: Quão semelhante é o cosseno entre a resposta e os documentos recuperados?
- Correção da Resposta: Qual é a média ponderada da semelhança semântica e da semelhança factual da verdade básica e da resposta gerada?
A estrutura RAGAS utiliza LLMs para avaliar o RAG LLM; esta metodologia demonstrou ter 80% de acordo com preferências humanas em dados de bate-papo.
Avaliação sem Contexto Externo
Sem os documentos recuperados fornecidos ao LLM no RAG, não há contexto adicional contra o qual avaliar a resposta, portanto, devemos procurar métodos alternativos. Agrupamos os métodos disponíveis com base em uma combinação das informações utilizadas para realizar a avaliação e do avaliador.
Métodos LLM
- Responder a Verificações de Relevância: Usando a estrutura RAGAS para determinar a relevância da resposta para o prompt.
- Teste de Consistência: Usar um LLM independente para gerar prompts a partir do prompt original e, em seguida, gerar respostas para todos os prompts do modelo e comparar as respostas usando ROUGE ou um LLM para avaliar a estabilidade do modelo.
- Avaliação Contrastiva: Avaliando a capacidade do modelo de distinguir entre informações precisas e alucinadas.
- Análise de Similaridade Semântica: Medir o alinhamento entre prompts e respostas usando técnicas como Pontuação BERT.
Métodos de Treinamento
- Métricas Específicas de Tarefa: Para tarefas como tradução ou resumo, empregando métricas estabelecidas como BLEU, ROUGE ou METEOR.
- Integração de Feedback do Usuário: Incorporando feedback direto do usuário sobre a precisão das respostas ou respostas sugeridas para refinar e melhorar continuamente o desempenho do modelo.
Métodos de Usuário
- Análise de Interação do Usuário: Usando perguntas de acompanhamento e comportamentos do usuário para avaliar a eficácia das respostas do modelo.
- Latência e Taxa de Transferência: Quanto tempo leva para o modelo começar a responder e quantos tokens são gerados por segundo.
Avaliação e Mitigação de Riscos
Uma estrutura abrangente de avaliação de risco torna-se crucial à medida que os LLMs são implantados em diversas aplicações. Isso envolve a identificação de riscos potenciais associados aos resultados do modelo, incluindo desinformação, preconceito e geração de conteúdo inadequado.
Desenvolver sistemas robustos de filtragem de conteúdo, determinando o nível de interação direta do usuário e implementando processos de “humano no circuito” para aplicações sensíveis são essenciais para mitigar esses riscos. À medida que o nível de risco aumenta, as métricas de avaliação do treinamento devem ficar mais rigorosas e você deve coletar métricas de inferência com mais frequência e mais próximas do tempo real.
Perguntas Frequentes
1. O que é avaliação de LLMs?
Avaliação de LLMs envolve a análise sistemática do desempenho e eficácia desses modelos em diversas tarefas, como compreensão linguística e geração de texto. Isso inclui métricas quantitativas e qualitativas, além de considerações éticas.
2. Quais são os principais desafios na avaliação de LLMs?
Os principais desafios incluem a versatilidade dos modelos, a falta de uma verdade fundamental para tarefas generativas e o risco de excesso de confiança e desinformação.
3. Como avaliar LLMs durante o treinamento?
Durante o treinamento, é possível usar métodos como funções de perda, perplexidade, precisão em nível de token, métricas específicas de tarefa e feedback de especialistas.
4. O que é a estrutura de avaliação RAGAS?
RAGAS é uma abordagem abrangente para avaliar sistemas RAG, focando em precisão, relevância, semelhança semântica e correção da resposta.
5. Como mitigar riscos na avaliação de LLMs?
Mitigar riscos envolve desenvolver sistemas robustos de filtragem de conteúdo, determinando o nível de interação direta do usuário e implementando processos de “humano no circuito” para aplicações sensíveis.
Conclusão
A avaliação de grandes modelos de linguagem é um processo complexo e multifacetado que exige uma abordagem abrangente e rigorosa. Desde a análise quantitativa e qualitativa até a consideração de dimensões éticas, cada aspecto é crucial para garantir a eficácia e a precisão dos modelos.
A integração de métodos de avaliação durante o treinamento e em produção, bem como a implementação de estruturas como RAGAS, são fundamentais para superar os desafios inerentes aos LLMs. Ao adotar essas práticas, podemos assegurar que os modelos de linguagem continuem a evoluir de maneira responsável e eficaz, alinhados com os valores humanos e as necessidades dos usuários.