aprendizado por reforco

Aprendizado por reforço e início frio: os segredos por trás do DeepSeek-R1

Inspirado pelos resultados promissores do DeepSeek-R1-Zero, duas questões naturais surgem: 1) O desempenho do raciocínio pode ser ainda mais aprimorado ou a convergência acelerada com a incorporação de uma pequena quantidade de dados de alta qualidade como um “início frio”? 2) Como podemos treinar um modelo amigável ao usuário que não apenas produza Cadeias de Pensamento (CoT, na sigla em inglês) claras e coerentes, mas também demonstre capacidades gerais robustas? Para responder a essas perguntas, foi projetado um pipeline para treinar o DeepSeek-R1, composto por quatro etapas, descritas a seguir.

Início Frio

Diferente do DeepSeek-R1-Zero, para evitar a fase inicial instável do treinamento de aprendizado por reforço (RL, na sigla em inglês) a partir do modelo base, no DeepSeek-R1 foi construída e coletada uma pequena quantidade de dados de CoT longos para ajustar o modelo como o ator inicial do RL. Para coletar esses dados, foram exploradas várias abordagens: uso de prompts com poucos exemplos de CoT longos, geração direta de respostas detalhadas com reflexão e verificação, coleta de saídas do DeepSeek-R1-Zero em formato legível e refinamento dos resultados por meio de pós-processamento realizado por anotadores humanos.

Neste trabalho, foram coletados milhares de dados de início frio para ajustar o DeepSeek-V3-Base como ponto de partida para o RL. Em comparação ao DeepSeek-R1-Zero, as vantagens dos dados de início frio incluem:

  • Legibilidade: Uma limitação significativa do DeepSeek-R1-Zero é que seu conteúdo muitas vezes não é adequado para leitura. As respostas podem misturar vários idiomas ou carecer de formatação em markdown para destacar as respostas para os usuários. Em contraste, ao criar dados de início frio para o DeepSeek-R1, foi projetado um padrão legível que inclui um resumo no final de cada resposta e filtra respostas que não são amigáveis ao leitor. Aqui, o formato de saída é definido como |special_token|<processo_de_raciocínio>|special_token|<resumo>, onde o processo de raciocínio é a CoT para a consulta, e o resumo é usado para sintetizar os resultados do raciocínio.
  • Potencial: Ao projetar cuidadosamente o padrão para os dados de início frio com base em conhecimentos humanos, observou-se um desempenho superior em comparação ao DeepSeek-R1-Zero. Acredita-se que o treinamento iterativo seja uma abordagem mais eficaz para modelos de raciocínio.

Aprendizado por Reforço Orientado ao Raciocínio

Após ajustar o DeepSeek-V3-Base com os dados de início frio, foi aplicado o mesmo processo de treinamento de aprendizado por reforço em larga escala utilizado no DeepSeek-R1-Zero. Essa fase tem como objetivo aprimorar as capacidades de raciocínio do modelo, especialmente em tarefas que exigem raciocínio intensivo, como codificação, matemática, ciências e lógica, que envolvem problemas bem definidos com soluções claras. Durante o treinamento, observou-se que a CoT frequentemente apresenta mistura de idiomas, principalmente quando os prompts de RL envolvem múltiplas línguas. Para mitigar esse problema, foi introduzida uma recompensa de consistência linguística durante o treinamento de RL, calculada como a proporção de palavras no idioma alvo na CoT. Embora experimentos de ablação mostrem que essa alinhamento resulta em uma leve degradação no desempenho do modelo, essa recompensa está alinhada com as preferências humanas, tornando o conteúdo mais legível. Por fim, a precisão das tarefas de raciocínio e a recompensa de consistência linguística são combinadas por meio de uma soma direta para formar a recompensa final. O treinamento de RL é então aplicado ao modelo ajustado até que ele atinja a convergência nas tarefas de raciocínio.

Amostragem por Rejeição e Ajuste Supervisionado

Quando o RL orientado ao raciocínio converge, o ponto de verificação resultante é utilizado para coletar dados de Ajuste Supervisionado (SFT, na sigla em inglês) para a próxima rodada. Diferente dos dados de início frio, que focam principalmente no raciocínio, essa etapa incorpora dados de outros domínios para aprimorar as capacidades do modelo em escrita, role-playing e outras tarefas de propósito geral. Especificamente, os dados são gerados e o modelo é ajustado conforme descrito abaixo.

  • Dados de Raciocínio: Foram selecionados prompts de raciocínio e geradas trajetórias de raciocínio por meio de amostragem por rejeição a partir do ponto de verificação do treinamento de RL anterior. Na etapa anterior, apenas dados que podiam ser avaliados com recompensas baseadas em regras foram incluídos. No entanto, nesta fase, o conjunto de dados foi expandido com a incorporação de dados adicionais, alguns dos quais utilizam um modelo de recompensa generativa, alimentando a verdade fundamental e as previsões do modelo no DeepSeek-V3 para julgamento. Além disso, como a saída do modelo às vezes é caótica e difícil de ler, foram filtradas cadeias de pensamento com mistura de idiomas, parágrafos longos e blocos de código. Para cada prompt, foram amostradas várias respostas e mantidas apenas as corretas. No total, foram coletadas cerca de 600 mil amostras de treinamento relacionadas ao raciocínio.
  • Dados Não Relacionados ao Raciocínio: Para dados não relacionados ao raciocínio, como escrita, perguntas e respostas factuais, autoconhecimento e tradução, foi adotado o pipeline do DeepSeek-V3 e reutilizadas partes do conjunto de dados SFT do DeepSeek-V3. Para certas tarefas não relacionadas ao raciocínio, o DeepSeek-V3 foi chamado para gerar uma cadeia de pensamento potencial antes de responder à pergunta. No entanto, para consultas mais simples, como “olá”, não foi fornecida uma CoT na resposta. No final, foram coletadas cerca de 200 mil amostras de treinamento não relacionadas ao raciocínio.

O DeepSeek-V3-Base foi ajustado por duas épocas usando o conjunto de dados curado de aproximadamente 800 mil amostras.

Aprendizado por Reforço para Todos os Cenários

Para alinhar ainda mais o modelo com as preferências humanas, foi implementada uma segunda etapa de aprendizado por reforço, com o objetivo de melhorar a utilidade e a segurança do modelo, ao mesmo tempo em que refinava suas capacidades de raciocínio. Especificamente, o modelo foi treinado usando uma combinação de sinais de recompensa e distribuições diversificadas de prompts. Para dados de raciocínio, foi seguida a metodologia do DeepSeek-R1-Zero, que utiliza recompensas baseadas em regras para guiar o aprendizado em domínios como matemática, código e raciocínio lógico. Para dados gerais, foram utilizados modelos de recompensa para capturar preferências humanas em cenários complexos e sutis. Com base no pipeline do DeepSeek-V3, foi adotada uma distribuição semelhante de pares de preferência e prompts de treinamento. Para utilidade, o foco foi exclusivamente no resumo final, garantindo que a avaliação destacasse a relevância e a utilidade da resposta para o usuário, minimizando interferências no processo de raciocínio subjacente. Para segurança, toda a resposta do modelo foi avaliada, incluindo o processo de raciocínio e o resumo, para identificar e mitigar possíveis riscos, vieses ou conteúdo prejudicial que pudessem surgir durante a geração. A integração de sinais de recompensa e distribuições diversificadas de dados permitiu treinar um modelo que se destaca no raciocínio, priorizando utilidade e segurança.

Distilação: Capacitando Modelos Pequenos com Habilidades de Raciocínio

Para equipar modelos menores e mais eficientes com capacidades de raciocínio semelhantes ao DeepSeek-R1, modelos de código aberto como Qwen (Qwen, 2024b) e Llama (AI@Meta, 2024) foram diretamente ajustados usando as 800 mil amostras curadas com o DeepSeek-R1, conforme detalhado na seção anterior. Os resultados indicam que esse método simples de distilação melhora significativamente as habilidades de raciocínio dos modelos menores. Os modelos base utilizados foram Qwen2.5-Math-1.5B, Qwen2.5-Math-7B, Qwen2.5-14B, Qwen2.5-32B, Llama-3.1-8B e Llama-3.3-70B-Instruct. O Llama-3.3 foi escolhido porque sua capacidade de raciocínio é ligeiramente superior à do Llama-3.1.

Para os modelos distilados, apenas o SFT foi aplicado, sem incluir uma etapa de RL, embora a incorporação do RL pudesse impulsionar substancialmente o desempenho do modelo. O objetivo principal aqui foi demonstrar a eficácia da técnica de distilação, deixando a exploração da etapa de RL para a comunidade de pesquisa em geral.

Amanda Santiago

Criadora digital. Criando produtos e conteúdo para a internet desde 2012.

Don't Miss

manusagentechines

Manus AI o novo agente de inteligência artificial chinês

Já imaginou uma IA que não só entende comandos, mas
iaquecriaimagensgratis

IA que cria imagens grátis – confira a lista

Já imaginou criar imagens incríveis em segundos, sem precisar de
iaquecriavideogratisdegraca

IA que cria vídeos grátis – confira ferramentas

A inteligência artificial está revolucionando a forma como criamos conteúdo,
deepseekportugues

DeepSeek em português

Se você caiu nesse post é porque está procurando como
Como criar os melhores prompts pro chatgpt

Como escrever os melhores prompts para o ChatGPT

Você já se frustrou por não conseguir respostas que realmente
inteligencia artificial para atendimento cliente

Automação inteligente e inteligência artificial no atendimento ao cliente

Imagine um cliente que precisa de ajuda em pleno domingo