Playground de Parâmetros de LLM

Experimente com temperature, top-p, frequency penalty e outros parâmetros de LLM com explicações visuais

~/llm-parameters

Predefinições

Controla a aleatoriedade na saída. Valores mais altos tornam a saída mais criativa/aleatória, valores mais baixos tornam-na mais focada/determinística.

1.0

Criativo — saídas mais diversas e surpreendentes

Limita a seleção de tokens a uma probabilidade cumulativa. Valores mais baixos restringem a tokens de maior probabilidade. Alternativa ao temperature.

1.0

Sem restrição — vocabulário completo considerado

Penaliza tokens com base na frequência com que aparecem na saída até o momento. Valores positivos reduzem a repetição.

0.0

Neutro — padrões de repetição naturais

Penaliza tokens que já apareceram na saída. Incentiva o modelo a falar sobre novos tópicos.

0.0

Neutro — fluxo de tópicos natural

Número máximo de tokens a gerar na resposta. Um token equivale a aproximadamente 4 caracteres ou ¾ de uma palavra.

4K

~3072 palavras

JSON de Configuração

{
  "temperature": 1,
  "top_p": 1,
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 4096
}

O que é um Playground de Parâmetros de LLM?

Um playground de parâmetros de LLM permite experimentar com as configurações que controlam como modelos de linguagem de grande porte geram texto — temperature, top-p (nucleus sampling), frequency penalty, presence penalty, max tokens e muito mais. Esses parâmetros afetam dramaticamente a qualidade, criatividade e consistência da saída, mas suas interações são frequentemente mal compreendidas.

A maioria dos desenvolvedores começa com valores de parâmetros padrão e nunca os ajusta. Isso funciona para casos de uso básicos, mas ajustar parâmetros para sua tarefa específica pode significar a diferença entre um chatbot que parece robótico e um que parece natural, ou entre geração de código que é confiável e código cheio de sintaxe criativa mas quebrada.

Nosso playground gratuito fornece visualizações interativas de cada parâmetro, mostrando como eles afetam a distribuição de probabilidade da seleção do próximo token pelo modelo. Ajuste os controles deslizantes, veja o feedback visual em tempo real, experimente predefinições para casos de uso comuns e exporte sua configuração como JSON pronto para API. Todo o processamento acontece no seu navegador, sem nenhum dado enviado a qualquer servidor.

Como Usar Este Playground

Explorar parâmetros de LLM é intuitivo:

  1. Comece com uma predefinição — Escolha entre predefinições otimizadas para tarefas comuns: preciso (código, perguntas e respostas factuais), equilibrado (conversação geral), criativo (escrita, brainstorming) ou máxima diversidade (geração de ideias). Cada predefinição define todos os parâmetros com valores recomendados.
  2. Ajuste parâmetros individuais — Use os controles deslizantes para modificar cada parâmetro. A visualização é atualizada em tempo real para mostrar como a distribuição de probabilidade muda. Passe o mouse sobre qualquer nome de parâmetro para uma explicação detalhada.
  3. Observe a visualização de probabilidade — O gráfico interativo mostra uma distribuição de probabilidade de tokens simulada, ilustrando como suas escolhas de parâmetros afetam quais tokens o modelo provavelmente selecionará. Isso torna conceitos abstratos como "nucleus sampling" visualmente concretos.
  4. Compare configurações — Salve múltiplas configurações e compare-as lado a lado para entender como mudanças de parâmetros afetam as características da saída.
  5. Exporte sua configuração — Copie seus parâmetros como um objeto JSON formatado para as APIs da OpenAI, Anthropic ou Google. A configuração exportada está pronta para colar diretamente no seu código.

Entendendo Cada Parâmetro

Cada parâmetro controla um aspecto diferente da geração de texto. Entendê-los individualmente e em combinação é fundamental para obter as saídas que você deseja.

Temperature (0.0 - 2.0)

Temperature é o parâmetro mais importante para controlar a aleatoriedade. Ele escala os logits (previsões brutas do modelo) antes da função softmax convertê-los em probabilidades. Com temperature=0, o modelo sempre escolhe o token mais provável — saídas são determinísticas e repetitivas. Com temperature=1.0 (padrão), a distribuição de probabilidade original é usada. Com temperature=2.0, a distribuição é quase plana — praticamente qualquer token poderia ser selecionado, resultando em saída altamente criativa mas frequentemente incoerente.

Top-p / Nucleus Sampling (0.0 - 1.0)

Top-p filtra o conjunto de seleção de tokens por probabilidade cumulativa. Com top_p=0.1, apenas os tokens que juntos representam os 10% superiores da massa de probabilidade são considerados. Com top_p=1.0 (padrão), todos os tokens são elegíveis. Top-p é útil porque se adapta dinamicamente — quando o modelo tem confiança (um token tem 90% de probabilidade), top_p=0.95 ainda seleciona de forma determinística. Quando o modelo tem incerteza, a mesma configuração permite mais diversidade.

Frequency Penalty (-2.0 a 2.0)

Frequency penalty reduz a probabilidade de tokens que já apareceram na saída, proporcional a quantas vezes apareceram. Um valor de 0.5 desencoraja moderadamente a repetição. Valores mais altos (1.0-2.0) penalizam fortemente tokens repetidos, o que pode melhorar a diversidade de vocabulário mas pode fazer o modelo evitar a repetição necessária de termos técnicos ou nomes de variáveis.

Presence Penalty (-2.0 a 2.0)

Presence penalty aplica uma penalidade fixa a qualquer token que tenha aparecido mesmo uma vez, independente da frequência. Diferente do frequency penalty, não aumenta com repetições. Um valor de 0.5 incentiva o modelo a introduzir novos tópicos e vocabulário. Isso é útil para escrita criativa e brainstorming, onde você quer que o modelo explore amplamente em vez de permanecer focado.

Max Tokens

Max tokens define o limite superior rígido para o comprimento da resposta. Isso não é um alvo — o modelo pode parar antes se chegar a uma conclusão natural. Definir max tokens previne respostas inesperadamente longas (e caras). Para a maioria das chamadas de API, definir isso explicitamente é uma boa prática para controle de custos.

Predefinições Recomendadas por Caso de Uso

Estas predefinições servem como ponto de partida — ajuste a partir daqui com base nas suas necessidades específicas:

  • Geração de código — temperature=0.1, top_p=0.95, frequency_penalty=0, presence_penalty=0. Saída determinística com sintaxe consistente.
  • Perguntas e respostas factuais — temperature=0.2, top_p=0.9, frequency_penalty=0, presence_penalty=0. Um pouco mais de variação que puro determinístico, mas ainda muito focado.
  • Conversação geral — temperature=0.7, top_p=0.95, frequency_penalty=0.3, presence_penalty=0.1. Respostas com som natural e leve anti-repetição.
  • Escrita criativa — temperature=1.0, top_p=0.95, frequency_penalty=0.5, presence_penalty=0.5. Alta variedade com forte incentivo para vocabulário diverso.
  • Brainstorming — temperature=1.3, top_p=0.98, frequency_penalty=0.8, presence_penalty=0.8. Máxima diversidade para geração de ideias. Revise a saída com cuidado.

Perguntas Frequentes

Qual é a diferença entre temperature e top_p?

Temperature e top_p ambos controlam a aleatoriedade nas saídas do modelo, mas funcionam de maneira diferente. Temperature escala a distribuição de probabilidade — valores mais altos a achatam (mais aleatório), valores mais baixos a aguçam (mais determinístico). Top_p (nucleus sampling) trunca a distribuição considerando apenas tokens cuja probabilidade cumulativa atinge p. Com temperature=0, o modelo sempre escolhe o token mais provável. Com top_p=0.1, o modelo considera apenas os 10% de tokens mais prováveis. A maioria dos provedores recomenda ajustar um ou outro, não ambos simultaneamente.

Qual é a diferença entre frequency penalty e presence penalty?

Frequency penalty reduz a probabilidade de tokens proporcionalmente a quantas vezes já apareceram — quanto mais uma palavra se repete, mais forte a penalidade. Presence penalty aplica uma penalidade fixa a qualquer token que tenha aparecido, independente da frequência. Use frequency penalty para reduzir repetição excessiva de palavras específicas. Use presence penalty para incentivar o modelo a explorar novos tópicos e vocabulário. Um frequency penalty pequeno (0.3-0.5) geralmente é suficiente para reduzir repetições incômodas sem prejudicar a qualidade.

Quais são as melhores configurações de parâmetros para geração de código?

Para geração de código, baixa aleatoriedade produz os melhores resultados. Comece com temperature=0.1-0.2 e top_p=0.95. Código precisa ser sintaticamente correto e logicamente consistente, então saídas determinísticas são preferíveis. Defina frequency_penalty=0 porque código naturalmente repete palavras-chave e nomes de variáveis. Para código criativo (gerar múltiplas soluções ou brainstorming de abordagens), você pode aumentar temperature para 0.5-0.7, mas acima de 0.8 tende a produzir sintaxe inválida.

Posso compartilhar minhas configurações de parâmetros com minha equipe?

Sim. O playground inclui um botão "Copiar Configuração" que exporta suas configurações de parâmetros atuais como um objeto JSON compatível com os formatos de API da OpenAI, Anthropic e Google. Você pode compartilhar este JSON com colegas de equipe, colá-lo no seu código ou salvá-lo para depois. A ferramenta também fornece uma URL compartilhável que codifica seus parâmetros, para que você possa salvar configurações específicas nos favoritos ou enviá-las para colegas.

Ferramentas Relacionadas

Explore mais ferramentas para otimizar seu fluxo de trabalho de desenvolvimento com IA:

Ferramentas Relacionadas