Terrain de jeu des paramètres LLM

Expérimentez avec la température, le top-p, la pénalité de fréquence et d'autres paramètres LLM avec des explications visuelles

~/llm-parameters

Préréglages

Contrôle le caractère aléatoire de la sortie. Des valeurs élevées rendent la sortie plus créative/aléatoire, des valeurs basses la rendent plus ciblée/déterministe.

1.0

Créatif — sorties plus diverses et surprenantes

Limite la sélection de tokens à une probabilité cumulative. Des valeurs basses restreignent aux tokens les plus probables. Alternative à la température.

1.0

Sans restriction — tout le vocabulaire est considéré

Pénalise les tokens en fonction de leur fréquence d'apparition dans la sortie. Les valeurs positives réduisent la répétition.

0.0

Neutre — patterns de répétition naturels

Pénalise les tokens qui sont déjà apparus dans la sortie. Encourage le modèle à aborder de nouveaux sujets.

0.0

Neutre — flux de sujets naturel

Nombre maximum de tokens à générer dans la réponse. Un token représente environ 4 caractères ou ¾ d'un mot.

4K

~3072 mots

Configuration JSON

{
  "temperature": 1,
  "top_p": 1,
  "frequency_penalty": 0,
  "presence_penalty": 0,
  "max_tokens": 4096
}

Qu'est-ce qu'un terrain de jeu de paramètres LLM ?

Un terrain de jeu de paramètres LLM vous permet d'expérimenter avec les réglages qui contrôlent la façon dont les grands modèles de langage génèrent du texte — température, top-p (échantillonnage par noyau), pénalité de fréquence, pénalité de présence, tokens maximum, et plus encore. Ces paramètres affectent considérablement la qualité, la créativité et la cohérence de la sortie, mais leurs interactions sont souvent mal comprises.

La plupart des développeurs commencent avec les valeurs de paramètres par défaut et ne les ajustent jamais. Cela fonctionne pour les cas d'utilisation basiques, mais ajuster les paramètres pour votre tâche spécifique peut faire la différence entre un chatbot qui semble robotique et un qui paraît naturel, ou entre une génération de code fiable et du code plein de syntaxe créative mais cassée.

Notre terrain de jeu gratuit fournit des visualisations interactives de chaque paramètre, montrant comment ils affectent la distribution de probabilité de la sélection du prochain token par le modèle. Ajustez les curseurs, observez le retour visuel en temps réel, expérimentez avec des préréglages pour les cas d'utilisation courants et exportez votre configuration en JSON prêt pour l'API. Tout le traitement s'effectue dans votre navigateur sans qu'aucune donnée ne soit envoyée à un serveur.

Comment utiliser ce terrain de jeu

Explorer les paramètres LLM est intuitif :

  1. Commencez par un préréglage — Choisissez parmi les préréglages optimisés pour les tâches courantes : précis (code, Q&R factuelles), équilibré (conversation générale), créatif (écriture, brainstorming) ou diversité maximale (génération d'idées). Chaque préréglage définit tous les paramètres aux valeurs recommandées.
  2. Ajustez les paramètres individuellement — Utilisez les curseurs pour modifier chaque paramètre. La visualisation se met à jour en temps réel pour montrer comment la distribution de probabilité change. Survolez le nom de n'importe quel paramètre pour une explication détaillée.
  3. Observez la visualisation de probabilité — Le graphique interactif montre une distribution simulée de probabilité des tokens, illustrant comment vos choix de paramètres affectent les tokens que le modèle est susceptible de sélectionner. Cela rend des concepts abstraits comme l'« échantillonnage par noyau » visuellement concrets.
  4. Comparez les configurations — Enregistrez plusieurs configurations et comparez-les côte à côte pour comprendre comment les changements de paramètres affectent les caractéristiques de sortie.
  5. Exportez votre configuration — Copiez vos paramètres sous forme d'objet JSON formaté pour les API OpenAI, Anthropic ou Google. La configuration exportée est prête à être collée directement dans votre code.

Comprendre chaque paramètre

Chaque paramètre contrôle un aspect différent de la génération de texte. Les comprendre individuellement et en combinaison est essentiel pour obtenir les sorties souhaitées.

Température (0,0 - 2,0)

La température est le paramètre le plus important pour contrôler le caractère aléatoire. Elle met à l'échelle les logits (prédictions brutes du modèle) avant que la fonction softmax ne les convertisse en probabilités. À température=0, le modèle choisit toujours le token le plus probable — les sorties sont déterministes et répétitives. À température=1,0 (valeur par défaut), la distribution de probabilité originale est utilisée. À température=2,0, la distribution est presque plate — presque n'importe quel token pourrait être sélectionné, menant à une sortie très créative mais souvent incohérente.

Top-p / Échantillonnage par noyau (0,0 - 1,0)

Le top-p filtre le pool de sélection de tokens par probabilité cumulative. À top_p=0,1, seuls les tokens qui ensemble représentent les 10 % supérieurs de masse de probabilité sont considérés. À top_p=1,0 (valeur par défaut), tous les tokens sont éligibles. Le top-p est utile car il s'adapte dynamiquement — lorsque le modèle est confiant (un token a 90 % de probabilité), top_p=0,95 sélectionne toujours de manière déterministe. Quand le modèle est incertain, le même réglage permet plus de diversité.

Pénalité de fréquence (-2,0 à 2,0)

La pénalité de fréquence réduit la probabilité des tokens qui sont déjà apparus dans la sortie, proportionnellement au nombre d'occurrences. Une valeur de 0,5 décourage modérément la répétition. Des valeurs plus élevées (1,0-2,0) pénalisent fortement les tokens répétés, ce qui peut améliorer la diversité du vocabulaire mais peut aussi amener le modèle à éviter la répétition nécessaire de termes techniques ou de noms de variables.

Pénalité de présence (-2,0 à 2,0)

La pénalité de présence applique une pénalité fixe à tout token qui est apparu ne serait-ce qu'une fois, quelle que soit la fréquence. Contrairement à la pénalité de fréquence, elle n'augmente pas avec les répétitions. Une valeur de 0,5 encourage le modèle à introduire de nouveaux sujets et du vocabulaire. C'est utile pour l'écriture créative et le brainstorming, où vous souhaitez que le modèle explore largement plutôt que de rester concentré.

Tokens maximum

Les tokens maximum définissent la limite supérieure stricte de la longueur de réponse. Ce n'est pas une cible — le modèle peut s'arrêter plus tôt s'il atteint une conclusion naturelle. Définir les tokens maximum empêche les réponses anormalement longues (et coûteuses). Pour la plupart des appels API, définir cette valeur explicitement est une bonne pratique pour le contrôle des coûts.

Préréglages recommandés par cas d'utilisation

Ces préréglages servent de points de départ — affinez-les selon vos besoins spécifiques :

  • Génération de code — temperature=0,1, top_p=0,95, frequency_penalty=0, presence_penalty=0. Sortie déterministe avec une syntaxe cohérente.
  • Q&R factuelles — temperature=0,2, top_p=0,9, frequency_penalty=0, presence_penalty=0. Légèrement plus de variation que le mode purement déterministe, mais toujours très ciblé.
  • Conversation générale — temperature=0,7, top_p=0,95, frequency_penalty=0,3, presence_penalty=0,1. Réponses naturelles avec une légère anti-répétition.
  • Écriture créative — temperature=1,0, top_p=0,95, frequency_penalty=0,5, presence_penalty=0,5. Grande variété avec un fort encouragement pour un vocabulaire diversifié.
  • Brainstorming — temperature=1,3, top_p=0,98, frequency_penalty=0,8, presence_penalty=0,8. Diversité maximale pour la génération d'idées. Examinez la sortie attentivement.

Questions Fréquentes

Quelle est la différence entre la température et le top_p ?

La température et le top_p contrôlent tous deux le caractère aléatoire des sorties du modèle, mais fonctionnent différemment. La température met à l'échelle la distribution de probabilité — des valeurs élevées l'aplatissent (plus aléatoire), des valeurs basses la renforcent (plus déterministe). Le top_p (échantillonnage par noyau) tronque la distribution en ne considérant que les tokens dont la probabilité cumulative atteint p. À temperature=0, le modèle choisit toujours le token le plus probable. À top_p=0,1, le modèle ne considère que les 10 % de tokens les plus probables. La plupart des fournisseurs recommandent d'ajuster l'un ou l'autre, pas les deux simultanément.

Quelle est la différence entre la pénalité de fréquence et la pénalité de présence ?

La pénalité de fréquence réduit la probabilité des tokens proportionnellement au nombre de fois qu'ils sont déjà apparus — plus un mot se répète, plus la pénalité est forte. La pénalité de présence applique une pénalité fixe à tout token qui est apparu au moins une fois, quelle que soit la fréquence. Utilisez la pénalité de fréquence pour réduire la répétition excessive de mots spécifiques. Utilisez la pénalité de présence pour encourager le modèle à explorer de nouveaux sujets et du vocabulaire. Une légère pénalité de fréquence (0,3-0,5) est souvent suffisante pour réduire les répétitions gênantes sans nuire à la qualité.

Quels sont les meilleurs réglages de paramètres pour la génération de code ?

Pour la génération de code, un faible caractère aléatoire produit les meilleurs résultats. Commencez avec temperature=0,1-0,2 et top_p=0,95. Le code doit être syntaxiquement correct et logiquement cohérent, donc les sorties déterministes sont préférables. Définissez frequency_penalty=0 car le code répète naturellement les mots-clés et les noms de variables. Pour du code créatif (générer plusieurs solutions ou explorer des approches), vous pouvez augmenter la température à 0,5-0,7, mais au-delà de 0,8 cela tend à produire une syntaxe invalide.

Puis-je partager mes configurations de paramètres avec mon équipe ?

Oui. Le terrain de jeu inclut un bouton « Copier la configuration » qui exporte vos réglages actuels sous forme d'objet JSON compatible avec les formats des API OpenAI, Anthropic et Google. Vous pouvez partager ce JSON avec vos collègues, le coller dans votre code ou le sauvegarder pour plus tard. L'outil fournit également une URL partageable qui encode vos paramètres, vous permettant de mettre en favoris des configurations spécifiques ou de les envoyer à des collègues.

Outils associés

Découvrez d'autres outils pour optimiser votre flux de développement IA :

Outils associés