Parâmetros de Geração no Skyone Studio

Introdução

Os Modelos de Linguagem de Grande Escala (LLMs – Large Language Models) são sistemas de inteligência artificial capazes de entender e gerar texto de forma semelhante ao ser humano. Eles são treinados com bilhões de palavras e exemplos de linguagem para prever qual será a próxima palavra em uma frase.

No Skyone Studio, os LLMs podem ser ajustados por meio de parâmetros de configuração. Esses parâmetros são como alavancas de controle: permitem que o usuário decida se quer respostas mais curtas ou mais longas, mais criativas ou mais exatas, mais variadas ou mais objetivas.

Este documento explica em detalhe os principais parâmetros de geração de texto disponíveis, ajudando tanto profissionais técnicos quanto usuários de negócio a compreenderem e utilizarem a ferramenta com mais eficácia.

Termos Importantes (Glossário)

  • LLM (Large Language Model): Modelo de linguagem de larga escala treinado para entender e gerar texto.

  • Token: Unidade mínima de texto usada pelo modelo (pode ser uma palavra inteira, parte de uma palavra ou até um símbolo).

  • Prompt: Texto ou instrução fornecida pelo usuário para que o modelo gere uma resposta.

  • Max_tokens: Quantidade máxima de tokens que o modelo pode gerar em uma saída.

  • Temperature: Parâmetro que controla o nível de criatividade/aleatoriedade do texto.

  • Top_p (Nucleus Sampling): Define a porcentagem de tokens mais prováveis a serem considerados.

  • Top_k: Limita o número de tokens possíveis a cada geração.

  • Presence_penalty: Penaliza repetições e incentiva variedade no texto.

  • Frequency_penalty: Penaliza a repetição de tokens com base na frequência de uso, reduzindo a probabilidade de palavras se repetirem muitas vezes.

  • Stop: Define palavras ou sinais que interrompem a geração de texto.


Parâmetros de Geração

Max_tokens

Descrição: Define o limite máximo de tokens que o modelo pode gerar.

Exemplo prático:

  • max_tokens = 15 → resposta curta.

  • max_tokens = 100 → resposta longa e detalhada.

Analogia: É como escolher o tamanho da folha de papel em que o modelo pode escrever.

Temperature

Descrição: Controla a criatividade e a aleatoriedade da resposta.

  • Baixa temperatura → Respostas objetivas e previsíveis.

  • Alta temperatura → Respostas criativas e variadas.

Analogia: É como a “temperatura” de uma conversa: fria (direta) ou quente (diversa e cheia de ideias).

Top_p

Descrição: Define a porcentagem acumulada de tokens mais prováveis a serem considerados. Exemplo:

  • top_p = 0.1 → só os 10% mais prováveis.

  • top_p = 0.9 → inclui até palavras menos comuns. Analogia: É como usar uma peneira: quanto mais fina, menos opções passam.


Top_k

Descrição: Restringe a geração aos k tokens mais prováveis. Exemplo:

  • top_k = 2 → escolhas muito restritas.

  • top_k = 40 → escolhas mais abertas. Analogia: É como ter um cardápio: pode ser pequeno (poucas opções) ou grande (mais variedade).


Presence_penalty

Descrição: Penaliza repetições e incentiva o modelo a explorar novas palavras e ideias. Exemplo:

  • Sem penalidade: “Ele gosta de correr, correr e correr...”

  • Com penalidade: “Ele gosta de correr, praticar esportes e se manter ativo.” Analogia: É como pedir a alguém para não repetir a mesma história várias vezes em uma conversa.


Frequency_penalty

Descrição: Penaliza tokens de acordo com a frequência em que já foram usados. Quanto mais uma palavra aparece, menor a chance de ela ser repetida.

Exemplo:

  • Sem penalidade: “As estrelas brilham, estrelas iluminam, estrelas encantam...”

  • Com penalidade: “As estrelas brilham, o luar ilumina e o firmamento encanta...”

Analogia: É como um professor pedindo para variar o vocabulário em uma redação, evitando repetir sempre a mesma palavra.


Stop

Descrição: Lista de palavras ou sinais que determinam onde o modelo deve parar. Exemplo:

  • stop = ["fim"] → a resposta termina imediatamente após encontrar essa palavra.

Analogia: É como apertar o botão “pause” no momento certo.


Boas Práticas

  • Ajuste max_tokens conforme o tamanho esperado da resposta.

  • Use temperature baixa para respostas técnicas e alta para respostas criativas.

  • Combine top_p e top_k para controlar diversidade e previsibilidade.

  • Aplique presence_penalty para evitar redundâncias.

  • Use stop para garantir que a saída finalize no ponto desejado.

  • Sempre registre os parâmetros usados para reproduzir resultados no futuro.

  • Combine presence_penalty e frequency_penalty para evitar repetições excessivas e enriquecer o vocabulário.


FAQ

O que é um token?

Um token é uma parte de texto, que pode ser uma palavra inteira, parte dela ou até um símbolo.

Qual a diferença entre Top_p e Top_k?
  • Top_k define um número fixo de palavras possíveis.

  • Top_p usa uma porcentagem acumulada de probabilidade.

Quando devo usar temperature alta?

Em tarefas criativas, como brainstorms, geração de histórias ou rascunhos livres.

O presence_penalty pode atrapalhar?

Sim. Se for muito alto, pode prejudicar a coerência ao forçar variedade excessiva.

Preciso definir sempre todos os parâmetros?

Não. Muitos têm valores padrão que funcionam bem na maioria dos casos, mas ajustar manualmente ajuda a obter resultados mais precisos.

Qual a diferença entre Presence_penalty e Frequency_penalty?
  • Presence_penalty: Penaliza a simples ocorrência de um token, mesmo que ele tenha aparecido apenas uma vez.

  • Frequency_penalty: Aumenta a penalidade proporcionalmente ao número de vezes que o token já apareceu.

Last updated