Parâmetros de Geração no Skyone Studio
Introdução
Os Modelos de Linguagem de Grande Escala (LLMs – Large Language Models) são sistemas de inteligência artificial capazes de entender e gerar texto de forma semelhante ao ser humano. Eles são treinados com bilhões de palavras e exemplos de linguagem para prever qual será a próxima palavra em uma frase.
No Skyone Studio, os LLMs podem ser ajustados por meio de parâmetros de configuração. Esses parâmetros são como alavancas de controle: permitem que o usuário decida se quer respostas mais curtas ou mais longas, mais criativas ou mais exatas, mais variadas ou mais objetivas.
Este documento explica em detalhe os principais parâmetros de geração de texto disponíveis, ajudando tanto profissionais técnicos quanto usuários de negócio a compreenderem e utilizarem a ferramenta com mais eficácia.
Termos Importantes (Glossário)
LLM (Large Language Model): Modelo de linguagem de larga escala treinado para entender e gerar texto.
Token: Unidade mínima de texto usada pelo modelo (pode ser uma palavra inteira, parte de uma palavra ou até um símbolo).
Prompt: Texto ou instrução fornecida pelo usuário para que o modelo gere uma resposta.
Max_tokens: Quantidade máxima de tokens que o modelo pode gerar em uma saída.
Temperature: Parâmetro que controla o nível de criatividade/aleatoriedade do texto.
Top_p (Nucleus Sampling): Define a porcentagem de tokens mais prováveis a serem considerados.
Top_k: Limita o número de tokens possíveis a cada geração.
Presence_penalty: Penaliza repetições e incentiva variedade no texto.
Frequency_penalty: Penaliza a repetição de tokens com base na frequência de uso, reduzindo a probabilidade de palavras se repetirem muitas vezes.
Stop: Define palavras ou sinais que interrompem a geração de texto.
Parâmetros de Geração
Max_tokens
Descrição: Define o limite máximo de tokens que o modelo pode gerar.
Exemplo prático:
max_tokens = 15 → resposta curta.
max_tokens = 100 → resposta longa e detalhada.
Analogia: É como escolher o tamanho da folha de papel em que o modelo pode escrever.

Temperature
Descrição: Controla a criatividade e a aleatoriedade da resposta.
Baixa temperatura → Respostas objetivas e previsíveis.
Alta temperatura → Respostas criativas e variadas.
Analogia: É como a “temperatura” de uma conversa: fria (direta) ou quente (diversa e cheia de ideias).

Top_p
Descrição: Define a porcentagem acumulada de tokens mais prováveis a serem considerados. Exemplo:
top_p = 0.1 → só os 10% mais prováveis.
top_p = 0.9 → inclui até palavras menos comuns. Analogia: É como usar uma peneira: quanto mais fina, menos opções passam.

Top_k
Descrição: Restringe a geração aos k tokens mais prováveis. Exemplo:
top_k = 2 → escolhas muito restritas.
top_k = 40 → escolhas mais abertas. Analogia: É como ter um cardápio: pode ser pequeno (poucas opções) ou grande (mais variedade).

Presence_penalty
Descrição: Penaliza repetições e incentiva o modelo a explorar novas palavras e ideias. Exemplo:
Sem penalidade: “Ele gosta de correr, correr e correr...”
Com penalidade: “Ele gosta de correr, praticar esportes e se manter ativo.” Analogia: É como pedir a alguém para não repetir a mesma história várias vezes em uma conversa.

Frequency_penalty
Descrição: Penaliza tokens de acordo com a frequência em que já foram usados. Quanto mais uma palavra aparece, menor a chance de ela ser repetida.
Exemplo:
Sem penalidade: “As estrelas brilham, estrelas iluminam, estrelas encantam...”
Com penalidade: “As estrelas brilham, o luar ilumina e o firmamento encanta...”
Analogia: É como um professor pedindo para variar o vocabulário em uma redação, evitando repetir sempre a mesma palavra.

Stop
Descrição: Lista de palavras ou sinais que determinam onde o modelo deve parar. Exemplo:
stop = ["fim"] → a resposta termina imediatamente após encontrar essa palavra.
Analogia: É como apertar o botão “pause” no momento certo.

Boas Práticas
Ajuste max_tokens conforme o tamanho esperado da resposta.
Use temperature baixa para respostas técnicas e alta para respostas criativas.
Combine top_p e top_k para controlar diversidade e previsibilidade.
Aplique presence_penalty para evitar redundâncias.
Use stop para garantir que a saída finalize no ponto desejado.
Sempre registre os parâmetros usados para reproduzir resultados no futuro.
Combine presence_penalty e frequency_penalty para evitar repetições excessivas e enriquecer o vocabulário.

FAQ
Last updated