# Parâmetros de Geração no Skyone Studio

### Introdução

Os Modelos de Linguagem de Grande Escala (LLMs – Large Language Models) são sistemas de inteligência artificial capazes de entender e gerar texto de forma semelhante ao ser humano. Eles são treinados com bilhões de palavras e exemplos de linguagem para prever qual será a próxima palavra em uma frase.

No Skyone Studio, os LLMs podem ser ajustados por meio de parâmetros de configuração. Esses parâmetros são como alavancas de controle: permitem que o usuário decida se quer respostas mais curtas ou mais longas, mais criativas ou mais exatas, mais variadas ou mais objetivas.

Este documento explica em detalhe os principais parâmetros de geração de texto disponíveis, ajudando tanto profissionais técnicos quanto usuários de negócio a compreenderem e utilizarem a ferramenta com mais eficácia.

### Termos Importantes (Glossário)

* **LLM (Large Language Model)**: Modelo de linguagem de larga escala treinado para entender e gerar texto.
* **Token**: Unidade mínima de texto usada pelo modelo (pode ser uma palavra inteira, parte de uma palavra ou até um símbolo).
* **Prompt**: Texto ou instrução fornecida pelo usuário para que o modelo gere uma resposta.
* **Max\_tokens**: Quantidade máxima de tokens que o modelo pode gerar em uma saída.
* **Temperature**: Parâmetro que controla o nível de criatividade/aleatoriedade do texto.
* **Top\_p (Nucleus Sampling)**: Define a porcentagem de tokens mais prováveis a serem considerados.
* **Top\_k**: Limita o número de tokens possíveis a cada geração.
* **Presence\_penalty**: Penaliza repetições e incentiva variedade no texto.
* **Frequency\_penalty**: Penaliza a repetição de tokens com base na frequência de uso, reduzindo a probabilidade de palavras se repetirem muitas vezes.
* **Stop**: Define palavras ou sinais que interrompem a geração de texto.

***

### Parâmetros de Geração

#### Max\_tokens

**Descrição**: Define o limite máximo de tokens que o modelo pode gerar.

**Exemplo prático**:

* max\_tokens = 15 → resposta curta.
* max\_tokens = 100 → resposta longa e detalhada.

**Analogia**: É como escolher o tamanho da folha de papel em que o modelo pode escrever.

<figure><img src="/files/ZjDE1cm7TCzuLuKapc4p" alt=""><figcaption></figcaption></figure>

#### Temperature

**Descrição**: Controla a criatividade e a aleatoriedade da resposta.

* Baixa temperatura → Respostas objetivas e previsíveis.
* Alta temperatura → Respostas criativas e variadas.

**Analogia**: É como a “temperatura” de uma conversa: fria (direta) ou quente (diversa e cheia de ideias).

<figure><img src="/files/Qj7JH2FP4v9Hciy6j53x" alt=""><figcaption></figcaption></figure>

#### Top\_p

Descrição: Define a porcentagem acumulada de tokens mais prováveis a serem considerados.\
Exemplo:

* top\_p = 0.1 → só os 10% mais prováveis.
* top\_p = 0.9 → inclui até palavras menos comuns.\
  Analogia: É como usar uma peneira: quanto mais fina, menos opções passam.<br>

<figure><img src="/files/KfWubRq9xV5OB95zwatS" alt=""><figcaption></figcaption></figure>

***

#### Top\_k

Descrição: Restringe a geração aos k tokens mais prováveis.\
Exemplo:

* top\_k = 2 → escolhas muito restritas.
* top\_k = 40 → escolhas mais abertas.\
  Analogia: É como ter um cardápio: pode ser pequeno (poucas opções) ou grande (mais variedade).<br>

<figure><img src="/files/V9BNiGJmVXRcpE29kfG2" alt=""><figcaption></figcaption></figure>

***

#### Presence\_penalty

**Descrição**: Penaliza repetições e incentiva o modelo a explorar novas palavras e ideias.\
**Exemplo**:

* Sem penalidade: “Ele gosta de correr, correr e correr...”
* Com penalidade: “Ele gosta de correr, praticar esportes e se manter ativo.”\
  Analogia: É como pedir a alguém para não repetir a mesma história várias vezes em uma conversa.

<figure><img src="/files/tlX1ps1fonY0J4BDjohy" alt=""><figcaption></figcaption></figure>

***

#### **Frequency\_penalty**

**Descrição**: Penaliza tokens de acordo com a frequência em que já foram usados. Quanto mais uma palavra aparece, menor a chance de ela ser repetida.

Exemplo:

* Sem penalidade: “As estrelas brilham, estrelas iluminam, estrelas encantam...”
* Com penalidade: “As estrelas brilham, o luar ilumina e o firmamento encanta...”

**Analogia**: É como um professor pedindo para variar o vocabulário em uma redação, evitando repetir sempre a mesma palavra.

<figure><img src="/files/hWjov6WwU6M3XckLi431" alt=""><figcaption></figcaption></figure>

***

#### Stop

**Descrição**: Lista de palavras ou sinais que determinam onde o modelo deve parar.\
Exemplo:

* stop = \["fim"] → a resposta termina imediatamente após encontrar essa palavra.

**Analogia**: É como apertar o botão “pause” no momento certo.

<figure><img src="/files/BTYnP8wJ1856yxrTgLWZ" alt=""><figcaption></figcaption></figure>

***

### Boas Práticas

* Ajuste max\_tokens conforme o tamanho esperado da resposta.
* Use temperature baixa para respostas técnicas e alta para respostas criativas.
* Combine top\_p e top\_k para controlar diversidade e previsibilidade.
* Aplique presence\_penalty para evitar redundâncias.
* Use stop para garantir que a saída finalize no ponto desejado.
* Sempre registre os parâmetros usados para reproduzir resultados no futuro.
* Combine presence\_penalty e frequency\_penalty para evitar repetições excessivas e enriquecer o vocabulário.<br>

<figure><img src="/files/BOfYGhi00ZDCiq6o8jtS" alt=""><figcaption></figcaption></figure>

***

### FAQ

<details>

<summary>O que é um token?</summary>

Um token é uma parte de texto, que pode ser uma palavra inteira, parte dela ou até um símbolo.

</details>

<details>

<summary>Qual a diferença entre Top_p e Top_k?</summary>

* Top\_k define um número fixo de palavras possíveis.
* Top\_p usa uma porcentagem acumulada de probabilidade.

</details>

<details>

<summary>Quando devo usar temperature alta?</summary>

Em tarefas criativas, como brainstorms, geração de histórias ou rascunhos livres.

</details>

<details>

<summary>O presence_penalty pode atrapalhar?</summary>

Sim. Se for muito alto, pode prejudicar a coerência ao forçar variedade excessiva.

</details>

<details>

<summary>Preciso definir sempre todos os parâmetros?</summary>

Não. Muitos têm valores padrão que funcionam bem na maioria dos casos, mas ajustar manualmente ajuda a obter resultados mais precisos.

</details>

<details>

<summary>Qual a diferença entre Presence_penalty e Frequency_penalty?</summary>

* **Presence\_penalty**: Penaliza a simples ocorrência de um token, mesmo que ele tenha aparecido apenas uma vez.
* **Frequency\_penalty**: Aumenta a penalidade proporcionalmente ao número de vezes que o token já apareceu.

</details>


---

# Agent Instructions: Querying This Documentation

If you need additional information that is not directly available in this page, you can query the documentation dynamically by asking a question.

Perform an HTTP GET request on the current page URL with the `ask` query parameter:

```
GET https://docs.skyone.cloud/skyone-studio/how-to/parametros-de-geracao-no-skyone-studio.md?ask=<question>
```

The question should be specific, self-contained, and written in natural language.
The response will contain a direct answer to the question and relevant excerpts and sources from the documentation.

Use this mechanism when the answer is not explicitly present in the current page, you need clarification or additional context, or you want to retrieve related documentation sections.
