Parámetros de Generación en Skyone Studio

Introducción

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) son sistemas de inteligencia artificial capaces de comprender y generar texto de una manera que se asemeja a la comunicación humana. Están entrenados con miles de millones de palabras y ejemplos de lenguaje para predecir la siguiente palabra en una oración.

En Skyone Studio, los LLMs pueden ajustarse finamente mediante parámetros de configuración. Estos parámetros funcionan como palancas de control: permiten al usuario decidir si desea respuestas más cortas o más largas, más creativas o más precisas, más variadas o más objetivas.

Este documento explica en detalle los principales parámetros de generación de texto disponibles, ayudando tanto a profesionales técnicos como a usuarios de negocio a comprender y utilizar la herramienta de manera más efectiva.

Términos Clave (Glosario)

LLM (Large Language Model): Modelo de lenguaje a gran escala entrenado para comprender y generar texto.
Token: Unidad mínima de texto utilizada por el modelo (puede ser una palabra completa, parte de una palabra o incluso un símbolo).
Prompt: Texto o instrucción proporcionada por el usuario para que el modelo genere una respuesta.
Max_tokens: Número máximo de tokens que el modelo puede generar en una salida.
Temperature: Parámetro que controla el nivel de creatividad/aleatoriedad en el texto.
Top_p (Muestreo por Núcleo): Define el porcentaje acumulado de los tokens más probables a considerar.
Top_k: Limita la cantidad de tokens posibles en cada paso de generación.
Presence_penalty: Penaliza repeticiones y fomenta la variedad en el texto.
Stop: Define palabras o símbolos que interrumpen la generación de texto.

Parámetros de Generación

Max_tokens

Descripción: Establece el número máximo de tokens que el modelo puede generar.

Ejemplo práctico:

max_tokens = 15 → respuesta corta.
max_tokens = 100 → respuesta larga y detallada.

Analogía: Es como elegir el tamaño de la hoja de papel en la que el modelo puede escribir.

Temperature

Descripción: Controla la creatividad y aleatoriedad de la respuesta.

Temperatura baja → respuestas objetivas y predecibles.
Temperatura alta → respuestas creativas y variadas.

Analogía: Es como la “temperatura” de una conversación: fría (directa) o cálida (diversa y llena de ideas).

Top_p

Descripción: Define el porcentaje acumulado de los tokens más probables a considerar.

Ejemplo:

top_p = 0.1 → solo el 10% más probable de los tokens.
top_p = 0.9 → incluye palabras menos comunes.

Analogía: Es como usar un colador: cuanto más fino, menos opciones pasan.

Top_k

Descripción: Restringe la generación a los k tokens más probables.

Ejemplo:

top_k = 2 → opciones muy limitadas.
top_k = 40 → opciones más amplias.

Analogía: Es como un menú: puede ser pequeño (pocas opciones) o grande (más variedad).

Presence_penalty

Descripción: Penaliza repeticiones y anima al modelo a explorar nuevas palabras e ideas.

Ejemplo:

Sin penalización: “Le gusta correr, correr y correr...”
Con penalización: “Le gusta correr, hacer deporte y mantenerse activo.”

Analogía: Es como pedirle a alguien que no repita la misma historia una y otra vez en una conversación.

Frequency_penalty

Descripción: Penaliza los tokens según la frecuencia con la que ya han sido utilizados. Cuanto más se repite una palabra, menor es la probabilidad de que vuelva a aparecer.

Ejemplo:

Sin penalización: “Las estrellas brillan, las estrellas iluminan, las estrellas encantan…”
Con penalización: “Las estrellas brillan, la luna ilumina y el firmamento encanta…”

Analogía: Es como un profesor que pide variar el vocabulario en una redacción, evitando repetir siempre las mismas palabras.

Stop

Descripción: Lista de palabras o símbolos que determinan dónde debe detenerse el modelo.

Ejemplo:

stop = ["end"] → la respuesta se detiene inmediatamente después de esta palabra.

Analogía: Es como presionar el botón de “pausa” en el momento adecuado.

Mejores Prácticas

Ajustar max_tokens según la longitud esperada de la respuesta.
Usar temperatura baja para respuestas técnicas y alta para tareas creativas.
Combinar top_p y top_k para equilibrar diversidad y predictibilidad.
Aplicar presence_penalty para evitar redundancia.
Usar stop para asegurar que la salida termine en el punto deseado.
Registrar siempre los parámetros utilizados para poder reproducir resultados en el futuro.

FAQ

¿Qué es un token?

Un token es una unidad de texto que puede ser una palabra completa, una parte de ella o incluso un símbolo.

¿Cuál es la diferencia entre Top_p y Top_k?

Top_k define un número fijo de palabras posibles.
Top_p utiliza un porcentaje acumulado de probabilidad.

¿Cuándo debo usar una temperatura alta?

En tareas creativas, como lluvia de ideas, generación de historias o redacción libre.

¿El presence_penalty puede perjudicar?

Sí. Si es demasiado alto, puede afectar la coherencia al forzar una variedad excesiva.

¿Debo definir siempre todos los parámetros?

No. Muchos valores predeterminados funcionan bien en la mayoría de los casos, pero ajustarlos manualmente puede ayudar a obtener resultados más precisos.

¿Cuál es la diferencia entre presence_penalty y frequency_penalty?

Presence_penalty: penaliza la mera aparición de un token, incluso si solo ha aparecido una vez.
Frequency_penalty: aumenta la penalización proporcionalmente al número de veces que el token ya ha aparecido.

PreviousCriptografía: Funciones de Hash en JSONata ($md5 y $sha256)NextFAQ

Last updated 1 month ago