Parámetros de Generación en Skyone Studio
Introducción
Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) son sistemas de inteligencia artificial capaces de comprender y generar texto de una manera que se asemeja a la comunicación humana. Están entrenados con miles de millones de palabras y ejemplos de lenguaje para predecir la siguiente palabra en una oración.
En Skyone Studio, los LLMs pueden ajustarse finamente mediante parámetros de configuración. Estos parámetros funcionan como palancas de control: permiten al usuario decidir si desea respuestas más cortas o más largas, más creativas o más precisas, más variadas o más objetivas.
Este documento explica en detalle los principales parámetros de generación de texto disponibles, ayudando tanto a profesionales técnicos como a usuarios de negocio a comprender y utilizar la herramienta de manera más efectiva.
Términos Clave (Glosario)
LLM (Large Language Model): Modelo de lenguaje a gran escala entrenado para comprender y generar texto.
Token: Unidad mínima de texto utilizada por el modelo (puede ser una palabra completa, parte de una palabra o incluso un símbolo).
Prompt: Texto o instrucción proporcionada por el usuario para que el modelo genere una respuesta.
Max_tokens: Número máximo de tokens que el modelo puede generar en una salida.
Temperature: Parámetro que controla el nivel de creatividad/aleatoriedad en el texto.
Top_p (Muestreo por Núcleo): Define el porcentaje acumulado de los tokens más probables a considerar.
Top_k: Limita la cantidad de tokens posibles en cada paso de generación.
Presence_penalty: Penaliza repeticiones y fomenta la variedad en el texto.
Stop: Define palabras o símbolos que interrumpen la generación de texto.
Parámetros de Generación
Max_tokens
Descripción: Establece el número máximo de tokens que el modelo puede generar.
Ejemplo práctico:
max_tokens = 15→ respuesta corta.max_tokens = 100→ respuesta larga y detallada.
Analogía: Es como elegir el tamaño de la hoja de papel en la que el modelo puede escribir.

Temperature
Descripción: Controla la creatividad y aleatoriedad de la respuesta.
Temperatura baja → respuestas objetivas y predecibles.
Temperatura alta → respuestas creativas y variadas.
Analogía: Es como la “temperatura” de una conversación: fría (directa) o cálida (diversa y llena de ideas).

Top_p
Descripción: Define el porcentaje acumulado de los tokens más probables a considerar.
Ejemplo:
top_p = 0.1→ solo el 10% más probable de los tokens.top_p = 0.9→ incluye palabras menos comunes.
Analogía: Es como usar un colador: cuanto más fino, menos opciones pasan.

Top_k
Descripción: Restringe la generación a los k tokens más probables.
Ejemplo:
top_k = 2→ opciones muy limitadas.top_k = 40→ opciones más amplias.
Analogía: Es como un menú: puede ser pequeño (pocas opciones) o grande (más variedad).

Presence_penalty
Descripción: Penaliza repeticiones y anima al modelo a explorar nuevas palabras e ideas.
Ejemplo:
Sin penalización: “Le gusta correr, correr y correr...”
Con penalización: “Le gusta correr, hacer deporte y mantenerse activo.”
Analogía: Es como pedirle a alguien que no repita la misma historia una y otra vez en una conversación.

Frequency_penalty
Descripción: Penaliza los tokens según la frecuencia con la que ya han sido utilizados. Cuanto más se repite una palabra, menor es la probabilidad de que vuelva a aparecer.
Ejemplo:
Sin penalización: “Las estrellas brillan, las estrellas iluminan, las estrellas encantan…”
Con penalización: “Las estrellas brillan, la luna ilumina y el firmamento encanta…”
Analogía: Es como un profesor que pide variar el vocabulario en una redacción, evitando repetir siempre las mismas palabras.
Stop
Descripción: Lista de palabras o símbolos que determinan dónde debe detenerse el modelo.
Ejemplo:
stop = ["end"]→ la respuesta se detiene inmediatamente después de esta palabra.
Analogía: Es como presionar el botón de “pausa” en el momento adecuado.
Mejores Prácticas
Ajustar max_tokens según la longitud esperada de la respuesta.
Usar temperatura baja para respuestas técnicas y alta para tareas creativas.
Combinar top_p y top_k para equilibrar diversidad y predictibilidad.
Aplicar presence_penalty para evitar redundancia.
Usar stop para asegurar que la salida termine en el punto deseado.
Registrar siempre los parámetros utilizados para poder reproducir resultados en el futuro.
FAQ
Last updated