Parámetros de Generación en Skyone Studio

Introducción

Los Modelos de Lenguaje a Gran Escala (LLMs, por sus siglas en inglés) son sistemas de inteligencia artificial capaces de comprender y generar texto de una manera que se asemeja a la comunicación humana. Están entrenados con miles de millones de palabras y ejemplos de lenguaje para predecir la siguiente palabra en una oración.

En Skyone Studio, los LLMs pueden ajustarse finamente mediante parámetros de configuración. Estos parámetros funcionan como palancas de control: permiten al usuario decidir si desea respuestas más cortas o más largas, más creativas o más precisas, más variadas o más objetivas.

Este documento explica en detalle los principales parámetros de generación de texto disponibles, ayudando tanto a profesionales técnicos como a usuarios de negocio a comprender y utilizar la herramienta de manera más efectiva.


Términos Clave (Glosario)

  • LLM (Large Language Model): Modelo de lenguaje a gran escala entrenado para comprender y generar texto.

  • Token: Unidad mínima de texto utilizada por el modelo (puede ser una palabra completa, parte de una palabra o incluso un símbolo).

  • Prompt: Texto o instrucción proporcionada por el usuario para que el modelo genere una respuesta.

  • Max_tokens: Número máximo de tokens que el modelo puede generar en una salida.

  • Temperature: Parámetro que controla el nivel de creatividad/aleatoriedad en el texto.

  • Top_p (Muestreo por Núcleo): Define el porcentaje acumulado de los tokens más probables a considerar.

  • Top_k: Limita la cantidad de tokens posibles en cada paso de generación.

  • Presence_penalty: Penaliza repeticiones y fomenta la variedad en el texto.

  • Stop: Define palabras o símbolos que interrumpen la generación de texto.


Parámetros de Generación

Max_tokens

Descripción: Establece el número máximo de tokens que el modelo puede generar.

Ejemplo práctico:

  • max_tokens = 15 → respuesta corta.

  • max_tokens = 100 → respuesta larga y detallada.

Analogía: Es como elegir el tamaño de la hoja de papel en la que el modelo puede escribir.


Temperature

Descripción: Controla la creatividad y aleatoriedad de la respuesta.

  • Temperatura baja → respuestas objetivas y predecibles.

  • Temperatura alta → respuestas creativas y variadas.

Analogía: Es como la “temperatura” de una conversación: fría (directa) o cálida (diversa y llena de ideas).


Top_p

Descripción: Define el porcentaje acumulado de los tokens más probables a considerar.

Ejemplo:

  • top_p = 0.1 → solo el 10% más probable de los tokens.

  • top_p = 0.9 → incluye palabras menos comunes.

Analogía: Es como usar un colador: cuanto más fino, menos opciones pasan.


Top_k

Descripción: Restringe la generación a los k tokens más probables.

Ejemplo:

  • top_k = 2 → opciones muy limitadas.

  • top_k = 40 → opciones más amplias.

Analogía: Es como un menú: puede ser pequeño (pocas opciones) o grande (más variedad).


Presence_penalty

Descripción: Penaliza repeticiones y anima al modelo a explorar nuevas palabras e ideas.

Ejemplo:

  • Sin penalización: “Le gusta correr, correr y correr...”

  • Con penalización: “Le gusta correr, hacer deporte y mantenerse activo.”

Analogía: Es como pedirle a alguien que no repita la misma historia una y otra vez en una conversación.


Frequency_penalty

Descripción: Penaliza los tokens según la frecuencia con la que ya han sido utilizados. Cuanto más se repite una palabra, menor es la probabilidad de que vuelva a aparecer.

Ejemplo:

  • Sin penalización: “Las estrellas brillan, las estrellas iluminan, las estrellas encantan…”

  • Con penalización: “Las estrellas brillan, la luna ilumina y el firmamento encanta…”

Analogía: Es como un profesor que pide variar el vocabulario en una redacción, evitando repetir siempre las mismas palabras.


Stop

Descripción: Lista de palabras o símbolos que determinan dónde debe detenerse el modelo.

Ejemplo:

  • stop = ["end"] → la respuesta se detiene inmediatamente después de esta palabra.

Analogía: Es como presionar el botón de “pausa” en el momento adecuado.


Mejores Prácticas

  • Ajustar max_tokens según la longitud esperada de la respuesta.

  • Usar temperatura baja para respuestas técnicas y alta para tareas creativas.

  • Combinar top_p y top_k para equilibrar diversidad y predictibilidad.

  • Aplicar presence_penalty para evitar redundancia.

  • Usar stop para asegurar que la salida termine en el punto deseado.

  • Registrar siempre los parámetros utilizados para poder reproducir resultados en el futuro.

FAQ

chevron-right¿Qué es un token? hashtag

Un token es una unidad de texto que puede ser una palabra completa, una parte de ella o incluso un símbolo.

chevron-right¿Cuál es la diferencia entre Top_p y Top_k?hashtag
  • Top_k define un número fijo de palabras posibles.

  • Top_p utiliza un porcentaje acumulado de probabilidad.

chevron-right¿Cuándo debo usar una temperatura alta?hashtag

En tareas creativas, como lluvia de ideas, generación de historias o redacción libre.

chevron-right¿El presence_penalty puede perjudicar?hashtag

Sí. Si es demasiado alto, puede afectar la coherencia al forzar una variedad excesiva.

chevron-right¿Debo definir siempre todos los parámetros?hashtag

No. Muchos valores predeterminados funcionan bien en la mayoría de los casos, pero ajustarlos manualmente puede ayudar a obtener resultados más precisos.

chevron-right¿Cuál es la diferencia entre presence_penalty y frequency_penalty?hashtag
  • Presence_penalty: penaliza la mera aparición de un token, incluso si solo ha aparecido una vez.

  • Frequency_penalty: aumenta la penalización proporcionalmente al número de veces que el token ya ha aparecido.

Última actualización

¿Te fue útil?