Análisis de Negocios | 2 min de lectura
Análisis Comparativo de Datos Sintéticos Generados con Llama y ChatGPT /
Administrador Ehecatl | 2024-10-22 10:19:13
Análisis de la calidad de datos sintéticos generados por dos herramientas generativas.
Introducción:
Este experimento analiza la calidad de datos sintéticos generados por dos herramientas generativas. Mediante las herramientas generativas de OpenAI (ChatGPT 4o) y Meta (Llama 3.1 405B), se evaluó cuál de ellos produce una mayor calidad de datos para el entrenamiento de modelos.
Las técnicas de Prompt Engineering y Soft prompting se utilizaron para generar las instrucciones utilizadas en el prompt, ajustando el formato del output y no generar información duplicada o similar.
Planteamiento del problema
Cuando la información disponible es escasa o inaccesible, las herramientas generativas pueden crear datasets sintéticos que simulan datos reales. Estos datasets permiten entrenar modelos de manera eficiente, siendo una alternativa valiosa para situaciones en las que no se pueden obtener datos reales.
¿Para qué nos sirve?
La generación de datasets sintéticos es crucial en situaciones donde la información es limitada. Las herramientas generativas pueden cubrir esa falta de información, proporcionando datos cercanos a la realidad y variados para distintas tareas de modelado.
Aplicaciones
Los resultados de este experimento son aplicables en sectores como sanidad, educación, donde se necesita generar datasets sintéticos sin comprometer la privacidad y en un espacio de tiempo corto.
Indicador de eficiencia:
Se tomaron varios criterios para evaluar la certeza de la información para el propósito deseado.
● Coherencia: ¿La información generada está dentro de lo que se esperaba?
● Especificidad: ¿Contiene información que la hace única o especifica?
● Datos generales: ¿Cuán frecuente aparecen conceptos fácilmente reconocidos?
● Datos únicos: ¿Que tan variada es la información sin repetir o duplicar datos?
Evaluación:
Ambos modelos generaron una muestra de mil doscientos datos cada uno, dando como resultado:
Conclusiones:
· Resultados: El modelo de OpenAI ChatGPT 4o mostró una mejor capacidad y certeza generando datos más coherentes teniendo un 5.25% más de coherencia, un 8.17% más de especificidad, un 3.42% en datos generales y 4.58% más en datos únicos.
· El modelo Meta Llama 3.1 405B es una buena alternativa viable para la generación de datos sintéticos por un margen promedio de 6.47% con ChatGPT 4o.
Sesgos (Bias):
- Importante considerar de que este experimento se realizó con unas versiones determinadas para ambas herramientas generativas, una vez que la versión de alguna de ellas cambie el experimento tendrá que ser sujeto a ser observado y los % de medición podrán variar.
- Los modelos ChatGPT y Llama proporcionaron un 19.33% y un 24.58% respectivamente de información fuera de lo esperado.
Elaboración del artículo:
Héctor Rivadeneyra V.
Brian Julain Piña S.
Te recomendamos estas publicaciones:
Análisis de Negocios | 1 min de lectura
2020-11-23 13:55:57
Análisis de Negocios | 3 min de lectura
2021-04-05 13:37:08