Data annotation for Gen AI: Sigma’s upskilling strategy

La GenAI está reconfigurando nuestra forma de trabajar, acelerando la necesidad de crear nuevas habilidades para 40% de la mano de obra mundial en los próximos años. Pero la clave para descubrir el verdadero valor de la GenAI podría estar en las capacidades que nos hacen únicos como humanos, como la creatividad, la inteligencia emocional y el pensamiento crítico.

Incluso para empresas con amplia experiencia en IA, como Sigma AI, GenAI plantea una nueva frontera. La capacidad de GenAI para crear contenidos e ideas nuevos y originales, al tiempo que se vuelve más competente en el manejo de una amplia gama de desafíos cognitivos, es un territorio inexplorado que requiere nuevos marcos y enfoques. Aunque la integración de humanos en el bucle sigue siendo crucial, se necesitan habilidades adicionales para obtener resultados de la máxima calidad de GenAI.

Table of Contents

Si los proyectos tradicionales de IA requieren que los anotadores humanos clasifiquen el texto en categorías predefinidas, determinen el sentimiento o las emociones dentro de un texto o localicen objetos concretos dentro de una imagen, Los proyectos de GenAI requieren que destaquen en tareas de creación de contenidos, lo que implica un mayor nivel de creatividad, pensamiento lógico y capacidad para captar los matices del lenguaje y las emociones.

  • ¿Qué habilidades específicas necesitan los anotadores humanos para trabajar con GenAI?
  • ¿Cómo pueden aprender estas habilidades?
  • ¿Es posible cuantificar algo tan abstracto como la creatividad?
  • ¿Cómo influye en la calidad de los datos la selección de candidatos para los proyectos GenAI?

 

Echemos un vistazo a IA Sigmapara crear un equipo eficiente, adaptable e innovador que trabaje con GenAI.

Creación de nuevas competencias para la anotación de datos de GenAI

Los datos de alta calidad son el combustible de la IA.

Los sistemas tradicionales de IA aprenden a partir de grandes cantidades de datos etiquetados. Generar estos datos etiquetados requiere un paso crucial: la anotación humana. Se forma a un equipo de anotadores nativos que dominan el idioma o idiomas relevantes para el proyecto para que entiendan y sigan unas directrices específicas y proporcionen la "respuesta correcta" para cada dato. Estas respuestas son los ejemplos que una máquina utiliza para entender los datos y hacer predicciones.

La GenAI, por su parte, suele entrenarse inicialmente con aprendizaje no supervisado. Esto significa que tiene que reconocer patrones en datos no etiquetados. A partir de ahí, los modelos GenAI generan ideas y conceptos nuevos y originales que se asemejan a los datos de entrenamiento originales. Pero hay una trampa: después de esta fase de preentrenamiento, los sistemas GenAI siguen necesitando la intervención humana para afinarse o mejorar su rendimiento en un dominio concreto. La supervisión humana es esencial en este punto para reducir el sesgo, aplicar el razonamiento lógico y alinear los modelos con casos de uso y dominios específicos.

Como consecuencia de ello, Los proyectos de GenAI exigen un conjunto de competencias más amplio que va más allá de los conocimientos lingüísticos. "Dado que las herramientas de GenAI pueden generar respuestas similares a las humanas, los anotadores tienen que ser extremadamente cuidadosos en sus respuestas. Necesitamos que sean capaces de juzgar si la información es verdadera, falsa o no concluyente cuando no hay pruebas suficientes", afirma Valentina Vendola, gerente de Sigma.

Explicó que los anotadores deben tener una gran capacidad de redacción, creatividad y un enfoque analítico del lenguaje. Pueden redactar un texto desde cero, resumirlo o extraer conclusiones a partir de datos.

Tomemos el ejemplo de una herramienta de resumen que necesita información humana para afinarse.

Aunque resumir un texto parece sencillo, exige una mezcla de habilidades, como la comprensión lectora, el pensamiento crítico y la capacidad de parafrasear, condensar y destilar el significado.

Para garantizar resultados coherentes, cada paso del proceso de anotación debe estar estandarizado, con parámetros detallados y directrices que los anotadores deban seguir.

Sin embargo, Para garantizar datos de alta calidad para GenAI, las empresas deben dar prioridad a un enfoque en dos fases que comience incluso antes de los proyectos de dotación de personal:

  • Evaluar las competencias relacionadas con GenAI dentro de su plantilla y elegir a los mejores candidatos para cada proyecto.
  • Desarrollar un programa de perfeccionamiento para formar anotadores con las habilidades específicas necesarias para la anotación GenAI.

Evaluación de las competencias GenAI: ¿Podemos medir la creatividad?

With over 16 years of experience in data annotation, transcription, and translation for AI training, Sigma AI has built a qualified workforce of 30,000 annotators, with specialized backgrounds in 500+ languages and dialects. Such diversity and native understanding of languages is precisely what GenAI needs to be safe and become more human. 

Para hacer frente a estos retos emergentes, Sigma AI está construyendo actualmente un sistema integral para proyectos GenAI, explica Antonio Hornero, Director de Operaciones y líder del Grupo de Anotación de Sigma. "Esto implica definir las habilidades específicas necesarias para estos proyectos y desarrollar una serie de pruebas para evaluar la competencia de los anotadores en estas habilidades esenciales. Nuestro objetivo es encontrar el candidato adecuado para el proyecto adecuado", añade.

Las nuevas pruebas están diseñadas específicamente para evaluar una serie de competencias cruciales para los proyectos de GenAI, entre ellas:

  • Comprensión de lectura 
  • Competencia lingüística
  • Razonamiento verbal
  • Resumen
  • Parafraseando
  • Revisión
  • Reconocimiento de vínculos textuales
  • Conocimientos de búsqueda en Internet
  • Creatividad

 

El diseño de estas pruebas implica una estrecha colaboración entre los jefes de proyecto de la empresa y los expertos en procesamiento del lenguaje natural (PLN). Dado que muchos aspectos de GenAI dependen de habilidades subjetivas, el equipo de PNL se encarga de establecer una forma de evaluar y puntuar las pruebas de forma objetiva, utilizando los conjuntos de datos y corpus lingüísticos existentes. El perfeccionamiento y la validación de estas pruebas a lo largo del tiempo también forman parte de la ecuación.

"Las pruebas más difíciles de resolver son las que implican la generación creativa de textos", dice Valentina. "En estos casos, los candidatos tienen que crear un texto desde cero. Sin embargo, la creación de diferentes formatos de texto requiere enfoques distintos. Por ejemplo, un ensayo exige una estructura y un contenido diferentes a los de un resumen o una historia fantástica."

Suppose we give a candidate the following content creation task: create a short story describing your morning from a cat’s perspective.

How can we assess creative abilities from their response? Here are a few insights from the Sigma AI’s team:

  • Podemos medir la variedad de palabras y sinónimos que utiliza un candidato, lo que nos da una idea de su fluidez lingüística.
  • Metrics tracking changes in grammatical forms, like verb tenses and nouns, can assess the ability to adapt language for different purposes.
  • Por supuesto, podemos medir y analizar la gramática, la ortografía y la puntuación.
  • Por último, las métricas también pueden evaluar la complejidad de la estructura de las frases, lo que revela la capacidad del candidato para expresar ideas con eficacia.

Perfeccionamiento para innovar: Preparar a los anotadores para los retos de la GenAI

La naturaleza única de los proyectos GenAI -y el compromiso de Sigma con la calidad excepcional de los datos-.  revelan la necesidad de un enfoque estructurado para seleccionar a los anotadores. Pero el proceso no termina con la selección: también implica desarrollar programas de actualización para formar constantemente a los anotadores en las capacidades relacionadas con GenAI.

"Si un candidato muestra debilidades en algunas áreas, diseñaremos una formación específica para subsanar esas carencias. Esto nos permitirá no solo seleccionar a personas con talento, sino también desarrollar activamente su conjunto de competencias", afirma Valentina.

El enfoque de Sigma AI para la selección, la formación y el perfeccionamiento de GenAI es un programa largo y meticuloso que requiere una gran atención al detalle. "Alcanzar el nivel de calidad al que aspiramos requiere un esfuerzo considerable", afirma. "No todas las empresas están dispuestas a invertir tiempo y recursos. En un campo nuevo y en evolución como este, algunas pueden tener la tentación de recortar gastos".

Los currículos por sí solos, por ejemplo, no pueden reflejar plenamente las aptitudes específicas necesarias para el trabajo de anotación. Pueden indicar fluidez lingüística, pero no transmiten las capacidades de pensamiento crítico y razonamiento que requiere el trabajo.

Del mismo modo, la BPO para la anotación de datos no puede igualar la calidad de un equipo interno experimentado, que recibe formación constante en escenarios simulados y reales.

En resumen, Sigma AI da prioridad a los datos de alta calidad para GenAI a través de un proceso integral:

  • Assess annotator’s soft skills, like critical thinking and creativity, through a series of tests. This helps identify skills gaps.
  • Sobre la base de los resultados de la evaluación, impartir formación de perfeccionamiento para colmar las lagunas de cualificación.
  • Seleccione a los candidatos más adecuados para dotar de personal a los proyectos GenAI, dando prioridad a aquellos que demuestren las competencias necesarias. Esto garantiza datos de calidad desde el principio y ahorra tiempo y recursos.
  • Realice una evaluación continua y ofrezca oportunidades de mejora para mantener un alto nivel de calidad en el proceso de anotación.

 

¿Cuál es el resultado? Una IA más precisa, fiable e imparcial. En otras palabras, más humano AI.

Una mano de obra cualificada, el secreto de los mejores datos de GenAI

Apenas estamos arañando la superficie de todo el potencial de GenAI. Pero la clave para liberar su poder reside en los datos de alta calidad proporcionados por anotadores humanos cualificados.

En Sigma AI llevamos casi dos décadas afrontando complejos retos de IA, cultivando y formando un equipo especializado de anotadores y expertos en PLN que puedan guiarnos hacia la era GenAI. Mediante una selección rigurosa y una formación continua, nos aseguramos de que tengan el pensamiento crítico, el razonamiento y la creatividad que exigen los proyectos de GenAI. También hemos creado pruebas y evaluaciones objetivas para factores típicamente subjetivos con el fin de alcanzar los más altos estándares de calidad.

Asóciese con Sigma AI para acceder a una mano de obra versátil y cualificada que se adapta a las necesidades específicas de su proyecto GenAI. Póngase en contacto con nosotros!

Want to learn more? Contact us ->
Sigma ofrece soluciones a medida para los equipos de datos que anotan grandes volúmenes de datos de formación.
ES