Si los proyectos tradicionales de IA requieren que los anotadores humanos clasifiquen el texto en categorías predefinidas, determinen el sentimiento o las emociones dentro de un texto o localicen objetos concretos dentro de una imagen, gen AI projects require them to excel at content creation tasks, involving a higher level of creativity, logical thinking, and the capacity to grasp language nuances and emotion.
- What specific skills do human annotators need to succeed in working with gen AI?
- ¿Cómo pueden aprender estas habilidades?
- ¿Es posible cuantificar algo tan abstracto como la creatividad?
- How does the selection of candidates for gen AI projects impact data quality?
Echemos un vistazo a IA Sigma’s upskilling strategy for building an efficient, adaptable, and innovative team to work with gen AI.
Building new skills for gen AI data annotation
Los datos de alta calidad son el combustible de la IA.
Los sistemas tradicionales de IA aprenden a partir de grandes cantidades de datos etiquetados. Generar estos datos etiquetados requiere un paso crucial: la anotación humana. Se forma a un equipo de anotadores nativos que dominan el idioma o idiomas relevantes para el proyecto para que entiendan y sigan unas directrices específicas y proporcionen la "respuesta correcta" para cada dato. Estas respuestas son los ejemplos que una máquina utiliza para entender los datos y hacer predicciones.
Gen AI, on the other hand, is initially generally trained with unsupervised learning. This means it has to recognize patterns in unlabeled data. Based on this, gen AI models generate new, original ideas and concepts that resemble the original training data. But there’s a catch: after this pre-training phase, gen AI systems still need human input to be fine-tuned or improve performance for a particular domain. The oversight of humans is essential at this point to reduce bias, apply logical reasoning, and align models to specific use cases and domains.
Como consecuencia de ello, gen AI projects demand a broader skill set that goes beyond language expertise. “Since gen AI tools can generate human-like responses, annotators need to be extremely careful in their answers. We need them to be able to judge whether information is true, false, or inconclusive when there isn’t enough evidence,” says Valentina Vendola, manager at Sigma.
Explicó que los anotadores deben tener una gran capacidad de redacción, creatividad y un enfoque analítico del lenguaje. Pueden redactar un texto desde cero, resumirlo o extraer conclusiones a partir de datos.
Tomemos el ejemplo de una herramienta de resumen que necesita información humana para afinarse.
Aunque resumir un texto parece sencillo, exige una mezcla de habilidades, como la comprensión lectora, el pensamiento crítico y la capacidad de parafrasear, condensar y destilar el significado.
Para garantizar resultados coherentes, cada paso del proceso de anotación debe estar estandarizado, con parámetros detallados y directrices que los anotadores deban seguir.
Sin embargo, to ensure high-quality data for gen AI, companies should prioritize a two-step approach that starts even before staffing projects:
- Assess gen AI-related skills within their workforce and choose the best candidates for each project.
- Develop an upskilling program to train annotators with the specific skills required for gen AI annotation.
Assessing gen AI skills: Can we measure creativity?
With over 16 years of experience in data annotation, transcription, and translation for AI training, Sigma AI has built a qualified workforce of 30,000 annotators, with specialized backgrounds in 500+ languages and dialects. Such diversity and native understanding of languages is precisely what gen AI needs to be safe become more human.
To address these emerging challenges Sigma AI is currently building a comprehensive system for gen AI projects, explains Antonio Hornero, Chief Operations Officer and leader of Sigma’s Annotation Group. “This involves defining the specific skills needed for these projects and developing a series of tests to assess annotators’ proficiency in these essential skills. Our goal is to match the right candidate with the right project,” he adds.
The new tests are specifically designed to assess a range of skills crucial for gen AI projects, including:
- Comprensión de lectura
- Competencia lingüística
- Razonamiento verbal
- Resumen
- Parafraseando
- Revisión
- Reconocimiento de vínculos textuales
- Conocimientos de búsqueda en Internet
- Creatividad
Designing these tests involves close collaboration between the company’s project managers and natural language processing (NLP) experts. Since many aspects of gen AI hinge on subjective skills, the NLP team is in charge of establishing a way to evaluate and score tests objectively, using existing datasets and linguistic corpora. Refining and validating these tests over time is also a part of the equation.
"Las pruebas más difíciles de resolver son las que implican la generación creativa de textos", dice Valentina. "En estos casos, los candidatos tienen que crear un texto desde cero. Sin embargo, la creación de diferentes formatos de texto requiere enfoques distintos. Por ejemplo, un ensayo exige una estructura y un contenido diferentes a los de un resumen o una historia fantástica."
Supongamos que a un candidato se le asigna la siguiente tarea de creación de contenidos: crear una breve historia que describa su mañana... adoptando el punto de vista de un gato.
¿Cómo se pueden evaluar las capacidades creativas a partir de su respuesta? He aquí algunas ideas del equipo de Sigma AI:
- Podemos medir la variedad de palabras y sinónimos que utiliza un candidato, lo que nos da una idea de su fluidez lingüística.
- La capacidad de adaptar la lengua a distintos fines puede evaluarse mediante métricas que rastrean los cambios en las formas gramaticales, como el uso de tiempos verbales y sustantivos.
- Por supuesto, podemos medir y analizar la gramática, la ortografía y la puntuación.
- Por último, las métricas también pueden evaluar la complejidad de la estructura de las frases, lo que revela la capacidad del candidato para expresar ideas con eficacia.
Upskilling to innovate: Preparing Annotators for the challenges of gen AI
The unique nature of gen AI projects — and Sigma’s commitment to exceptional quality data — revelan la necesidad de un enfoque estructurado para seleccionar a los anotadores. Pero el proceso no termina con la selección: también implica developing upskilling programs to constantly train annotators on gen AI-related abilities.
"Si un candidato muestra debilidades en algunas áreas, diseñaremos una formación específica para subsanar esas carencias. Esto nos permitirá no solo seleccionar a personas con talento, sino también desarrollar activamente su conjunto de competencias", afirma Valentina.
Sigma AI’s approach to selection, training, and upskilling for gen AI is a long, meticulous program that requires close attention to detail. “Achieving the level of quality we strive for requires significant effort,” she said. “Not all companies are willing to invest the time and resources. In a new and evolving field like this, some may be tempted to cut corners.”
Los currículos por sí solos, por ejemplo, no pueden reflejar plenamente las aptitudes específicas necesarias para el trabajo de anotación. Pueden indicar fluidez lingüística, pero no transmiten las capacidades de pensamiento crítico y razonamiento que requiere el trabajo.
Del mismo modo, la BPO para la anotación de datos no puede igualar la calidad de un equipo interno experimentado, que recibe formación constante en escenarios simulados y reales.
In sum, Sigma AI prioritizes high quality data for gen AI through a comprehensive process:
- Evalúe las habilidades interpersonales de los anotadores, como el pensamiento crítico y la creatividad, mediante una serie de pruebas. Esto ayuda a identificar las carencias de competencias.
- Sobre la base de los resultados de la evaluación, impartir formación de perfeccionamiento para colmar las lagunas de cualificación.
- Select the most suitable candidates to staff gen AI projects, prioritizing those who demonstrate the necessary skills. This ensures quality data from the very beginning, and saves time and resources.
- Realice una evaluación continua y ofrezca oportunidades de mejora para mantener un alto nivel de calidad en el proceso de anotación.
¿Cuál es el resultado? Una IA más precisa, fiable e imparcial. En otras palabras, más humano AI.
A skilled workforce, the secret to best-in-class gen AI data
We are just scratching the surface of gen AI’s full potential. But the key to unlocking its power lies in high-quality data provided by skilled human annotators.
At Sigma AI, we’ve tackled complex AI challenges for almost two decades, nurturing and training a dedicated team of annotators and NLP experts who can lead us into the gen AI era. Through rigorous selection and continuous upskilling, we ensure they have the critical thinking, reasoning, and creativity that gen AI projects demand. We’ve also created objective testing and assessment for typically subjective factors to achieve the highest quality standards.
Partner with Sigma AI to gain access to a versatile, skilled workforce that adapts to your specific gen AI project needs. Póngase en contacto con nosotros!