Human data annotation, the key to data quality
Traditional AI projects start with human anotación de datos. Se trata de etiquetar grandes cantidades de datos -ya sea texto, audio, vídeo o imágenes- con etiquetas pertinentes, para ayudar a los ordenadores a aprender y poder hacer predicciones precisas. La calidad de estos datos influye decisivamente en el rendimiento del modelo y sus aplicaciones en la vida real.
En datos anotados de alta calidad is one of the most difficult and time-consuming aspects of the AI process. But generative AI brings new challenges. Instead of merely tagging and categorizing existing information, data professionals might generate new content, craft prompts for generative models, or curate training datasets with specific biases or styles.
Aunque los sistemas basados en IA pueden ayudar y acelerar el proceso, la aportación humana es esencial para preparar, etiquetar y validar los datos. Para algunas empresas, recurrir a anotadores externos resulta rentable. Sin embargo, no puede igualar el nivel de precisión, coherencia y control de calidad que se puede conseguir trabajando con un equipo de expertos internos altamente cualificados.
Cada proyecto requiere encontrar la combinación adecuada de conocimientos humanos, tecnología y procesos.
En Sigma, los jefes de proyecto son responsables de traducir las ideas de los clientes en procesos claramente definidos. Esto suele incluir la creación de directrices de datos específicas para cada proyecto, la identificación de anotadores con las aptitudes y conocimientos adecuados y su formación para realizar tareas avanzadas.
"Como gestores de proyectos, necesitamos desarrollar una serie de habilidades que no suelen encontrarse en una sola profesión. La mayoría de nosotros procedemos de los campos de la traducción y la lingüística, y nuestro trabajo nos exige adquirir continuamente más conocimientos técnicos para trabajar con software complejo, definir objetivos y optimizar procesos" - explica Kassiani Tsakalidou, Gestora de Programas en Sigma AI.
Creación de directrices de anotación de datos para proyectos GenAI
Para garantizar la máxima calidad posible de los datos, los gestores de proyectos deben establecer parámetros de calidad y definir directrices claras y coherentes para los datos. Lejos de ser estáticas, las directrices sobre datos deben evaluarse y perfeccionarse a medida que avanza el proceso, para mejorar el rendimiento del etiquetado.
El proceso de conservación y anotación de datos se basa en gran medida en la colaboración y la comunicación, y en él participan personas de culturas y trayectorias profesionales diversas. La formación de los anotadores para garantizar la coherencia y asegurarse de que todos están de acuerdo es un paso esencial.
"Incluso antes de tener acceso a los datos del cliente, diseñamos una prueba parecida al proyecto para evaluar a los anotadores. La idea no es replicar el mismo entorno, sino entender qué tipo de habilidades son necesarias para los anotadores y asegurarnos de que pueden estar preparados y conocen las tareas de antemano", dice Kassiani.
GenAI plantea un reto adicional a los gestores de proyectos: convertir algo tan subjetivo y complejo como la escritura en un sistema bien definido.
"GenAI es un gran reto porque nos obliga a buscar perfiles más especializados y porque la escritura -al fin y al cabo- es muy subjetiva. Necesitamos asignarle un valor, crear flujos de trabajo y establecer estándares de calidad para evaluarla", explica Clara Abou Jaoude, gestora de proyectos en Sigma.
Veamos algunos ejemplos de cómo los gestores de proyectos de Sigma aprovechan la creatividad y el pensamiento innovador para encontrar el mejor enfoque a los retos de anotación de datos y dotar a los equipos de los anotadores adecuados para cada tarea.
Evaluación de la traducción automática de lenguas extranjeras
Todo el mundo está familiarizado con los traductores automáticos. Pero no tanto con los humanos encargados de mejorar la calidad de esas traducciones, que aún están lejos de ser 100% fiables.
A lo largo de los años, los traductores de Sigma AI han trabajado en innumerables tareas de postedición de traducción automática. "El papel de los traductores aquí es comparar las traducciones generadas automáticamente por la IA, detectar errores y asegurarse de que el traductor automático aplica criterios unificados", explica Clara. Sin embargo, "la traducción es una tarea subjetiva: a veces hay más de una forma posible de decir lo mismo, lo que supone un reto. A veces puede ser difícil detectar cuál es la mejor traducción entre varias opciones", señala.
Para un proyecto de traducción automática que incluía el farsi y distintas lenguas africanas, los gestores del proyecto necesitaban encontrar los anotadores adecuados para el equipo.
But how to evaluate the quality of human translations without knowing the target language? To solve the problem, they worked with the Research and Development Department (I+D) to design a tool that could compare various translations of the same phrase, based on a similarity ratio. As a result, they selected the translators who similarly completed the task to work on the project.
Medir la creatividad en los proyectos de anotación de redacción de contenidos
Para un proyecto de minería de opiniones, un equipo de lingüistas necesitaba crear comentarios sobre varios productos de distintos dominios, como Electrónica e Informática, Alimentación, Moda y Hogar. Estas opiniones se utilizaron posteriormente para el análisis de sentimientos y la clasificación.
Para esta tarea, los gestores de proyectos de Sigma elaboraron amplias directrices sobre los datos, en las que se detallaban el tono, la longitud y la variedad requeridos para las opiniones.
Pero primero tenían que encontrar a los candidatos mejor preparados para el equipo.
Project managers typically know their teams well and can quickly identify individuals with the necessary skills, even if their initial roles didn’t require them. “For example, if someone has published a book or writes a blog, they might be a valuable candidate to participate in a project that requires writing”, says Kassiani.
En este caso, "el proyecto requería creatividad, conocimientos lingüísticos, capacidad de reescritura y habilidad para leer algo, entenderlo y comunicarlo sin errores", explica Clara. Para evaluar cada una de estas habilidades, trabajaron con el equipo de I+D en la elaboración de una prueba de cuatro pasos.
Lo más complicado fue idear una métrica objetiva para evaluar algo tan subjetivo como la creatividad. "Consideramos que una persona creativa debe tener un nivel de vocabulario más amplio que alguien que solo describe lo que ve", dice Clara.
Con esa hipótesis en mente, buscaron las 5.000 palabras más comunes en español y pidieron a los candidatos que escribieran un párrafo. Los candidatos con más éxito fueron los que utilizaron palabras menos comunes para expresar sus ideas. "Cuanto más te alejas de esas 5.000 palabras, más creatividad tienes, porque tienes un vocabulario y unos conocimientos lingüísticos más ricos", concluye Clara.
La prueba también consistía en crear una historia corta (con principio, nudo y desenlace) que contuviera tres palabras generadas al azar, como forma de evaluar la imaginación del candidato.
Encontrar anotadores con conocimientos especializados
Reescribir y encontrar conexiones entre textos son tareas habituales de los equipos de anotación. Sin embargo, los temas que requieren un conocimiento especializado del dominio pueden plantear un reto adicional.
Para un proyecto del campo STEM, los gestores del proyecto necesitaban contratar y formar a un equipo de expertos en biología, a los que se asignó la tarea de dilucidar la conexión entre una determinada consulta de búsqueda y un breve extracto de un artículo científico.
Encontrar a los expertos fue bastante sencillo, ya que Sigma AI dispone de una amplia base de datos con todas las personas que han trabajado para la empresa y sus perfiles de competencias.
Establishing quality standards for the project proved most complex when project managers lacked subject matter expertise. “As with any project that requires specific knowledge, the challenge is always to identify someone from the team that stands out and ask them to be your great support during the quality assurance process”, says Kassiani.
Esta última fase del proceso implica trabajar en estrecha colaboración con el revisor y -en este caso- solicitar comentarios detallados sobre el trabajo de cada anotador, para mejorar la calidad.
Asociarse con Sigma AI para sus retos de anotación de datos
El papel de los expertos humanos en la generación de datos de alta calidad es vital, y cobrará aún más importancia en los próximos años, a medida que los LLM y los proyectos de GenAI añadan más complejidad al proceso de anotación.
"El tipo de información paralingüística que los sistemas serán capaces de entender o generar, como el tono, la emoción y el estilo, cambiará lo que pedimos a los anotadores que etiqueten para ayudar a las máquinas a entender y enriquecer la experiencia", afirma el Asesor Ejecutivo Senior de Sigma, Dr. Jean-Claude Junqua.
Asociarse con una empresa que aporte experiencia humana al centro y apoye una mejor IA mediante directrices de anotación eficaces y procesos cuidadosamente diseñados es la mejor manera de adelantarse a los retos del futuro.
Con un una plantilla creciente de más de 25 000 anotadores que cubren más de 500 lenguas y dialectos, Sigma AI lleva 15 años resolviendo complejos proyectos de anotación de datos para las principales empresas tecnológicas del mundo.
Póngase en contacto con nosotros to find out how we can help you tackle even the most ambitious AI projects with our expert human data annotation team!