24-08-2022
O que é Rotulagem de Dados e Como Funciona?
O que é Rotulagem de Dados?
A Rotulagem de Dados, Classificação de Dados e Anotação de Dados são termos utilizados de forma intercambiável para representar o mesmo: a arte de etiquetar ou rotular os conteúdos disponíveis nos vários formatos. Hoje em dia a técnica é utilizada para tornar o objeto ou texto de interesse reconhecível por máquinas.
No Machine Learning, rotulagem de dados é o processo de identificar dados brutos (imagens, arquivos de texto, vídeos etc.) e adicionar um ou mais rótulos significativos e informativos para fornecer contexto para que um modelo de Machine Learning possa aprender. Por exemplo, os rótulos podem indicar se uma foto contém um pássaro ou um carro, quais palavras foram pronunciadas numa gravação de áudio ou se um raio-x contém um tumor. A rotulagem de dados é necessária para uma variedade de casos de uso, incluindo visão computacional, Natural Language Processing (NLP) e reconhecimento de fala.
Como funciona a rotulagem de dados?
Hoje, a maioria dos modelos práticos de Machine Learning utiliza a aprendizagem supervisionada, que aplica um algoritmo para mapear uma entrada para uma saída. Para que a aprendizagem supervisionada funcione, precisa de um conjunto rotulado de dados com o qual o modelo possa aprender para tomar decisões corretas.
A rotulagem de dados normalmente começa por pedir aos humanos que façam julgamentos sobre um determinado dado não rotulado. Por exemplo, os rotuladores podem ser solicitados a identificar todas as imagens que num conjunto de dados em que seja verdadeira a expressão a foto contém um pássaro.
A identificação pode ser tão grosseira quanto um simples sim / não ou tão minuciosa ao ponto de identificar os pixels específicos na imagem associados ao pássaro. O modelo de Machine Learning utiliza rótulos fornecidos por humanos para aprender os padrões subjacentes num processo chamado "treino do modelo". O resultado é um modelo treinado que pode ser utilizado para fazer previsões sobre novos dados.
No Machine Learning, um conjunto de dados devidamente rotulado que utiliza como padrão objetivo para treinar e avaliar um determinado modelo é geralmente chamado de verdade básica. A precisão do modelo treinado dependerá da precisão de sua verdade, portanto, é essencial gastar tempo e recursos para garantir uma rotulagem de dados muito precisa.
Artigos relacionados:
👉 Follow @niuGIS
RELACIONADAS