O etiquetado de datos é un dos piares cando se desenvolven proxectos de aprendizaxe automática. É unha demanda de tal actividade que hai empresas que se dedican a ela. Non obstante, sempre é posible realizar esta tarefa sen incorrer en gastos excesivos. Que ferramentas existen para etiquetar datos?
Artigos relacionados
- Por que é difícil xogar experimentos de aprendizaxe de máquinas?
- ¿Que é a enxeñaría de características?
- Por que se fai intelixencia artificial con Python?
- seis redes neuronais complicadas que debes saber (obrigatorio)
- O que debes saber desenvolver unha solución de aprendizaxe de máquinas
Os datos de etiquetaxe é unha das actividades que consumen máis tempo dentro da creación de solucións de aprendizaxe automática. A gran cantidade de rexistros necesarios para crear modelos fiables fai que en moitos casos, máis da metade do tempo de desenvolvemento dedícase á etiquetaxe de datos.
A pesar do tempo que consumes, etiquetaxe de datos non é unha tarefa complexa, Especialmente coa gran variedade de ferramentas dispoñibles. Abaixo revisamos algúns dos máis populares.
LABELME
Unha das alternativas máis populares para a etiquetaxe de imaxes. Escrito principalmente en JavaScript, é despregado a través dun navegador web, aínda que é necesario facer unha instalación e executar un servidor web. Este esforzo adicional é recompensado co acceso remoto e a centralización dos datos, o que facilita o traballo colaborativo.
LEBELIMG
Outra alternativa moi popular para a etiquetaxe de imaxes. LabelIMG é unha aplicación de escritorio desenvolvida en Python. Isto significa que é necesario un proceso de instalación. Isto pode ser un inconveniente debido ás librerías (dependencias) que necesitas. Non obstante, ao executar localmente ten un mellor rendemento que outras alternativas que se despregan nun navegador. Open Source e ten un desenvolvemento activo.
CVAT
CVAT é o acrónimo da ferramenta de anotación de visión informática. Este nome indica que é unha ferramenta orientada á ferramenta e etiquetaxe de vídeo. O seu uso require un proceso de instalación. Está escrito en Python e JavaScript e execútase nun servidor web cunha interface que se mostra nun navegador. Manexa varios formatos de anotación, incluíndo un propio para imaxes e vídeos.
imglabt
Esta é unha ferramenta baseada na web. Utilízase principalmente para a etiquetaxe de imaxes que se usan para adestrar detectores de obxectos, especialmente coa biblioteca DLIB. IMGLAB é unha alternativa bastante intuitiva e accesible (non require instalación), polo que se adapta moi ben para proxectos a curto e medio prazo. Sendo de código aberto, é posible modificalo para as necesidades de cada usuario.
Beaverdam
Se a etiquetaxe de vídeos é, Beaverdam é unha das ferramentas máis populares. Ser un software de código aberto pode ser adaptado para etiquetar imaxes e engadir metadatos nas etiquetas. Desenvólvese en Python e corre baixo un servidor Django. Ademais, pode ser facilmente integrado con MTurk. A curva de aprendizaxe desta ferramenta é un pouco lenta, pero unha vez que se entenden as súas funcionalidades, os beneficios son imbatibles.
scalabel
Outra gran alternativa de código aberto. Scalabel é unha ferramenta de etiquetaxe que se implementa nun navegador web. Do mesmo xeito que LABELME require estar instalado nun servidor web (local ou remoto). Esta ferramenta é perfecta para etiquetar imaxes para tarefas como clasificación, detección, segmentación, etc. A súa característica máis notable é a manipulación de nubes de punto (nubes de puntos 3D), onde a etiqueta farase con cubos en lugar de caixas (caixas de límite).
a través de
O seu nome completo é o anotador de imaxe VGG.Do mesmo xeito que a rede neuronal do mesmo nome, esta ferramenta é desenvolvida por membros da Universidade de Oxford. É un software bastante completo e serve para imaxes, videos e sons. A súa maior vantaxe é que se executa directamente no navegador, sen necesidade dun servidor web. Un problema potencial é que a carga de demasiados datos simultaneamente pode diminuír o seu rendemento
Bonus: Amazon Mechanical Turk
Os datos de etiquetaxe é un proceso longo e tedioso pero fundamental ao crear solucións de aprendizaxe de máquinas. Non sería mellor delegar ese traballo? Precisamente iso é o que podemos facer con Amazon Mechanical Turk (MTurk). Este mercado é o lugar ideal para atopar profesionais especializados en etiquetaxe de datos. Ademais, tamén pode atopar persoas con outras actividades como enquisas, moderación e moito máis.
Conclusión
O etiquetado de datos é unha actividade que consome moito tempo. Non obstante, é esencial para a creación de modelos de aprendizaxe de máquinas fiables. Os datos de etiquetaxe correctamente son clave, polo que vemos que hai varias opcións que facilitan esta tarefa.
Cada ferramenta ten características particulares e comparte similitudes con outros. Unha das maiores vantaxes das alternativas que vimos neste artigo é que son de código aberto e uso gratuíto. A elección dunha ou outra opción dependerá das necesidades de cada profesional e do tipo de proxecto.