Les 7 millors eines per etiquetatge de dades

L’etiquetatge de dades és un dels pilars quan es desenvolupen projectes d’machine learning. És una activitat de tal demanden que hi ha companyies que es dediquen. No obstant això, sempre és possible realitzar aquesta tasca sense incórrer en despeses excessives. Quines eines existeixen per etiquetar dades?

Articles relacionats

  • Per què és difícil reproduir experiments de machine learning?
  • Què és feature engineering ?
  • per què es fa intel·ligència artificial amb Python?
  • Sis xarxes neuronals convolucionals que has de conèixer (obligatori)
  • El que cal saber per desenvolupar una solució de machine learning

Etiquetar dades és una de les activitats que més temps consumeix dins de la creació de solucions de machine learning. La gran quantitat de registres que es necessiten per crear models fiables provoca que en molts casos més de la meitat de el temps de desenvolupament estigui dedicat a l’etiquetatge de dades.

Tot i el temps que consumeix, l’etiquetatge de dades no és una tasca complexa, especialment amb el gran ventall d’eines disponibles. A continuació revisem algunes de les més populars.

LabelMe

Una de les alternatives més populars per a l’etiquetatge d’imatges. Escrita en principalment en Javascript es desplega a través d’un navegador web, tot i que cal fer una instal·lació i córrer un servidor web. Aquest esforç addicional es veu recompensat amb l’accés remot i la centralització de les dades, la qual cosa facilita el treball col·laboratiu.

Les 7 millors eines per etiquetatge de dades Avenços AI 1

LabelImg

Una altra alternativa molt popular per a l’etiquetatge d’imatges. LabelImg és una aplicació d’escriptori desenvolupada en Python. Això vol dir que cal un procés d’instal·lació. Això pot ser un inconvenient a causa de les llibreries (dependències) que necessita. No obstant això a l’executar-se localment té millor rendiment que altres alternatives que es despleguen en un navegador. És de codi obert i té un desenvolupament actiu.

Les 7 millors eines per etiquetatge de dades Avenços AI 2

CVAT

CVAT és l’acrònim de Computer Vision Annotation Tool. Aquest nom ens indica que és una eina orientada a l’etiquetatge d’imatges i vídeo. El seu ús requereix un procés d’instal·lació. Està escrit en Python i Javascript i corre sobre un servidor web amb una interfície que es desplega en un navegador. Gestiona diversos formats d’anotació incloent un de propi per a imatges i vídeos.

Les 7 millors eines per etiquetatge de dades Avenços AI 3

ImgLab

Aquesta és una eina basada en web. És usada principalment per a l’etiquetatge d’imatges que són utilitzades per entrenar detectors d’objectes, sobretot amb la llibreria dlib. ImgLab és una alternativa bastant intuïtiva i de fàcil accés (no requereix instal·lació), de manera que encaixa molt bé per a projectes de curt i mitjà termini. A l’ésser de codi obert, és possible modificar-la per les necessitats de cada usuari.

Les 7 millors eines per etiquetatge de dades Avenços AI 4

BEAVERDAM

Si d’etiquetar vídeos es tracta, BEAVERDAM és una de les eines més populars. A l’ésser un programari de codi obert es pot adaptar per etiquetar imatges i afegir metadades a les etiquetes. Està desenvolupat en Python i corre sota un servidor Django. A més es pot integrar fàcilment amb MTurk. La corba d’aprenentatge d’aquesta eina és una mica lenta, però un cop enteses les seves funcionalitats, els beneficis són immillorables.

Les 7 millors eines per etiquetatge de dades Avenços AI 5

Scalabel

Una altra gran alternativa de codi obert. Scalabel és una eina d’etiquetatge que es desplega en un navegador web. A l’igual que LabelMe requereix ser instal·lada en un servidor web (local o remot). Aquesta eina és perfecta per etiquetar imatges per a tasques com classificació, detecció, segmentació, etc. La seva característica més destacables és el maneig de point clouds (núvols de punts en 3D), on l’etiquetatge es fer amb cubs en lloc de quadres (bounding boxes).

Les 7 millors eines per etiquetatge de dades Avenços AI 6

VIA

El seu nom complet és VGG Image Annotator.A l’igual que la xarxa neuronal de el mateix nom, aquesta eina està desenvolupada per membres de la Universitat d’Oxford. És un programari bastant complet i serveix per etiquetes imatges, vídeos i sons. El seu major avantatge és que s’executa directament al navegador, sense necessitat d’un servidor web. Un potencial problema és que carregar massa dades simultàniament pot disminuir el seu rendiment

Les 7 millors eines per etiquetatge de dades Avenços AI 7

Bonus: Amazon Mechanical Turk

Etiquetar dades és un procés llarg i tediós però fonamental a l’hora de crear solucions de machine learning. ¿No seria millor delegar aquesta feina? Precisament això és el que podem fer amb Amazon Mechanical Turk (MTurk). Aquest marketplace és el lloc ideal per trobar professionals especialitzats en l’etiquetatge de dades. A més també es pot trobar persones per a altres activitats com enquestes, moderació i més.

Conclusió

L’etiquetatge de dades és una activitat que consumeix molt de temps. No obstant això, és fonamental per a la creació de models de machine learning fiables. Etiquetar dades de manera correcta és clau, per això veiem que hi ha diverses opcions que faciliten aquesta tasca.

Cada eina té característiques particulars i comparteix similituds amb altres. Una de les avantatges de les alternatives que vam veure en aquest article és que són de codi obert i d’ús lliure. L’elecció d’una o altra opció dependrà de les necessitats de cada professional i el tipus de projecte.

Etiquetes: Amazon, Aplicacions, Dades, Eines, Productivitat, Video

Deixa un comentari

L'adreça electrònica no es publicarà. Els camps necessaris estan marcats amb *