L’etichettatura dei dati è uno dei pilastri quando vengono sviluppati progetti di apprendimento automatico. È una richiesta di attività che ci siano aziende dedicate ad esso. Tuttavia, è sempre possibile eseguire questo compito senza incorrere in spese eccessive. Quali strumenti esistono per etichettare i dati?
Articoli correlati
- Perché è difficile giocare a esperimenti di apprendimento della macchina?
- Cos’è l’ingegneria delle caratteristiche?
- Perché ha fatto l’intelligenza artificiale con Python?
- sei reti neuronali contorte che dovresti sapere (obbligatorio)
- Cosa dovresti sapere per sviluppare una soluzione
I dati sull’etichettatura sono una delle attività che consuma la maggior parte del tempo nella creazione di soluzioni di apprendimento automatico. Il gran numero di record necessari per creare modelli affidabili provoca che in molti casi più della metà del tempo di sviluppo è dedicato all’etichettatura dei dati.
Nonostante il tempo che consuma, l’etichettatura dei dati non è un’attività complessa, Soprattutto con la vasta gamma di strumenti disponibili. Di seguito esaminiamo alcuni dei più popolari.
LabelMe
Una delle alternative più popolari per l’etichettatura delle immagini. Scritto in Principalmente in JavaScript, viene distribuito tramite un browser Web, sebbene sia necessario effettuare un’installazione ed eseguire un server Web. Questo ulteriore sforzo è premiato con l’accesso remoto e la centralizzazione dei dati, che facilita il lavoro collaborativo.
labelimg
Un’altra alternativa molto popolare per l’etichettatura delle immagini. LabelIMG è un’applicazione desktop sviluppata in Python. Ciò significa che è necessario un processo di installazione. Questo può essere un inconveniente dovuto alle librerie (dipendenze) di cui hai bisogno. Tuttavia, quando si esegue localmente ha prestazioni migliori rispetto ad altre alternative che vengono distribuite in un browser. Open source e ha uno sviluppo attivo.
cvat
cvat è l’acronimo dello strumento di annotazione del computer Vision. Questo nome ci dice che è uno strumento orientato all’utensile e un’etichettatura video. Il suo uso richiede un processo di installazione. È scritto in Python e JavaScript e viene eseguito su un server Web con un’interfaccia visualizzata in un browser. Gestisce diversi formati di annotazione tra cui uno per immagini e video.
imglab
Questo è uno strumento basato sul web. Viene utilizzato principalmente per l’etichettatura delle immagini utilizzate per formare i rilevatori di oggetti, specialmente con la Biblioteca DLib. Imglab è un’alternativa abbastanza intuitiva e facilmente accessibile (non richiede l’installazione), quindi si adatta molto bene a progetti a breve e medio termine. Essere open source, è possibile modificarlo per le esigenze di ciascun utente.
beaverdam
Se l’etichettatura video è, Beaverdam è uno degli strumenti più popolari. Essere un software open source può essere adattato per etichettare le immagini e aggiungere metadati sulle etichette. È sviluppato in Python e corre sotto un server Django. Inoltre, può essere facilmente integrato con MTurk. La curva di apprendimento di questo strumento è un po ‘lento, ma una volta compresa le tue funzionalità, i vantaggi sono imbattibili.
scalabel
Un’altra grande alternativa open source. Scalabel è uno strumento di etichettatura distribuito in un browser Web. Come la labarme richiede l’installazione su un server Web (locale o remoto). Questo strumento è perfetto per l’etichettatura delle immagini per compiti come classificazione, rilevamento, segmentazione, ecc. La sua caratteristica più notevole è la gestione delle nuvole del punto (nuvole 3d punti), in cui l’etichettatura verrà eseguita con i cubi invece delle scatole (scatole di delimitazione).
VIA
Il tuo nome completo è VGG Image Annotator.Come la rete neuronale con lo stesso nome, questo strumento è stato sviluppato dai membri dell’Università di Oxford. È un software abbastanza completo e serve per immagini, video e suoni. Il suo più grande vantaggio è che funziona direttamente nel browser, senza la necessità di un server Web. Un potenziale problema è che caricando troppi dati simultaneamente può ridurre le sue prestazioni
Bonus: Amazon Mechanical Turk
I dati di etichettatura sono un processo lungo e noioso ma fondamentale durante la creazione di soluzioni di apprendimento della macchina. Non sarebbe meglio delegare quel lavoro? Proprio è ciò che possiamo fare con Amazon Mechanical Turk (MTurk). Questo mercato è il luogo ideale per trovare professionisti specializzati nell’etichettatura dei dati. Inoltre puoi anche trovare persone per altre attività come sondaggi, moderazione e altro ancora.
Conclusione
L’etichettatura dei dati è un’attività che consuma molto tempo. Tuttavia, è essenziale per la creazione di modelli di apprendimento automatico affidabili. Etichettatura dei dati correttamente è la chiave, quindi vediamo che ci sono diverse opzioni che facilitano questa attività.
Ogni strumento ha caratteristiche particolari e condivide somiglianze con gli altri. Uno dei maggiori vantaggi delle alternative che abbiamo visto in questo articolo è che sono open source e uso gratuito. La scelta di una o di un’altra opzione dipenderà dalle esigenze di ogni professionista e del tipo di progetto.