Common voice

progetto di crowdsourcing per creare un database gratuito per la formazione di software di riconoscimento vocale

Common Voice è un progetto realizzato da Mozilla Foundation, il cui obiettivo è raccogliere, tramite il contributo di volontari, un numero sufficiente di ore di registrazione di voci su cui poter far allenare vari software per il riconoscimento vocale, come quello basato sull'algoritmo DeepSpeech (sempre di Mozilla Foundation), senza restrizioni o costi.

Common voice
sito web
Logo
Logo
URLvoice.mozilla.org/it
Tipo di sitoRaccoglitore vocale
LinguaMolte lingue
RegistrazioneFacoltativa
ProprietarioMozilla Foundation
Creato daMozilla Foundation
Lancio19 giugno 2017
Stato attualeattivo

Il progetto accetta voci in qualsiasi lingua, accento, sesso ed età (>19 anni) proprio allo scopo di permettere la realizzazione di riconoscitori vocali che siano in grado di riconoscere qualunque voce.

Chi ha meno di 19 anni, come da Condizione d'utilizzo, ha bisogno del consenso di un genitore o tutore.

Esiste anche un'app Android non ufficiale del progetto che permette di contribuire attraverso il proprio smartphone[1].

Contributi modifica

Contribuire al progetto è molto semplice e non necessita di registrazione obbligatoria. Tuttavia, è possibile fare l'accesso in varie modalità: email, account Firefox, GitHub o Google.

Si può contribuire in due modi, principalmente: "Parlare", ovvero registrare delle frasi che compaiono a schermo, oppure "Ascoltare", ovvero convalidare registrazioni di altri volontari.

Il sito web è utilizzabile sia da dispositivi desktop sia da mobile, tuttavia per sistema operativo iOS è necessario installare l'app ufficiale dall'App Store.

Creazione account modifica

Si può anche creare un account, attraverso accesso con email, account Firefox, GitHub o Google, grazie al quale sarà possibile accedere a un'area "riservata": Pannello.

In questa sezione è possibile visualizzare la classifica dei collaboratori di tutto il mondo o solo delle lingue a cui si contribuisce.

Grazie all'account è anche possibile tenere traccia, sempre e ovunque, dei progressi effettuati. Quindi sia delle frasi registrate sia delle frasi convalidate.

Si può anche in qualunque momento eliminare il proprio profilo. In questo modo le frasi registrate verranno rimosse dal dataset.

Caratteristiche del dataset modifica

I dataset, ovvero tutti gli audio "accorpati", sono disponibili in pubblico dominio con licenza CC0 e possono essere pertanto pubblicamente e gratuitamente scaricati dalla sezione Dataset ed utilizzati nel proprio software, anche commerciale. Si può scaricare la lingua preferita da quelle disponibili.[2]

Sono presenti, prima del download, alcune informazioni quali la dimensione del file, le ore convalidate, le ore complessive, il numero di voci, gli accenti, le età, il sesso e altri dati.

Il dataset inglese di common voice è il secondo più grande database di voci accessibile dopo LibriSpeech. Alla data del 29 novembre 2017 più di 20000 utenti in tutto il mondo avevano raccolto 400000 registrazioni di frasi convalidate per una lunghezza totale di 500 ore.[3]

Nel febbraio 2019 sono state rilasciate le prime raccolte di lingue per l'utilizzo. Questo rilascio includeva 18 lingue tra le quali, oltre all'Inglese, Francese, Tedesco e Mandarino, figuravano anche lingue meno diffuse come il Gallese e il Cabila. In totale questo rilascio includeva più di 1400 ore di registrazioni vocali da più di 42000 contributori.[4]

Note modifica

  1. ^ Dona la tua voce: CV Project - App su Google Play, su play.google.com. URL consultato il 20 marzo 2021.
  2. ^ (EN) Common Voice by Mozilla, su voice.mozilla.org. URL consultato il 6 giugno 2020 (archiviato dall'url originale il 27 febbraio 2020).
  3. ^ (EN) Sean White, Announcing the Initial Release of Mozilla’s Open Source Speech Recognition Model and Voice Dataset, su The Mozilla Blog. URL consultato il 6 giugno 2020.
  4. ^ (EN) Mozilla updates Common Voice dataset with 1,400 hours of speech across 18 languages, su VentureBeat, 28 febbraio 2019. URL consultato il 6 giugno 2020.

Altri progetti modifica

Collegamenti esterni modifica

  Portale Informatica: accedi alle voci di Wikipedia che trattano di informatica