Vor einiger Zeit hatten wir an dieser Stelle zum Mitmachen beim Common-Voice-Projekt der Mozilla Foundation eingeladen. https://voice.mozilla.org/

Gamification

Zwischenzeitlich ist in unserer Firma ein kleiner Wettkampf um die meisten Contributions entfacht. Ich selber liege aktuell bei 655 Spenden und 623 Bestätigungen. Das reicht bei uns aber gerade mal für den 2. Platz.

Die Mozilla-Community hat einen Draft für das zukünftige Dashboard veröffentlich. Darauf freue ich mich schon :)

Diversität

Bei meinen Bestätigungen fiel mir aber auf, dass Diversität der Stimmen kaum vorhanden ist. Die Mehrzahl ist weiß, männlich und hochdeutsch. Wenig Sachsen, kaum Frauenstimmen, keine Stimmbruchstimmen, keine Franken oder Bayern. Das mag nur mir so gehen. Ich vermute aber nicht.

Und obwohl die Hemmschwelle so niedrig ist wie Candy Crush zu spielen, scheinen wir die Diversität nicht erreichen zu können. Vielleicht hat das etwas mit unseren Filterbubbles zu tun und die Welt da draußen muss über andere Kanäle von Common Voice erfahren. Also los. Teilt diese Möglichkeit über alle Kanäle.

Glücklicherweise gibt es neben dem Bauchgefühl ja auch bereits englischsprachige Datensätze zum Download. Also schnell mal 12,5 GB Daten herunterladen und Metadaten auswerten.

Metadaten auswerten

Von den Spendern der rund 380.000 englischsprachigen Samples haben 60,75 Prozent keine Angaben zu ihrem Geschlecht gemacht. Als Frauen haben sich 9,23 Prozent, als Männer 29,69 und als other 0,33 der Frage nach dem Geschlecht zugeordnet.

Gefühlt deckt sich das nicht mit meinen Contributions beim Bestätigen von Sätzen der deutschen Sprachsamples.

Ich habe sodann die Anzahl von keine Angabe von der Gesamtzahl abgezogen und die Verteilung neu berechnet.

In Summe knapp 150.000 Samples bei einer Verteilung wie folgt:

Frauen: 23,51
Männer: 75,64
Other: 0,85

UNGLAUBLICH. Da geht was. Also auch für deutsche Sprachsamples. Bitte. https://voice.mozilla.org/

Alter

Als weitere Metadaten wird die Alterspanne als Jahrzehnt abgefragt. Über 89 Jahre scheint für Mozilla nicht relevant zu sein. Für plakative Aussagen habe ich gröber zusammengefasst. Plakativ könnte ich die These vertreten: Jüngere Männer erfahren von Common Voice und erzählen es ihren Müttern.

Frauen
Bis Ende 20 = 28%
Bis Ende 40 = 37%
Bis Ende 80 = 35%

Männer
Bis Ende 20 = 41%
Bis Ende 40 = 41%
Bis Ende 80 = 16%

other
Bis Ende 20 = 77%
Bis Ende 40 = 16%
Bis Ende 80 = 6%

Sofern die Spender ein Profil angelegt haben, konnten sie sich noch einem Dialekt zuordnen.

Dialekt

Auch hier war die größte Gruppe der Samples wieder blank. 66,02% waren davon betroffen. Beim Rest dominieren US (15,74%), England (7,88%), Indien (2,99%) und Australien (2,16%). Bereinigt und auf die Geschlechter verteilt, überraschte mich der hohe indische Frauenanteil (16,26%) gegenüber den 6,59% bei indischen Männern.

Frauen
US = 40,84%
England = 21,93%
Indien = 16,26%

Männer
US = 47,28%
England = 24,18%
Indien = 6,59%

other
US = 54,92%
England = 21,00%
Irland = 10,42%

Leider sagen diese Zahlen nichts über absolute Sprecher*innen aus. Es könnte die eine weibliche 80jährige sein, die alle Samples geliefert hat. Oder halt auch ihre vielen Freundinnen, die zusammen … Mehr wird uns hoffentlich das Dashboard der Mozilla Foundation liefern. Und hoffentlich auch Echtdaten der deutschen Sprecher *innen.

Für die Auswertung der Daten habe ich eines meiner Lieblingswerkzeuge genutzt. Danke OpenRefine.

Wer sich für eigene Auswertungen interessiert aber nicht 12.5 GB Daten herunterladen will: