CSC externe Nutzeranalyse

Hintergrund: Im Jahr 2019 hat die nach eigenen Aussagen "größte christliche Partnersuche im deutschsprachigen Raum" meine Aufmerksam auf sich gezogen. Mangelhafte Schutzmechanismen in vielen Bereichen machte eine langfristige und automatisierte Erfassung einer Vielzahl von Datenfeldern möglich, die so für etwa 16 Monate lief. Im Rahmen eines Studienmoduls hat es sich dann angeboten, die etwa 16.000.000 erfassten Datenzeilen auszuwerten.

 

Beschreibung: Zu den erfassten Daten gehörten

  1. die Onlineaktivitäten der Nutzer
  2. die vollständigen Profile exklusive der Profilbilder aktiver Nutzer sowie deren Bearbeitungsverlauf
  3. Anzahl der plattformglobal versendeten privaten Nachrichten,
  4. Anzahl und Inhalt empfangener privater Nachrichten von Dummy-Accounts (regelmäßig automatisch generierte und anschließend gelöschte Benutzer ohne Profilangaben, die über die Pflichtfelder hinaus gingen. Sie verhielten sich vollständig passiv mit Ausnahme der Onlineaktivität und Besuch anderer Profile)

Die Rohdaten wurden in einer mehrfach indexierten relationalen Datenbank gespeichert und inkrementell ausgewertet. Dazu wurden die Daten in Python mit vorrangig numpy und pandas aggregiert und zwischengespeichert, bis tatsächlich erkenntnisbringende Resultate erzielt werden konnten.

Postleitzahlgebiete Deutschlands

Grafik 1: Dieses Diagramm gibt nicht nur einen ersten Eindruck von der Quantität der erfassten Daten, sondern auch über die Ausgeglichenheit der Datenakquise. Es zeigt, die Altersdaten nach Geschlecht getrennt auf Basis von zwei verschiedenen Datenquellen: Die Online-Aktivität und der Profil-Crawler.

Grafik 1

Grafiken 2 bis 4: Diese Grafiken wurden nicht gefiltert. Das zeigt einerseits, dass viele Benutzer keine Angaben über ihren Körper machen, aber auch, dass die wenigen Daten weit gestreut aber dennoch überwiegend im realistischen Bereich liegen. Die Grafik 2 "Body Mass Index" ist nicht representativ für irgend einen realen Fakt, die anderen beiden geben dem Betrachter ein Gefühl für Outlier in den Datensätzen.

Grafik 2
Grafik 3
Grafik 4

Grafik 5: Visualisierung einiger kategorischen Daten.

Grafik 5

Grafik 6: Es lässt sich erkennen, dass ein paar Aktivitäten über den Erfassungszeitraum technisch unterschiedlich erfasst wurden als andere. Speziell betrifft das alle vor und inklusive dem "Sport treiben". Diese Aktivitäten waren ursprünglich nur als eine Checkbox setzbar und die Auswahl möglicher Aktivitäten war stark begrenzt. Mit einem Update hat sich das geändert und nun kann man auf einer vierstufigen Skala aus den anderen Interessen wählen. Daher sind die ersten nur schlecht mit den hinteren vergleichbar.

Grafik 6

Grafiken 7 bis 9: Zeigt Trends der Bundesländer und nach Benutzeraktivitätszeit auf. Die Heatmap zeigt Anzahl der Sitzungsbeginne und numerisch die durchschnittliche Stundenzeit von Sitzungen dann begonnen. Trendextrapolation scheint nicht möglich und wird daher nicht als Bewertungsmetrik der PLZ-Gebiete berücksichtigt.

Grafik 7
Grafik 8
Grafik 9

Grafik 10: Der Bevölkerungsanteil der registrierten Benutzer eines Bundeslandes. Da ein explizites "Ausscheidedatum" der Benutzer eines PLZ-Gebiets nicht klar festgestellt werden, werden hier keine Trenddaten berücksichtigt.

Grafik 10

Grafiken 11 bis 12: Die Geschlechtsverteterverteilung ermittelt die Differenzen des Durchschnittsalters, Altersstandardabweichung und der Gesamtanzahl je nach Geschlecht (numerisch positiv sind die Frauen, Männer sind negativ). Sind bei allen drei Metriken Werte von 0 optimal.

Grafik 11
Grafik 12

Grafik 13: Postleitzahlranking für "erwartete Effektivit des Portals in einem Bundesland". 

Die vorherigen Metriken mit PLZ Vergleichen wurden gewichtet (1 ist das Höchste und Beste, die anderen Werte implizieren, wie nah sie am "optimalen PLZ-Gebiet") sind. Die Gewichtungen ergeben sich durch diese Überlegungen:

  • Activity: 5 Weil man sich nur mit aktiven Nutzern sinnvoll mit dem Ziel des Kennenlernens austauschen kann sehr stark gewichtet.
  • relativeUserCount: 2 Nur 2, weil diese Angabe der Activity untergeordnet ist und Activity ebenfalls bereits von relativeUserCount abhängig ist. Es bringt nichts mit einem Benutzer zu schreiben, der zwar im Bereich angemeldet ist, aber nicht online kommt. Jedoch erhöht die Anzahl der Benutzer auch die Chancen jemanden im nahen Bereich zu finden.
  • AgeMean: 1 Normal gewichtet, weil die Akzeptanz des zulässigen Partners individuell ist aber trotzdem im Allgemeinen ungefähr gleich dem eigenen Alter sein sollte.
  • ageStd: 0.5 Schwach gewichtet, weil es eine stark abgeleitete Metrik und direkte Vergleiche schwer sind.
  • genderCount: 1 Normal gewichtet, weil wichtig. Die inverse Natur eines nahe-0-guten Datums in diesem Datensatz macht den genderCount-Wert an sich jedoch schon sehr potent, deswegen nicht stark gewichtet.
Grafik 13