Big Data: U.S. Navy will mit mindestens 350 Milliarden Daten globales Social-Media-Archiv aufbauen

Von 23. Mai 2019 Aktualisiert: 23. Mai 2019 17:48
Bis kommenden Montag können sich Big-Data-Dienstleister noch bewerben, die der U.S. Navy bei einem groß angelegten Forschungsprojekt helfen wollen. Mindestens 350 Milliarden öffentliche Daten von mindestens 200 Millionen Einzelnutzern aus 100 Ländern sollen danach Studenten der eigenen Postgraduiertenschule zur Verfügung stehen.

Noch bis kommenden Montag soll eine Ausschreibung der U.S. Navy für Bieter offenstehen, die sich für die geeigneten Partner des Naval Supply Systems Command halten, wenn es um den Aufbau eines globalen Social-Media-Archivs geht.

Das Projekt ist Teil der laufenden Bemühungen der Abteilung für Verteidigung und Analyse an der Postgraduierten-Schule dieser Armee-Einheit, Forschungstools zu schaffen für Studenten, deren Schwerpunktgebiet die Big-Data-Analyse ist und die auf diesem Gebiete ihre Fähigkeiten und Fertigkeiten ausbauen wollen.

Aber auch die Lehrenden und Forscher an der Einrichtung wollen, wie in den Materialien zur Ausschreibung erklärt wird, mit dem Archiv ein Werkzeug schaffen, um ihr Verständnis sozialer Dynamiken zu verbessern, insbesondere solchen in sozialen Medien. Außerdem soll das Archiv helfen, Modelle nachzuzeichnen von der Entwicklung sprachlich definierter Communitys und kollektiver Ausdrucksformen.

Mindestens 50 Prozent der Einträge nicht in englischer Sprache

Die Daten, die mithilfe des Archivs gewonnen werden, sollen sowohl zum Zwecke der Erarbeitung wissenschaftlicher Publikationen als auch für die pädagogische Arbeit in den Unterrichtseinheiten verwendet werden.

Laut Aufgabenbeschreibung müssen Bieter in der Lage sein, der Navy-Einrichtung ein Archiv von mindestens 350 Milliarden digitaler Daten zur Verfügung zu stellen, die sich über einen Mindestzeitraum vom 1.7.2014 bis 31.12.2016 erstrecken. Alle Daten müssen dabei von einer einzigen sozialen Plattform stammen.

Zudem sollen die Daten Einträge von mindestens 200 Millionen Einzelnutzern umfassen, die aus mindestens 100 Ländern kommen müssen. Auf ein einzelnes Land dürfen der Beschreibung zufolge maximal 30 Prozent aller Nutzer entfallen. Die Daten müssen zudem Einträge umfassen, die in mindestens 60 Sprachen verfasst sind, mindestens die Hälfte davon in einer anderen als der englischen Sprache.

Es darf sich zudem ausschließlich um öffentlich sichtbare Informationen wie eigene Posts, Nachrichten oder Kommentare handeln, die Übermittlung nicht öffentlicher Inhalte ist der Beschreibung zufolge nicht statthaft.

Für Massenüberwachung nicht geeignet

Die Einträge im Archiv müssen zudem vollständige Texte enthalten, wie sie unverändert und unformatiert gepostet wurden. Auch legt die Einrichtung Wert darauf, dass alle öffentlich einsehbaren Metadaten wie Herkunftsland, Sprache, Hashtags, Aufenthaltsort, Zeitpunkt und URLs von verlinkten Inhalten miterfasst sind. Zumindest 20 Prozent der übermittelten Einträge sollen zudem Informationen über die ungefähre Lage des Geräts, von dem aus gepostet wurde, die von den Nutzern selbst angegebenen Heimatstädte und andere öffentlich einsehbare Informationen über die geografische Lage erkennen lassen.

Die Daten sollen als komprimierte Textdateien unter Verwendung von UTF-8-Verschlüsselung übermittelt werden können. Die Ausschreibung verweist in weiterer Folge auf eine Reihe von Gesetzesbestimmungen, die vonseiten der Bieter zu beachten sind und die im Zuge einer Auftragserteilung zur Anwendung kommen.

Staatliche russische Kanäle und USA-kritische Alternativmedien wittern hinter dem Ansinnen der Navy die Vorbereitung eines neuen, groß angelegten Überwachungsprojekts. Das Erlernen von Fähigkeiten der Big-Data-Analyse kann vonseiten der Absolventen des Postgraduiertenstudiums zweifellos neben kommerziellen auch in sicherheitsbehördlichen oder nachrichtendienstlichen Zusammenhängen angewandt werden. In diesen Fällen, die in den USA ebenso wie in Russland oder anderen Staaten durch Gesetze geregelt sind, ist jedoch die Überwachung aktuell generierter Daten von ungleich höherem Interesse als Archivbestände aus der Vergangenheit.

Mögen Sie unsere Artikel?
Unterstützen Sie EPOCH TIMES
HIER SPENDEN