Blog - article

US-Wahl 2016: Pfusch beim Umgang mit Big Data

By:
Gérard Bauer
November 18, 2016

Wir leben in einer Zeit, in der man Big Data und Data Science für alle Arten von Prognosen heranzieht. Die Bandbreite reicht von der Vorhersage des nächsten Amazon-Kaufs bis zu den Resultaten von Wahlen.

Der Ausgang des Brexit-Referendums hat viele Beobachter überrascht, hatten die Meinungsforscher doch ein Votum fürs Bleiben in der EU prophezeit. Wir alle wissen, wie das Ergebnis am Ende tatsächlich ausfiel.

Am 8. November wiederholte sich die Geschichte, als Donald Trump zum nächsten Präsidenten der USA gewählt wurde. Den meisten Umfragen und Expertenmeinungen zufolge war ein Sieg der Demokraten zu erwarten. Kaum jemand stellte die Stichhaltigkeit dieser Prognose in Frage.

Der Artikel Election Day Forecasts Deal Blow to Data Science, veröffentlicht im Wall Street Journal, nennt drei wichtige Aspekte von Big Data und Data Science:

  • „Dark Data“ – Informationen, die den Analysten unbekannt bleiben – können Vorhersagen in die Irre leiten
  • Vereinfachende Fragen ergeben möglicherweise eine limitierte Datenbasis, die zu falschen Schlüssen führt
  • „Ohne ausreichende Datenbasis lassen sich keine weitreichenden Prognosen treffen.“

Das Kind nicht mit dem Badewasser ausschütten

Richtig angewandt, liefert Data Science hervorragende Ergebnisse: Eine leistungsfähige neue Anwendung etwa nutzt die ihr zur Verfügung stehenden Daten, um Cyber-Attacken in Echtzeit aufzudecken und zu stoppen. Stellen Sie sich vor, dass man den nächsten Target-, Anthem- oder Sony-Pictures-Vorfall mit dieser Technik einfach neutralisieren kann.

Data Science hat außerdem zu bedeutenden wissenschaftlichen Erkenntnissen geführt. Dazu gehört die Entdeckung des Higgs-Boson-Teilchens – ein Durchbruch in der Forschung, bei dem ich stolz darauf bin, dass ich dazu einen Beitrag leisten konnte. Heute nutzen mein Team und ich unsere Erfahrungen im Bereich Data Science für einen neuen Bereich: Die Aufdeckung von versteckten Bedrohungen und schwer erkennbaren Cyber-Angriffen auf Unternehmen, denen Sie als Konsumenten und Partner vertrauen.

Legt man die Data-Science-Perspektive zugrunde – was sind dann eigentlich die Lehren, die aus den groben Big-Data-Fehlern bei den jüngsten Wahl- und Abstimmungsvorhersagen zu ziehen sind? Sie lauten vor allem: Man muss sicherstellen, dass man auf Daten zugreift, die für die jeweilige Fragestellung aussagekräftig sind. Ob die erhobenen Werte dann allesamt im Detail korrekt sind, ist sekundär. Dasselbe gilt für den Cybersecurity-Bereich.

Die falsche Datenbasis

Cybersecurity, die sich auf Log-Daten als primäre Quelle stützt, erleidet das gleiche Schicksal wie die erwähnten Wahlvorhersagen mit ihrem „Dark Data“-Problem.

Logs liefern detaillierte Informationen über Anwender-Identitäten und Computer. So können Log-Daten beispielsweise zeigen, dass Kevin eine spezifische Datenbank um 22.03 Uhr aufgerufen hat oder dass Emily um 5.32 Uhr eine russische Website besucht hat.

Gemeinhin nimmt man an, dass Logs die Präsenz eines gerade aktiven Angreifers zuverlässig wiederspiegeln. Den Opfern bekannter Datendiebstähle ist es aber durchweg komplett entgangen, dass ein Cyberkrimineller in ihr Netzwerk eindringen konnte. Ausgefuchste Angreifer sind geradezu Experten darin, allem Monitoring zum Trotz unsichtbar zu bleiben und keinerlei Spuren ihrer Aktivitäten zu hinterlassen

Die Folgen vereinfachender Fragen

Cybersecurity, die sich auf Flow-Daten verlässt, die nach dem NetFlow-Prinzip gewonnen werden, hat einen ähnlich geringen Wert wie die Erhebungen von Meinungsforschern, die stark vereinfachende Fragen stellen.

Angreifer, die besonders ausgefeilte Cyber-Überfälle wie den Carbanak-Bankdiebstahl begehen, nutzen Remote-Access-Trojaner (RATs), um ihre Schritte ferngesteuert zu kontrollieren. Flow-Daten lassen in diesem Fall erkennen, dass ein interner Computer mit einem externen kommuniziert hat, wann diese Verbindung aufgebaut wurde, wann sie endete und wie viele Daten gesendet und empfangen wurden. Die Flow-Daten ermöglichen es aber nicht, zwischen gewöhnlichem Surfen im Web und einer RAT-Kontrolle zu unterscheiden.

Die richtigen Daten für weitreichende Entscheidungen nutzen

Wenn es darum geht, Cyberbedrohungen im eigenen Computernetzwerk zu enttarnen, ist die genaueste und vertrauenswürdigste Big-Data-Quelle dafür der Netzwerk-Traffic.

Data Science macht es möglich, extrem schnell Entscheidungen auf der Basis unglaublich großer Datenmengen zu treffen. Vor Kurzem etwa hat Data Science einem Roboter so zu einem neuen Rekord im Lösen des Zauberwürfels (Rubik’s Cube) verholfen – er schaffte die Aufgabe in weniger als einer Sekunde.

Auf ähnliche Weise unterstützt Data Science Cybersecurity dabei, den gesamten Computer-Traffic in einem Netzwerk zu überwachen und Cyberkriminelle auf frischer Tat zu ertappen – noch bevor sie personenbezogene Daten, Gesundheitsinformationen oder Finanzdaten stehlen.

Der Schlüssel zu diesem Erfolg liegt darin, für Data Science die richtigen „Big-Data“-Quellen heranzuziehen, um auf dieser Basis die richtigen Entscheidungen zu treffen. In diesem Fall ist der Netzwerk-Traffic die Quelle der Wahl.

Hoffen wir also, dass die Meinungsforscher aus der Vergangenheit lernen und bei den nächsten Wahlen ihre Voraussagen auf die richtigen Datenquellen stützen. In der Zwischenzeit können Sie lernen, wie auf der Basis von aussagekräftigen Daten und Data-Science-Ansätzen Sicherheitssysteme entstehen, die mitdenken: Security that thinks.

Nebenbei bemerkt: Schützen, ohne auszuspähen

Sollten Sie sich Sorgen darüber machen, dass sie für einen besseren Schutz Ihrer Identitäts-, Finanz- oder Gesundheitsdaten die Privatsphäre ihrer E-Mail- oder Web-Kommunikation opfern müssen, finden Sie hier Informationen darüber, wie Data Science mehr Sicherheit gewährleistet, ganz ohne Sie dabei auszuspähen.

About the author

Gérard Bauer

Gérard Bauer is Vice President EMEA at Vectra AI with experience in international sales and business development and a successful history in both Senior Executive & General Manager positions.

Author profile and blog posts

Most recent blog posts from the same author

Infrastructure

BGP-Piraten: “… und dieser Traffic geht nach Russland!“

December 20, 2017
Read blog post
Artificial intelligence

Deep Learning in der Cybersicherheit

August 22, 2017
Read blog post
Breach

Petya: Cyberkriminelle lernen voneinander, Unternehmen sollten dies auch tun

June 28, 2017
Read blog post