Kort sammenfatning af forskningsprojektet Massive Data Mining by Sampling (MaDaMS), 2011-2014

Af Rasmus Pagh

Vi kender alle metoder til at sammenfatte store mængder af data: Summer, gennemsnit og histogrammer kan gøre store datamængder overskuelige. Opsummering af data kan på samme vis gøre store beregningsopgaver mere overkommelige for en computer, selv om den naturligvis medfører at en vis præcision går tabt.

Projektet har undersøgt potentialet i sammenfatning af datastrømme i en ny kontekst, nemlig data mining. Målet for data mining (og mere generelt machine learning) er at finde interessante mønstre i data, fx med et mål om at skabe modeller af data der kan bruges til at lave forudsigelser. I projektet har vi sammen med eksterne samarbejdspartnere haft særlig fokus på to anvendelsesområder: Videnskabelig analyse af biologisk data og anbefalingssystemer til e-handel.

Den nye tilgang har vist sig at fungere godt i en række fundamentale sammenhænge, og er blevet bredt dissemineret og anerkendt inden for flere forskningsområder. Fx modtog resultater fra projektet udmærkelserne "Notable Article" i ACM Computing Reviews, samt "best paper award" på WWW konferencen i 2014.

Projektet har affødt et opfølgningsprojekt financieret af European Research Council, 2014-2019.Brief summary of the research project Massive Data Mining by Sampling (MaDaMS), 2011-2014

By Rasmus Pagh

We all know methods for summarizing large data sets: Sums, averages, and histograms can make large data sets manageable. Summarizing data can similarly make large computational tasks manageable for a computer, even though this of course will result in some loss of precision.

The project has investigated the potential of data stream summaries in a new context, namely data mining. The goal of data mining (and more generally machine learning) is to find interesting patterns in data, e.g. with the goal of creating models of data that can be used to make predictions. In the project we have, with external collaborators, had special focus on two application areas: Scientific analysis of biological data, and recommender systems for e-commerce.

The new approach has proved to work well in a number of fundamental settings, and has been broadly recognized and disseminated in several research areas. For example, results of the project received the distinctions "Notable Article" from ACM Computing Reviews, and "best paper award" from the WWW Conference in 2014.

The project has resulted in a follow-up project financed by the European Research Council, 2014-2019.