Populærvidenskabelig sammenfatning af resultater opnået i forskningsprojektet SQERD, 2006-2010

Af Rasmus Pagh

Forskningen i benzinmotorer har gennem de sidste 100 år givet os hurtige, energieffektive, og pålidelige måder at komme frem på. De såkaldte databasemotorer, der driver en stor del af verdens vigtigste informationssystemer, er af langt nyere dato. Næsten alle verdens virksomheder bruger databaser som en central del af deres IT infrastruktur. Det er derfor vigtigt, at fremtidens databasesystemer får størst mulig effektivitet og pålidelighed.

Projektet har beskæftiget sig med algoritmer til databasemotorer, dvs. nye måder at organisere informationsbehandlingen på, der giver højere og mere pålidelig ydelse. I dag kan man komme ud for, at den søgning, der én dag tager sekunder, næste dag tager timer blot fordi der er kommet en mindre mængde ny data til. Der findes også dataanalyser som ikke udføres fordi de simpelthen vil tage for lang tid med de nuværende algoritmer. I projektet har den eksterne partner Apptus Technologies, med databaseteknologi i hjertet af sin forretning, været med til at give et kombineret forretningsmæssigt og teknisk perspektiv.

Målet for projektet har været at udvikle nye algoritmer, der er mere effektive end de eksisterende, og samtidig har en ydelse, der er stabil overfor ændringer i data. Vi har fokuseret på nogle af de mest fundamentale typer af forespørgsler i databaser, der ikke desto mindre langt fra har været teoretisk forstået. I løbet af projektet er vi stødt på en forbindelse til såkaldt data mining, der går ud på at finde interessante mønste og sammenhænge i en datamængde. Det kan f.eks. handle om at finde varer at anbefale til en kunde, eller at finde genetiske årsager til sygdomme.

Vi har som resultat af projektet publiceret en ny algoritme, der er bedre end de eksisterende i de tilfælde hvor datamængden er stor og har en "svær struktur". Vi har også vist, hvordan man i nogle tilfælde kan lave beregningen hurtigere ved at udnytte den store, men svært tæmmede, regnekraft, der ligger i en computers grafik-hardware. Under sit ophold på Yale har ph.d. studerende Rasmus Resen Amossen forsket i, hvordan data bedst placeres i store databaser, der kører fordelt på mange computere. Endelig har vi set på data mining aspekterne i projektet, og kommet frem til flere nye stikprøvebaserede algoritmer, der bruger op mod 100 gange færre beregningsressourcer end tidligere metoder.

Denne forskning har ledt til et nyt projekt, gjort muligt af Det Frie Forskningsråds forskerkarriereprogram Sapere Aude, som ser specifikt på stikprøvebaserede algoritmer til data mining. Projektet udføres i samarbejde med tre eksterne partnere: Apptus Technologies (anbefalingssystemer til e-handel), Demetra A/S (financiel forecasting) og det Jordbrugsvidenskabelige Fakultet på Aarhus Universitet (avlsarbejde ud fra genetisk dataanalyse).