DFG project G:(GEPRIS)495170629

MIDAS: Generierung großer und heterogener Testdaten zur Erkennung und Eliminierung von Duplikaten

CoordinatorProfessor Dr. Fabian Panse
Grant period2022 -
Funding bodyDeutsche Forschungsgemeinschaft
 DFG
IdentifierG:(GEPRIS)495170629

Note: Das Erkennen und Beseitigen von Duplikaten sind wichtige Aufgaben im Datenmanagement. Da sich die Anforderungen an ein solches Management aufgrund des zunehmenden Volumens, der Volatilität und der Verschiedenartigkeit der Daten zusehends ändern, ändern sich dementsprechend auch die Anforderungen an Duplikaterkennungs und -eliminierungs Algorithmen. Während sich die Forschung bereits intensiv mit der Anpassung dieser Algorithmen an die sich ändernden Gegebenheiten beschäftigt, sind existierende Testdatengeneratoren immer noch für kleine - meist relationale - Datensätze ausgelegt, so dass sie heutigen Anforderungen nicht mehr genügen. Da die Evaluation solcher Algorithmen jedoch ein wichtiger Bestandteil von Forschung und Praxis ist, sind neue Methoden zur Testdatengenerierung unabdingbar. In diesem Projekt wird ein neuer Ansatz zur Testdatengenerierung entwickelt und implementiert, der die Erstellung großer Testdatensätze mit komplexen Datenschemata unter Verwendung unterschiedlicher Datenmodelle und mit realistischen Fehlermustern, wie sie z.B. durch Kopiervorgänge und veraltete Werte entstehen, ermöglicht. Darüber hinaus werden wir ein Konzept zur automatischen Vorkonfiguration entwickeln und implementieren, das die Anwender dabei unterstützt, die Parametereinstellungen des resultierenden Generierungssystems an ihren jeweiligen Anwendungsfall anzupassen, um so eine effiziente und effektive Nutzung auch für unerfahrene Nutzer zu ermöglichen. Die wichtigsten Forschungsherausforderungen dieses Projekts sind: (i) das Profiling von nicht-relationalen und temporalen Daten, (ii) die effiziente Generierung von realistischen Datenhistorien zur Simulation von Kopierprozessen und veralteten Werten, (iii) die automatische und individuell anpassbare Berechnung von Parametereinstellungen (einschließlich einer anforderungsgesteuerten Transformation von Datenschemata) und (iv) die skalierbare Injektion realistischer Datenfehler und Fehlermuster in bestehende Datensätze.
   

Recent Publications

There are no publications


 Record created 2023-01-20, last modified 2025-03-10



Rate this document:

Rate this document:
1
2
3
 
(Not yet reviewed)