Partitionierung zur effizienten Duplikaterkennung in relationalen Daten.pdf

Partitionierung zur effizienten Duplikaterkennung in relationalen Daten PDF

Uwe Draisbach

Duplikate bzw. Dubletten sind mehrere Datensätze, die das gleiche Realweltobjekt beschreiben, etwa mehrfach erfasste Kunden in einem CRM-System oder unterschiedliche Repräsentationen eines Produkts. Das Auffinden dieser Duplikate ist auch für moderne Computer eine komplexe und zeitintensive Aufgabe. Uwe Draisbach vergleicht zwei der einschlägigen Partitionierungsstrategien, die eine intelligente Auswahl von zu vergleichenden Datensatzpaaren treffen. Daraus entwickelt er ein verallgemeinertes Verfahren und zeigt, dass eine intelligente Auswahl der Datensatzpaare den Aufwand signifikant reduzieren kann, ohne die Qualität der Duplikaterkennung wesentlich zu verringern. Die Arbeit wurde mit dem „Information Quality Best Master Degree Award“ der Deutschen Gesellschaft für Informations- und Datenqualität ausgezeichnet.

Datenreinigung - Hasso Plattner Institute

7.61 MB DATEIGRÖSSE
9783834817723 ISBN
Kostenlos PREIS
Partitionierung zur effizienten Duplikaterkennung in relationalen Daten.pdf

Technik

PC und Mac

Lesen Sie das eBook direkt nach dem Herunterladen über "Jetzt lesen" im Browser, oder mit der kostenlosen Lesesoftware Adobe Digital Editions.

iOS & Android

Für Tablets und Smartphones: Unsere Gratis tolino Lese-App

Andere eBook Reader

Laden Sie das eBook direkt auf dem Reader im www.brookfieldgardencentre.com.au Shop herunter oder übertragen Sie es mit der kostenlosen Software Sony READER FOR PC/Mac oder Adobe Digital Editions.

Reader

Öffnen Sie das eBook nach der automatischen Synchronisation auf dem Reader oder übertragen Sie es manuell auf Ihr tolino Gerät mit der kostenlosen Software Adobe Digital Editions.

Aktuelle Bewertungen

avatar
Sofya Voigtuh

Masterarbeit - vsis-www.informatik.uni-hamburg.de Zur Entwicklung, Erprobung und Evaluation von Methoden der Duplikaterkennung werden Test-Daten benötigt [Chr12, S. 163ff]. Hierfür haben sich Test-Datasets etabliert, welche sich dadurch auszeichnen, dass sie eine tabellarische Struktur aufweisen (z.B. CSV-Dateien oder relationale Datenbanktabellen) und dass der zugehörige Goldstandard

avatar
Mattio Müllers

Dies ist beim Partitionieren zu beachten, wenn die SSD schnell und effizient arbeiten soll. Zudem muss man bei SSDs berücksichtigen, dass sie nicht beliebig oft beschrieben werden können. Aber

avatar
Noels Schulzen

Duplikaterkennung – Wikipedia Unter Duplikaterkennung oder Objektidentifizierung (auch englisch Record Linkage) versteht man verschiedene automatische Verfahren, mit denen sich in Datensätzen Fälle identifizieren lassen, die dasselbe Objekt in der realen Welt repräsentieren. Dies ist beispielsweise beim Zusammenführen mehrerer Datenquellen (Deduplikation) oder bei der Datenbereinigung …

avatar
Jason Leghmann

Installation, Partitionierung, Bootmanager: Praxis: Linux ... Windows 7 und Linux lassen sich problemlos auf einem System betreiben. Wer die Betriebssysteme gemeinsam einsetzen will, sollte bei Boot-Managern, Partitionierung, Installation und Einrichtung jedoch einige Punkte beachten, wie unser Praxisbetrag zeigt.

avatar
Jessica Kolhmann

Partitionierung zur effizienten Duplikat­ erkennung in relationalen Daten Mit einem Geleitwort von Dr. Marcus Gebauer Springer Viewe RESEARCg H . Inhaltsverzeichnis 1 Gegenstand der Arbeit 1 1.1 Thematischer Überblick 1 1.2 Aufbau der Arbeit 3 2 Duplikaterkennung 5 2.1 Einleitung 5 2.2 Entstehung und Auswirkungen von Duplikaten 8 2.3 Ablauf der Duplikaterkennung 10 2.4 … (PDF) Synopsen-Sharing zur effizienten …