Datenextraktion in ein DWH

Wir müssen Daten effizient aus dem ECM exportieren und in ein DWH laden.
Die Möglichkeit Rest API kennen und nutzen wir bereits.
Gibt es andere Varianten, insbesondere um einen Delta-Load zu ermöglichen?

Danke
MavinS

Hallo @marvinS,

wir haben des Öfteren die Herausforderung, dass die führenden Systeme keine Option bieten, nur mutierte Daten auszulesen um damit Deltas bestimmen zu können. Sei es, dass keine Änderungshistorie geführt wird oder eine Anfrage nach Änderungsdatum nicht möglich ist.

Sofern es effizient möglich ist alle Daten anzufragen (z. B. bei wenigen 100’000 Datensätzen am Tag o. ä.) nutze ich gerne die Option eine CRC-Zeile in Talend anzulegen. Dies ist beispielsweise mit der Komponente

image tAddCRCRow

möglich. Siehe Hilfeseite von Talend zu dieser Komponente. Diese CRC-Zeile kann dann in die Zieldatenbank bzw. in yuuvis übernommen werden. Durch einen einfachen Abgleich dieser CRC-Zeile mit dem zuvor gespeicherten Wert kann effizient erkannt werden, ob die Daten aktualisiert wurden.

Reden wir hier von einer Datenmenge, welche noch mit dieser Technik handlebar ist oder dreht es sich um mehrere Grössenordnungen darüber?

Hallo @rk ,
tatsächlich machen wir aus gegebenen Einschränkungen jeden Tag notgedrungen einen full export über mehrere Stunden. Der Vergleich mit einem Hashwert würde dann im weiteren Ladeprozess zu einer signifikanten Reduktion an Daten führen, erfordert aber immer noch den Vollabzug der Daten aus yuuvis.
Kann und darf ich denn in yuuvis einen CRC Info pro Datensatz überhaupt ablegen?

Ich würde diese CRC-Info tendenziell neben yuuvis speichern, z. B. in der Datensenke. Somit könnte dann die Zieldatenbank nur aktualisiert werden, wenn der CRC geändert hat.

Da die Datenmenge selbst bei grossen Datenquellen dank des CRCs klein ist (yuuvis-GUID + CRC) könnte aber auch eine sehr einfache Cache-Datei von Talend für einige Millionen Records reichen.

Ich könnte mir auch vorstellen durch Anbindung von yuuvis an eine Queue das nötige Change-Event selbst zu erzeugen, sodass jeweils die am Tag geänderten GUIDs klar sind oder live übertragen werden.

Verstanden. Ich hatte das „in yuuvis übernommen“ falsch interpretiert, da wir ja in diesem Fall nichts nach yuuvis schreiben.

BTW: ich bin über einen anderen Kanal schon mit Ulrich Wohlfeil in Kontakt und wir tauschen uns über ein Zusammenarbeitsmodell aus.

1 „Gefällt mir“