wir haben verstärkt das Thema, das vereinzelt (gerne auch mal gehäuft) enaio Dokumente die vom Volltext/OCR verarbeitet werden sollen dies nicht tun
Um unseren Nutzer zuvor zu kommen, die einen solchen Fehler feststellen und uns mit einem Ticket beglücken, träume ich von einer Möglichkeit jene Dokumente ohne Volltext-Index identifizieren zu können.
Bleibt es bei einem Traum oder habt Ihr eine Idee wie ich zumindest an die ID’s herankommen kann?
Volltextübersicht
Die Aktion zeigt eine Übersicht über die Objekttypen und das enaio®-System an.
[…]
Nachindizieren / PostIndexing
Die Aktion überprüft Volltextdokumente, deren Indexdaten indiziert sind, deren Dateien aber auf Grund von Fehlern in der Kooperation mit der Rendition nicht indiziert werden konnten.
ja genau. Dieses Tool arbeitet aber autark und führt alle Arbeiten automatisiert durch.
Ich suche nach einer Möglichkeit an die ID’s der Objekte heranzukommen zu denen kein Volltext existiert um diese z.B. nach “meiner” Priorität dem Tool als ID-Liste (List-Indexing) zuzuführen.
Hilft mir hier die OSFTSLOG Tabelle irgendwie weiter?
Ich habe auch gerade die Herausforderung das die Warteschlange (OSRENDITIONCACHE) extrem lang ist. Da würden sich neue Aufträge ja am Ende einreihen.
Allgemeine Infromationen zum Index findet sich hier über die URL http://localhost:8041/_stats abfragen. Das Login dazu findet man in der application-es.yml im Service-Manager.
Der Index für die Dateien heisst bei enaio üblicherweise enaioblue_0.
Mit dem Endpunkt http://localhost:8041/enaioblue_0/_stats kann man dann nochmals die Details zu diesem Index erfragen.
Wenn man das ?source=false weglässt, sieht man auch die indizierten Metadaten.
Details zu ElasticSearch API findet man zum Beispiel hier:
DocumentViewer - RenditionCache
Dass die Queue an sich auf Dauer so voll ist, ist prinzipiell nicht so gut. Ist bekannt, warum dies so ist? Falls es sich hierbei um Fehler handelt, müsste man überlegen, ob man die Queue leer und schrittweise die Rendition auf den aktuellen Stand bringt.