Enaio Dokumente ohne Volltext Index - Identifizierung möglich?

fb · 11. September 2025 um 15:07

Hallo zusammen,

wir haben verstärkt das Thema, das vereinzelt (gerne auch mal gehäuft) enaio Dokumente die vom Volltext/OCR verarbeitet werden sollen dies nicht tun

Um unseren Nutzer zuvor zu kommen, die einen solchen Fehler feststellen und uns mit einem Ticket beglücken, träume ich von einer Möglichkeit jene Dokumente ohne Volltext-Index identifizieren zu können.

Bleibt es bei einem Traum oder habt Ihr eine Idee wie ich zumindest an die ID’s herankommen kann?

Merci vorab und viele Grüße
Flo

rk · 11. September 2025 um 15:53

Hoi @fb, meinst Du etwas in Richtung enaio® index-manager?

Volltextübersicht
Die Aktion zeigt eine Übersicht über die Objekttypen und das enaio®-System an.

[…]

Nachindizieren / PostIndexing
Die Aktion überprüft Volltextdokumente, deren Indexdaten indiziert sind, deren Dateien aber auf Grund von Fehlern in der Kooperation mit der Rendition nicht indiziert werden konnten.

fb · 17. September 2025 um 06:44

Hi @rk ,

ja genau. Dieses Tool arbeitet aber autark und führt alle Arbeiten automatisiert durch.
Ich suche nach einer Möglichkeit an die ID’s der Objekte heranzukommen zu denen kein Volltext existiert um diese z.B. nach “meiner” Priorität dem Tool als ID-Liste (List-Indexing) zuzuführen.

Hilft mir hier die OSFTSLOG Tabelle irgendwie weiter?

Ich habe auch gerade die Herausforderung das die Warteschlange (OSRENDITIONCACHE) extrem lang ist. Da würden sich neue Aufträge ja am Ende einreihen.

Kann ich diese irgendwie beeinflussen?

LG Flo

uw · 22. September 2025 um 12:55

Hallo @fb,

das sind zwei relativ komplizierte Themen

ElasticSearch

Ab hier folgt mein ElasticSearch Halbwissen:

Allgemeine Infromationen zum Index findet sich hier über die URL http://localhost:8041/_stats abfragen. Das Login dazu findet man in der application-es.yml im Service-Manager.

Der Index für die Dateien heisst bei enaio üblicherweise enaioblue_0.
Mit dem Endpunkt http://localhost:8041/enaioblue_0/_stats kann man dann nochmals die Details zu diesem Index erfragen.

Den Dokumentenstatus kann man dann per http://localhost:8041/enaioblue_0/_doc/2691?_source=false erfragen, wobei dir 2691 die OS ID des Dokuments ist.

{
  "_index": "enaioblue_0",
  "_type": "_doc",
  "_id": "2691",
  "_version": 2,
  "_seq_no": 74,
  "_primary_term": 93,
  "found": true
}

Wenn man das ?source=false weglässt, sieht man auch die indizierten Metadaten.

Details zu ElasticSearch API findet man zum Beispiel hier:

DocumentViewer - RenditionCache

Dass die Queue an sich auf Dauer so voll ist, ist prinzipiell nicht so gut. Ist bekannt, warum dies so ist? Falls es sich hierbei um Fehler handelt, müsste man überlegen, ob man die Queue leer und schrittweise die Rendition auf den aktuellen Stand bringt.

Liebe Grüsse
Uli

AlexanderKohrt · 22. September 2025 um 13:29

Moin @fb , Gemäß der Doku kann man über die Flags in der osfts Tabelle ermitteln, ob der Volltext (Dokument und/oder Indexdaten) erstellt wurde:

Vielleicht hilft das zusammen mit Ulis Antwort.

Gruß

Alexander

rk · 9. Oktober 2025 um 05:50

Von einem Kollegen aus einem Projekt kommt noch folgender Hinweis. Diesen finde ich auch wichtig, da er komplett per API zu machen ist:

Ermitteln der Dokument-IDs und deren Typen z.B. des gestrigen Tages per SQL-Select

Prüfen pro Objekt-Typ, ob für dieses überhaupt ein Volltext aktiv ist

Check des Volltext-Ergebnisses pro Dokument per http://localhost:8070/osrenditioncache/app/trusted/document//rendition/txt

wenn hier etwas Sinnvolles im Return zurückgegeben wird, kann man von erfolgreicher OCR/Volltext für den Dokumenteninhalt ausgehen

falls nicht, kann man dafür die erneute Indexierung anstoßen

fb · 10. Dezember 2025 um 08:12

Hallo Ihr Lieben,

mega … vielen Dank für Eure Rückmeldungen

Viele Grüße
Flo