Skip to main content

PDFs mit WebCrawler Indexieren - Best Practice? (haupia2 2.0.59)

Comments

2 comments

  • Zendesk API User
    Author: granato - 11/4/2019 11:56

    Ohne deine genaue Version zu kennen, hätte ich folgende Anmerkungen:

    Filtern der HTML Seiten:

    Statt das Content-Feld zu leeren, bitte setze den Boost des Documents auf 0:

    // Skip non PDF files

    document.setBoost(0.0)

    Die Warnung die du siehst entsteht beim Versuch aus deinen HTMLs ein valides SOLR-Dokument zu machen. Den Boost auf 0 zu setzten sollte verhindern dass deine HTMLs diesen Schritt überhaupt erreichen.

    10000-Zeichen Limit:

    Tatsächlich ist dies wie du anmerkst eine Beschränkung die durch das Default-Verhalten von Tika hervorgerufen wird. Derzeit gibt es noch keine Möglichkeit in haupia dies konfigurativ zu beeinflussen, ich werde das Thema ins Team tragen. Danke fur die Anregung.

    Da Dir dies akut aber nicht hilft, ist hier dein Ansatz zu lange PDFs nochmal im Groovy nachzuparsen vermutlich kein schlechter. Hinweis: Tika verarbeitet die PDFs in-memory, also ist eventuell ein hohes Limit statt '-1' sinnvoll. Das Ergebnis ist hier natürlich Systemabhängig.

    Ich hoffe dir helfen diese Infos weiter!

    0
  • Zendesk API User
    Author: chbo - 11/6/2019 10:44

    Luca, danke für die Antwort.

    Die Version mit der wir Arbeiten ist die haupia2-2.0.59.

    Es wäre gut, gut wenn wir das automatische PDF Indexieren steuern könnten. Folgende Optionen wären cool:

    • PDF indexieren mit eigenen CharLimit (inkl. CharLImit -1)
    • PDF Indexieren deaktiviert
    0

Please sign in to leave a comment.