Seite 1 von 1

PDF in Suche...

Verfasst: Di 23. Okt 2012, 10:55
von derju
Hallo Zusammen

Folgende Problematik habe ich:

Ich benötige ein Suchmodul welches PDF mit durchsucht und dann auf das PDF verweist.
Gibt es so was schon für Contenido?

Wenn ich in der Dateiverwaltung einem PDF Keywords hinzufüge werden diese Keywords in der Standartsuche auch nicht beachtet.
Liegt das an meiner Konfiguration oder geht das nicht.

LG - derJu

Re: PDF in Suche...

Verfasst: Di 23. Okt 2012, 19:00
von Spider IT
Hallo Ju,

du könntest ein Textmodul so umbauen, dass es im Frontend keine Ausgabe hat.
Dann kannst du darin die Keywords ablegen und der Artikel wird in der Suche mit aufgelistet.
Das funktioniert natürlich nicht mit PDFs, die gemeinsam zum Download auf eine Seite ausgegeben werden, aber da würde was anderes auch nicht funktionieren.

Gruß
René

Re: PDF in Suche...

Verfasst: Di 23. Okt 2012, 21:21
von xmurrix
Die Suche in CONTENIDO sucht nur in CMS-Typen (CMS_HTML, CMS_TEXT) in Artikeln nach, nicht in der Dateieverwaltung oder in Eigenschaften von Dateien.

Spider IT hat einen Vorschlag gemacht, das ist bei ein paar PDF's eine sehr gute Lösung. Hier eine andere Alternative, z. B. wenn du viele PDF's hast:
- Erstelle eine Kategorie
- Installiere ein Tool, mit dem du Texte aus PDF's extahieren kannst, z. B. http://www.foolabs.com/xpdf/download.html
- Schreibe ein Script, dass alle vorhandenen PDF's im upload-Ordner durch den PDF 2 Text Tool jagt, zu jedem PDF einen Artikel mit dem Inhalt in der vorgegebenen PDF-Kategorie anlegt
- Der Artikel kann z. B. 2 CMS_TEXT haben, eines für die PDF-Datei (Pfad/Name der Datei oder upload id) und eines für den Inhalt (extrahierter Text)
- Dann musst du die Suchausgabe (Such-Modul) anpassen. Findet die Suche einen Artikel, das in der PDF-Kategorie liegt, holst du dir die ID oder den Dateinamen des PDF, und generierst einen Link zum PDF.

Gruß
xmurrix

Re: PDF in Suche...

Verfasst: Mi 24. Okt 2012, 09:34
von derju
Hallo René

Danke für deine Antwort.
Was ich nicht verstehe, weshalb es den Keyword bereich in der Dateiverwaltung gibt.

LG, derJu

Re: PDF in Suche...

Verfasst: Mi 24. Okt 2012, 09:38
von derju
Hallo xmurrix

Vielen Dank für deine Antwort.
Diese Variante hört sich bei den vielen PDF's auf jeden fall besser an.
Hast du Erfahrung mit xpdf?

LG, derJu

Re: PDF in Suche...

Verfasst: Mi 24. Okt 2012, 22:01
von xmurrix
derju hat geschrieben:...Hast du Erfahrung mit xpdf?...
Nicht direkt, aber mit Tools, die Xpdf verwenden.

Eigentlich geht es hier darum, dass man die Anwendung auf dem Server installieren (das könnte je nach Server schwierig werden) und mit PHP diese Anwendung ausführen (was auch nicht bei jedem Server möglich ist) kann. Das kann vom Backend aus gemacht werden oder von einem Cronjob, das letztere ist in der Regel besser.

Re: PDF in Suche...

Verfasst: Fr 26. Okt 2012, 20:57
von derju
Hallo xmurrix

Vielen Dank für deine Antwort und die wertvollen Tipps.

Ich kläre das mit meinem Hoster mal ab und hoffe das es irgendwie zu realisieren ist.

LG, derJu

Re: PDF in Suche...

Verfasst: Do 3. Jan 2013, 13:17
von derju
Hallo xmurrix

Ich hab zu diesem Thema nochmals eine Frage.

Ich habe jetzt ein Modul welches aus PDF Artikel in Contenido generiert.
Hier für habe ich eine Kategorie in die die Artikel generiert werden.

Der CronJob löscht erst alle Artikel in dieser Kategorie und erstell sie dann neu somit werden PDF die gelöscht wurden auch als Artikel gelöscht.

Kann das zu Problemen führen wenn es viele PDF ca 500 werden?

Danke im Voraus!

LG - derJu

Re: PDF in Suche...

Verfasst: Do 3. Jan 2013, 13:51
von xmurrix
derju hat geschrieben:...Kann das zu Problemen führen wenn es viele PDF ca 500 werden?...
Hallo derju,

solange der Cronjob nicht mit der Berechtigung des www-data Users (Webserver user) läuft, gibt es keine Probleme.

Wird der Cronjob aber vom Webserver aus gestartet, z. B. beim Aufruf des Frontends oder wenn du Pseudo-Cron in CONTENIDO verwendest, kann es bei 500 PDF's schnell zu einer Zeitüberschreitung kommen. Prozesse, die über den Web-Server gestartet werden, haben einen zeitlichen Limit (in der Regel 20 Sekunden). Ist der Prozess bis dahin nicht fertig, wird es beeendet.

Du solltest also einen richtigen Cronjob auf dem Server einrichten. Ich kann mir vorstellen, dass die Verarbeitung von PDF's sehr Prozessorlastig sein, es kann sich negativ auf das Frontend auswirken, wenn User die Aufgerufene Seite nicht schnell genug zu Gesicht bekommen, weil der Pseudo-Cron lange braucht.


Gruß
xmurrix

Re: PDF in Suche...

Verfasst: Do 3. Jan 2013, 13:58
von derju
Danke für deine schnelle Antwort.

Was meinst du mit:
Du solltest also einen richtigen Cronjob auf dem Server einrichten
LG - derJu

Re: PDF in Suche...

Verfasst: Do 3. Jan 2013, 15:52
von xmurrix
Schau dir mal folgende Seite dazu an:
http://www.good-tutorials.de/Linux/Admi ... n-141.html

Wenn du ein Web-Paket hast, kann es sein, dass es mit etwas Glück eine Administrationsoberfläche dafür gibt. Es geht eigentlich am Ende nur darum, zu bestimmten Zeiten/Intervallen bestimmte Aufgaben auszuführen, in der Regel durch das Aufrufen von Anwendungen oder Scripten.

Gruß
xmurrix