PDF in Suche...

Gesperrt
derju
Beiträge: 301
Registriert: Do 15. Jan 2009, 09:00
Kontaktdaten:

PDF in Suche...

Beitrag von derju »

Hallo Zusammen

Folgende Problematik habe ich:

Ich benötige ein Suchmodul welches PDF mit durchsucht und dann auf das PDF verweist.
Gibt es so was schon für Contenido?

Wenn ich in der Dateiverwaltung einem PDF Keywords hinzufüge werden diese Keywords in der Standartsuche auch nicht beachtet.
Liegt das an meiner Konfiguration oder geht das nicht.

LG - derJu
Contenido 4.8.20 | Contenido 4.9.12
Spider IT
Beiträge: 1416
Registriert: Fr 3. Dez 2004, 10:15

Re: PDF in Suche...

Beitrag von Spider IT »

Hallo Ju,

du könntest ein Textmodul so umbauen, dass es im Frontend keine Ausgabe hat.
Dann kannst du darin die Keywords ablegen und der Artikel wird in der Suche mit aufgelistet.
Das funktioniert natürlich nicht mit PDFs, die gemeinsam zum Download auf eine Seite ausgegeben werden, aber da würde was anderes auch nicht funktionieren.

Gruß
René
xmurrix
Beiträge: 3215
Registriert: Do 21. Okt 2004, 11:08
Wohnort: Augsburg
Hat sich bedankt: 4 Mal
Danksagung erhalten: 17 Mal
Kontaktdaten:

Re: PDF in Suche...

Beitrag von xmurrix »

Die Suche in CONTENIDO sucht nur in CMS-Typen (CMS_HTML, CMS_TEXT) in Artikeln nach, nicht in der Dateieverwaltung oder in Eigenschaften von Dateien.

Spider IT hat einen Vorschlag gemacht, das ist bei ein paar PDF's eine sehr gute Lösung. Hier eine andere Alternative, z. B. wenn du viele PDF's hast:
- Erstelle eine Kategorie
- Installiere ein Tool, mit dem du Texte aus PDF's extahieren kannst, z. B. http://www.foolabs.com/xpdf/download.html
- Schreibe ein Script, dass alle vorhandenen PDF's im upload-Ordner durch den PDF 2 Text Tool jagt, zu jedem PDF einen Artikel mit dem Inhalt in der vorgegebenen PDF-Kategorie anlegt
- Der Artikel kann z. B. 2 CMS_TEXT haben, eines für die PDF-Datei (Pfad/Name der Datei oder upload id) und eines für den Inhalt (extrahierter Text)
- Dann musst du die Suchausgabe (Such-Modul) anpassen. Findet die Suche einen Artikel, das in der PDF-Kategorie liegt, holst du dir die ID oder den Dateinamen des PDF, und generierst einen Link zum PDF.

Gruß
xmurrix
CONTENIDO Downloads: CONTENIDO 4.10.1
CONTENIDO Links: Dokumentationsportal, FAQ, API-Dokumentation
CONTENIDO @ Github: CONTENIDO 4.10 - Mit einem Entwicklungszweig (develop-branch), das viele Verbesserungen/Optimierungen erhalten hat und auf Stabilität und Kompatibilität mit PHP 8.0 bis 8.2 getrimmt wurde.
derju
Beiträge: 301
Registriert: Do 15. Jan 2009, 09:00
Kontaktdaten:

Re: PDF in Suche...

Beitrag von derju »

Hallo René

Danke für deine Antwort.
Was ich nicht verstehe, weshalb es den Keyword bereich in der Dateiverwaltung gibt.

LG, derJu
Contenido 4.8.20 | Contenido 4.9.12
derju
Beiträge: 301
Registriert: Do 15. Jan 2009, 09:00
Kontaktdaten:

Re: PDF in Suche...

Beitrag von derju »

Hallo xmurrix

Vielen Dank für deine Antwort.
Diese Variante hört sich bei den vielen PDF's auf jeden fall besser an.
Hast du Erfahrung mit xpdf?

LG, derJu
Contenido 4.8.20 | Contenido 4.9.12
xmurrix
Beiträge: 3215
Registriert: Do 21. Okt 2004, 11:08
Wohnort: Augsburg
Hat sich bedankt: 4 Mal
Danksagung erhalten: 17 Mal
Kontaktdaten:

Re: PDF in Suche...

Beitrag von xmurrix »

derju hat geschrieben:...Hast du Erfahrung mit xpdf?...
Nicht direkt, aber mit Tools, die Xpdf verwenden.

Eigentlich geht es hier darum, dass man die Anwendung auf dem Server installieren (das könnte je nach Server schwierig werden) und mit PHP diese Anwendung ausführen (was auch nicht bei jedem Server möglich ist) kann. Das kann vom Backend aus gemacht werden oder von einem Cronjob, das letztere ist in der Regel besser.
CONTENIDO Downloads: CONTENIDO 4.10.1
CONTENIDO Links: Dokumentationsportal, FAQ, API-Dokumentation
CONTENIDO @ Github: CONTENIDO 4.10 - Mit einem Entwicklungszweig (develop-branch), das viele Verbesserungen/Optimierungen erhalten hat und auf Stabilität und Kompatibilität mit PHP 8.0 bis 8.2 getrimmt wurde.
derju
Beiträge: 301
Registriert: Do 15. Jan 2009, 09:00
Kontaktdaten:

Re: PDF in Suche...

Beitrag von derju »

Hallo xmurrix

Vielen Dank für deine Antwort und die wertvollen Tipps.

Ich kläre das mit meinem Hoster mal ab und hoffe das es irgendwie zu realisieren ist.

LG, derJu
Contenido 4.8.20 | Contenido 4.9.12
derju
Beiträge: 301
Registriert: Do 15. Jan 2009, 09:00
Kontaktdaten:

Re: PDF in Suche...

Beitrag von derju »

Hallo xmurrix

Ich hab zu diesem Thema nochmals eine Frage.

Ich habe jetzt ein Modul welches aus PDF Artikel in Contenido generiert.
Hier für habe ich eine Kategorie in die die Artikel generiert werden.

Der CronJob löscht erst alle Artikel in dieser Kategorie und erstell sie dann neu somit werden PDF die gelöscht wurden auch als Artikel gelöscht.

Kann das zu Problemen führen wenn es viele PDF ca 500 werden?

Danke im Voraus!

LG - derJu
Contenido 4.8.20 | Contenido 4.9.12
xmurrix
Beiträge: 3215
Registriert: Do 21. Okt 2004, 11:08
Wohnort: Augsburg
Hat sich bedankt: 4 Mal
Danksagung erhalten: 17 Mal
Kontaktdaten:

Re: PDF in Suche...

Beitrag von xmurrix »

derju hat geschrieben:...Kann das zu Problemen führen wenn es viele PDF ca 500 werden?...
Hallo derju,

solange der Cronjob nicht mit der Berechtigung des www-data Users (Webserver user) läuft, gibt es keine Probleme.

Wird der Cronjob aber vom Webserver aus gestartet, z. B. beim Aufruf des Frontends oder wenn du Pseudo-Cron in CONTENIDO verwendest, kann es bei 500 PDF's schnell zu einer Zeitüberschreitung kommen. Prozesse, die über den Web-Server gestartet werden, haben einen zeitlichen Limit (in der Regel 20 Sekunden). Ist der Prozess bis dahin nicht fertig, wird es beeendet.

Du solltest also einen richtigen Cronjob auf dem Server einrichten. Ich kann mir vorstellen, dass die Verarbeitung von PDF's sehr Prozessorlastig sein, es kann sich negativ auf das Frontend auswirken, wenn User die Aufgerufene Seite nicht schnell genug zu Gesicht bekommen, weil der Pseudo-Cron lange braucht.


Gruß
xmurrix
CONTENIDO Downloads: CONTENIDO 4.10.1
CONTENIDO Links: Dokumentationsportal, FAQ, API-Dokumentation
CONTENIDO @ Github: CONTENIDO 4.10 - Mit einem Entwicklungszweig (develop-branch), das viele Verbesserungen/Optimierungen erhalten hat und auf Stabilität und Kompatibilität mit PHP 8.0 bis 8.2 getrimmt wurde.
derju
Beiträge: 301
Registriert: Do 15. Jan 2009, 09:00
Kontaktdaten:

Re: PDF in Suche...

Beitrag von derju »

Danke für deine schnelle Antwort.

Was meinst du mit:
Du solltest also einen richtigen Cronjob auf dem Server einrichten
LG - derJu
Contenido 4.8.20 | Contenido 4.9.12
xmurrix
Beiträge: 3215
Registriert: Do 21. Okt 2004, 11:08
Wohnort: Augsburg
Hat sich bedankt: 4 Mal
Danksagung erhalten: 17 Mal
Kontaktdaten:

Re: PDF in Suche...

Beitrag von xmurrix »

Schau dir mal folgende Seite dazu an:
http://www.good-tutorials.de/Linux/Admi ... n-141.html

Wenn du ein Web-Paket hast, kann es sein, dass es mit etwas Glück eine Administrationsoberfläche dafür gibt. Es geht eigentlich am Ende nur darum, zu bestimmten Zeiten/Intervallen bestimmte Aufgaben auszuführen, in der Regel durch das Aufrufen von Anwendungen oder Scripten.

Gruß
xmurrix
CONTENIDO Downloads: CONTENIDO 4.10.1
CONTENIDO Links: Dokumentationsportal, FAQ, API-Dokumentation
CONTENIDO @ Github: CONTENIDO 4.10 - Mit einem Entwicklungszweig (develop-branch), das viele Verbesserungen/Optimierungen erhalten hat und auf Stabilität und Kompatibilität mit PHP 8.0 bis 8.2 getrimmt wurde.
Gesperrt