Seite 1 von 1

Suche in PDF-Dateien?

Verfasst: So 5. Aug 2007, 23:54
von Skyliner
Hi,

ich bin absoluter Contenido-Neuling und steht glaube ich gleich vor einem recht schwierigen Problem. Undzwar möchte ich realisieren, dass über die Suche auch der Text von PDFs durchsucht wird.
Ich glaube ein Modul was dies ermöglicht gibt es nicht, oder? Ich habe mir aber schon überlegt für jedes PDF zusätzlich eine TXT Datei mit gleichem Namen hochzuladen. Jetzt müsste die Suche nur beim aufzeigen der Ergebnisse anstatt auf die TXT-Datei auf die PDF-Datei linken. Kann mir jemand sagen in welcher Datei und an welcher Stelle ich dann diese Abfrage in der Form
if dateiendung == .txt then dateiendung = .pdf
einbauen kann?

vielen lieben Dank schon mal!!

Re: Suche in PDF-Dateien?

Verfasst: Mi 8. Aug 2007, 08:44
von emergence
Skyliner hat geschrieben:... Ich habe mir aber schon überlegt für jedes PDF zusätzlich eine TXT Datei mit gleichem Namen hochzuladen. Jetzt müsste die Suche nur beim aufzeigen der Ergebnisse anstatt auf die TXT-Datei auf die PDF-Datei linken. Kann mir jemand sagen in welcher Datei und an welcher Stelle ich dann diese Abfrage in der Form
if dateiendung == .txt then dateiendung = .pdf
einbauen kann?
ähm wie ? bin nicht sicher ob ich dich verstanden hab...

-> class.search.php
die ist aber nicht dafür ausgelegt externe datenquellen zu durchsuchen...
bzw. zu indizieren...

Verfasst: Do 9. Aug 2007, 21:08
von Skyliner
Naja in irgendeiner Stelle werden ja die Suchergebnisse ausgegeben. Ich gehe mal aus von der Form:

echo "<text>"
echo "<link>"

und ich müsste wissen an welcher stelle das passiert, damit ich link verändern kann, vor der ausgabe

Re: Suche in PDF-Dateien?

Verfasst: Do 9. Aug 2007, 21:44
von wosch
Skyliner hat geschrieben:Undzwar möchte ich realisieren, dass über die Suche auch der Text von PDFs durchsucht wird.
Die Frage gab es schon mal hier.

1. Die suche von Contenido läuft auf eine DB-Abfrage hinaus welche Inhalte (von Contenido) indiziert, d.h. in der DB gespeichert werden.

2. Ist eine Suche in PDF-Dokumenten nur Server-seitig, mit kostenpflichtigen Programmen möglich.
Der Preis für solche Server-Erweiterungen erreicht dabei auch schon mal den Anschaffungspreis eines Kleinwagen.
(PDF werden im Binär-Format gespeichert, da versagt jeder "normale, auf Scripte bassierende Suchmachine".

Du kannst gerne weitersuchen, google ist dein Freund, Ergebnisse gibt es zu Tausenden, nicht verzagen beim Durchklicken ...

Re: Suche in PDF-Dateien?

Verfasst: Do 9. Aug 2007, 22:17
von Dodger77
wosch hat geschrieben:2. Ist eine Suche in PDF-Dokumenten nur Server-seitig, mit kostenpflichtigen Programmen möglich.
Der Preis für solche Server-Erweiterungen erreicht dabei auch schon mal den Anschaffungspreis eines Kleinwagen.
(PDF werden im Binär-Format gespeichert, da versagt jeder "normale, auf Scripte bassierende Suchmachine".
Das ist so nicht ganz richtig, kostenpflichtig sind die nicht unbedingt. Z.B. kann die TYPO3-Erweiterung "Indexed Search" auch externe Inhalte (HTML, Text, DOC und PDF) indexieren. Dafür sind dann allerdings entsprechende Programme auf dem Server notwendig. Das wird meines Wissens mit catdoc (http://freshmeat.net/projects/catdoc/) und pdftotext (ein Teil von Xpdf: http://www.foolabs.com/xpdf/download.html) erreicht.
Alternativ kann man sich auch mal Swish-e anschauen:

http://swish-e.org/

Das benötigt aber wohl auch Xpdf.