Suche in PDF-Dateien?

Gesperrt
Skyliner
Beiträge: 2
Registriert: So 5. Aug 2007, 14:38
Kontaktdaten:

Suche in PDF-Dateien?

Beitrag von Skyliner » So 5. Aug 2007, 23:54

Hi,

ich bin absoluter Contenido-Neuling und steht glaube ich gleich vor einem recht schwierigen Problem. Undzwar möchte ich realisieren, dass über die Suche auch der Text von PDFs durchsucht wird.
Ich glaube ein Modul was dies ermöglicht gibt es nicht, oder? Ich habe mir aber schon überlegt für jedes PDF zusätzlich eine TXT Datei mit gleichem Namen hochzuladen. Jetzt müsste die Suche nur beim aufzeigen der Ergebnisse anstatt auf die TXT-Datei auf die PDF-Datei linken. Kann mir jemand sagen in welcher Datei und an welcher Stelle ich dann diese Abfrage in der Form
if dateiendung == .txt then dateiendung = .pdf
einbauen kann?

vielen lieben Dank schon mal!!

emergence
Beiträge: 10605
Registriert: Mo 28. Jul 2003, 12:49
Wohnort: Austria
Kontaktdaten:

Re: Suche in PDF-Dateien?

Beitrag von emergence » Mi 8. Aug 2007, 08:44

Skyliner hat geschrieben:... Ich habe mir aber schon überlegt für jedes PDF zusätzlich eine TXT Datei mit gleichem Namen hochzuladen. Jetzt müsste die Suche nur beim aufzeigen der Ergebnisse anstatt auf die TXT-Datei auf die PDF-Datei linken. Kann mir jemand sagen in welcher Datei und an welcher Stelle ich dann diese Abfrage in der Form
if dateiendung == .txt then dateiendung = .pdf
einbauen kann?
ähm wie ? bin nicht sicher ob ich dich verstanden hab...

-> class.search.php
die ist aber nicht dafür ausgelegt externe datenquellen zu durchsuchen...
bzw. zu indizieren...
*** make your own tools (wishlist :: thx)

Skyliner
Beiträge: 2
Registriert: So 5. Aug 2007, 14:38
Kontaktdaten:

Beitrag von Skyliner » Do 9. Aug 2007, 21:08

Naja in irgendeiner Stelle werden ja die Suchergebnisse ausgegeben. Ich gehe mal aus von der Form:

echo "<text>"
echo "<link>"

und ich müsste wissen an welcher stelle das passiert, damit ich link verändern kann, vor der ausgabe

wosch

Re: Suche in PDF-Dateien?

Beitrag von wosch » Do 9. Aug 2007, 21:44

Skyliner hat geschrieben:Undzwar möchte ich realisieren, dass über die Suche auch der Text von PDFs durchsucht wird.
Die Frage gab es schon mal hier.

1. Die suche von Contenido läuft auf eine DB-Abfrage hinaus welche Inhalte (von Contenido) indiziert, d.h. in der DB gespeichert werden.

2. Ist eine Suche in PDF-Dokumenten nur Server-seitig, mit kostenpflichtigen Programmen möglich.
Der Preis für solche Server-Erweiterungen erreicht dabei auch schon mal den Anschaffungspreis eines Kleinwagen.
(PDF werden im Binär-Format gespeichert, da versagt jeder "normale, auf Scripte bassierende Suchmachine".

Du kannst gerne weitersuchen, google ist dein Freund, Ergebnisse gibt es zu Tausenden, nicht verzagen beim Durchklicken ...

Dodger77
Beiträge: 3625
Registriert: Di 12. Okt 2004, 20:00
Wohnort: Voerde (Niederrhein)
Kontaktdaten:

Re: Suche in PDF-Dateien?

Beitrag von Dodger77 » Do 9. Aug 2007, 22:17

wosch hat geschrieben:2. Ist eine Suche in PDF-Dokumenten nur Server-seitig, mit kostenpflichtigen Programmen möglich.
Der Preis für solche Server-Erweiterungen erreicht dabei auch schon mal den Anschaffungspreis eines Kleinwagen.
(PDF werden im Binär-Format gespeichert, da versagt jeder "normale, auf Scripte bassierende Suchmachine".
Das ist so nicht ganz richtig, kostenpflichtig sind die nicht unbedingt. Z.B. kann die TYPO3-Erweiterung "Indexed Search" auch externe Inhalte (HTML, Text, DOC und PDF) indexieren. Dafür sind dann allerdings entsprechende Programme auf dem Server notwendig. Das wird meines Wissens mit catdoc (http://freshmeat.net/projects/catdoc/) und pdftotext (ein Teil von Xpdf: http://www.foolabs.com/xpdf/download.html) erreicht.
Alternativ kann man sich auch mal Swish-e anschauen:

http://swish-e.org/

Das benötigt aber wohl auch Xpdf.

Gesperrt