Word - Dokumente nach Contenido "übertragen"

Gesperrt
koffer
Beiträge: 107
Registriert: Mi 3. Sep 2003, 15:39
Kontaktdaten:

Word - Dokumente nach Contenido "übertragen"

Beitrag von koffer » So 29. Nov 2009, 13:49

Hallo,

ich habe hier ca. 11000 Word Dokumente. Der Plan ist, die Daten aus diesen Dateien online verfügbar zu machen. Ich möchte eine Seite erstellen, auf der die Dokumente wie z.B. bei Wikipedia, über eine Suchmaske recherchierbar sind. Meine Frage ist nun, wie bekomme ich die Daten aus den Word - Dokumenten nach Contenido, ohne sie einzeln kopieren zu müssen, bzw. ist dies überhaupt möglich?

Vielen Dank schonmal,
mfG,
koffer

emergence
Beiträge: 10641
Registriert: Mo 28. Jul 2003, 12:49
Wohnort: Austria
Kontaktdaten:

Re: Word - Dokumente nach Contenido "übertragen"

Beitrag von emergence » So 29. Nov 2009, 16:16

word inhalte extrahieren und in contenido importieren...

ich würde mich mit etwas wie dem hier beschäftigen -> http://www.xml.com/pub/a/2003/12/31/qa.html
und das xml ließe sich dann sicherlich entsprechend integrieren/importieren...
*** make your own tools (wishlist :: thx)

koffer
Beiträge: 107
Registriert: Mi 3. Sep 2003, 15:39
Kontaktdaten:

Re: Word - Dokumente nach Contenido "übertragen"

Beitrag von koffer » Mo 30. Nov 2009, 16:31

Hallo emergence,

zunächst mal Danke für de Tip!

Die *.doc müssten also zunächst in *.xml umgewandelt werden?

Nur wie bekomme ich die Dokumente dann integriert...?

Danke nochmal,
koffer

emergence
Beiträge: 10641
Registriert: Mo 28. Jul 2003, 12:49
Wohnort: Austria
Kontaktdaten:

Re: Word - Dokumente nach Contenido "übertragen"

Beitrag von emergence » Mo 30. Nov 2009, 18:22

koffer hat geschrieben:Die *.doc müssten also zunächst in *.xml umgewandelt werden?
ich würde es vermutlich so machen um den text wirklich als text rauszubekommen...
koffer hat geschrieben:Nur wie bekomme ich die Dokumente dann integriert...?
es gibt kein "how to" dafür... die struktur der xml files ist ja nicht bekannt...

entweder contenido eigene funktionen dafür nutzen oder sql statements aus den xml files generieren...
php programmierkenntnisse sind somit unbedingt erforderlich..
*** make your own tools (wishlist :: thx)

kummer
Beiträge: 2423
Registriert: Do 6. Mai 2004, 09:17
Wohnort: Bern, Schweiz
Kontaktdaten:

Re: Word - Dokumente nach Contenido "übertragen"

Beitrag von kummer » Di 1. Dez 2009, 08:58

koffer hat geschrieben:ich habe hier ca. 11000 Word Dokumente. Der Plan ist, die Daten aus diesen Dateien online verfügbar zu machen. Ich möchte eine Seite erstellen, auf der die Dokumente wie z.B. bei Wikipedia, über eine Suchmaske recherchierbar sind. Meine Frage ist nun, wie bekomme ich die Daten aus den Word - Dokumenten nach Contenido, ohne sie einzeln kopieren zu müssen, bzw. ist dies überhaupt möglich?
ich mutmasse mal, es geht dir in erster linie darum, dass du die dokumente indexieren und von der suche erfassen kannst. da du die dokumente ohnehin kaum als word-dokumente bereit stellen willst (sondern eher als pdf), würde ich hier folgendes machen:

1. die dokumente in pdf umwandeln (das ist auch batch-weise möglich, freie instrumente dazu sind verfügbar)
2. mit einem instrument wie diesem: http://www.a-pdf.com/text/index.htm die textdaten isolieren
3. die pdf-daten hochladen
4. die textdaten manuell oder mit hilfe eine scriptes als meta-daten in contenido integrieren (beschreibung innerhalb der datei)
5. auf die beschreibung einen full text-index legen (in phpmyadmin)
6. eine suche programmieren, die in der beschreibung recherchiert.

ganz ohne programmierung geht es freilich nicht. dabei kannst du für deinen fall natürlich auch eine zusätzliche tabelle in der datenbank anlegen, wenn die integration in die contenido-eigenen tabellen nicht notwendig erscheint (die zahl von 11000 dokumenten legt dies nahe). das vereinfacht die sachlage, da du das alles lokal machen kannst und nicht auf die automatische erstellung der einträge durch contenido angewiesen bist. hier dürften bei der genannten anzahl dokumente sonst probleme zu erwarten sein.

nachtrag: hier (http://de3.php.net/manual/de/ref.pdf.php) findest du ein php-script, welches du im rahmen des uploads ausführen könntest, um die daten anschliessend in der db zu speichern. keine ahnung wie gut das funktioniert. ich habe das selber bislang noch nicht eingesetzt. auf der seite musst du nach folgender zeichenfolge suchen: Sven.Schuberth(at)gmx.de. gleich darunter findest du den entsprechenden code.
aitsu.org :: schnell - flexibel - komfortabel :: Version 2.2.0 (since June 22, 2011) (jetzt mit dual license GPL/kommerziell)

Gesperrt