Konvertierung HTML->Wiki-Code
Zu eurer Info: ich baue gerade ein Programm, mit dem ich die aus dem Google-Cache heruntergeladenen HTML-Seiten der FF-Heft-Inhaltsangaben in (fast) fertigen Wiki-Code konvertieren kann. Erste Tests haben schon sehr vielversprechend ausgesehen. Wenn ich es dann aber über alle Dateien laufen lasse, wird es sicher nicht überall so reibungslos laufen, da hier doch viele Köche viele unterschiedliche Süppchen gekocht haben. Dennoch wird das beim Wiederaufbau sicher sehr hilfreich sein.
Schade aber, daß offenbar keiner weiß, wie man mit Google mehr als 1000 Suchergebnisse zurückbekommt. Weil dann würde sich die Arbeit ja wirklich auszahlen... |
Hier mal eine konvertierte Datei zur Begutachtung, als Beispiel jene von FF 2/1979. Die meisten Dateien (bei den FF-Heften ca. 250 Stück) werden ungefähr diese Qualiät erreichen, bei ein paar wird man händisch ein wenig nachbessern müssen.
Code:
{{Infobox_FF | 1) In der Info-Box unter "BES=": die <BR> sollten glaube ich passen, aber die <P> und </P> kommen mir suspekt vor - soll ich die dort generell entfernen? 2) Der Verweis aufs Titelbild: [[Bild:27_02s.jpg|500px|Fix & Foxi 2/1979]] Paßt das so? Was bedeuten die 500px? Skaliert er größere Bilder dann auf 500 Pixel herunter? Die Scans sind doch alle 300 Pixel breit, wäre hier nicht 300px sinnvoller? 3) Ganz unten bei den Kategorieren: [[Kategorie:Fix & Foxi| 1979 02]] [[Kategorie:27. Jahrgang| 1979 02]] Wozu dienen eigentlich die Zusätze "1979 02"? Sind die überhaupt notwendig? Oder stellt er sich dann beim Anzeigen der Kategorie-Seite auf die angegebene Stelle? |
Zitat:
|
Ich habe mal deine konvertierte Datei in den betreffenden Artikel reinkopiert, ohne irgendetwas zu ändern, und sehe keinen Unterschied zu vorher (außer, dass das Bild fehlt, selbstverständlich). :top:
http://www.kaukapedia.com/index.php/Fix_und_Foxi_2/1979 Zitat:
Zitat:
Zitat:
|
Zitat:
|
Doppelte Antworten sind besser als gar keine. :D
|
Ich habe mal die <P> entfernt, das Resultat ist dasselbe... :kratz:
Und ich habe die beiden Leerzeilen zwischen <HR> und *Vorh. Ausgabe: [[Fix und Foxi 1/1979]] entfernt, sieht besser aus. |
Zitat:
Und die <P> und </P> werden jetzt auch gekübelt - ich dachte halt, die hat vielleicht jemand händisch eingebaut, hab ja vorher nie darauf geachtet :D Der Bereich "Extras/Besonderheiten" soll also wie in FF 2/1979 dreizeilig sein (ist ja wichtig, daß die Vor & Zurück-Links immer an der richtigen Stelle sind, damit man sich durchklicken kann). Das bekomme ich aber nicht automatisch hin, das wird man dann händisch ausbessern müssen (ist aber sicher das geringste Problem). Zitat:
Ich schau mir dann noch die restlichen Publikationen an (mit der neuen Infobox), und morgen oder übermorgen stelle ich euch dann die konvertierten Textdateien zur Verfügung. Und dann geht's ans fröhliche Einarbeiten :grins: |
Noch eine kurze Frage: ich habe bisher für das Cover den Original-Dateinamen aus der HTML-Datei ausgelesen, also bei FF 2/1979 "27_01s.jpg". Soll ich das bei der Gelegenheit bei den FF-Heften gleich auf den einheitlichen Standard im Format "FF 27-02.jpg" umdrehen?
|
Wäre ratsam. Was mich betrifft, ich habe sowieso nie begriffen, wofür das s steht...
|
Also, meine Konvertierung ist nun fertig, viel besser bekomme ich es nicht hin. Ich habe hier folgendes Gesamtpaket hochgeladen:
Kaukapedia_Neuaufbau_Paket_2007-03-01.zip (4,95 MB) http://www.filefactory.com/file/16df74/ Dort macht man dann:
Im Paket sind folgende Zip-Dateien enthalten: Kaukapedia_GoogleCache_2007-02-25.zip Alle im Google-Cache verfügbar gewesenen Kaukapedia-Seiten (1000 HTML-Seiten). Kaukapedia_GoogleCache_Konvertiert_FF.zip Aus den HTML-Seiten der FF-Heft-Inhaltsangaben konvertierte Textdateien mit dem entsprechenden Wiki-Code (254 Stück) Kaukapedia_GoogleCache_Konvertiert_SonstigePublikatione n.zip detto, jedoch für Sonderhefte, FF Extra, etc. (151 Stück) Folgende Sachen sind beim Übernehmen des Codes zu beachten: a) Bitte IMMER die Seitenvorschau mit der aus dem Google-Cache gespeicherten Original-Seite vergleichen! Es kann immer irgendwo ein Fehler enthalten sein. b) ein paar Inhaltsangaben der neueren Jahrgänge (diese sind offenbar früher erfaßt worden) hatten einen ziemlich abweichenden Aufbau, diese haben sich daher nicht so gut konvertieren lassen. Tw. kann man hier nur den Code für die Infobox wiederverwenden. c) In der Infobox ist die Größe des Bereichs "Extras-Besonderheiten" händisch anzupassen - nach Möglichkeit so, daß die "Vorh.Ausg./Folg.Ausg."-Links immer auf der gleichen Höhe sind. d) Bei den "Sonstigen Publikationen" ist der Dateiname des Cover-Scans auf ein einheitliches Format zu korrigieren, dies konnte ich im Gegensatz zu den FF-Heften nicht automatisch vereinheitlichen. Zum "wer macht was"-Ablauf bitte um entsprechende Wortmeldungen im Artikel "Koordination Neuaufbau". |
Zitat:
Für die Höhe der Infobox öffnet am besten z.B. FF 2/1979 und vergleicht es mit eurer Seitenvorschau. Wenn man die Browserfenster nebeneinander stellt, erkennt man gleich, ob die Höhe paßt oder nicht. |
Theoretisch koennten wir das ja mit einem Bot hochladen, aber da es ja nicht eilig ist, ist die beste Vorgehensweise es wie von Dir vorgeschlagen manuell zu machen, so kann man immer die Vorschau pruefen.
Bei msn.at, msn.de usw gibt es Microsofts gecachte Seiten, die soweit ich das sehen kann nicht immer identisch mit denen von Google sind. Koenntest Dein Programm die auch durchforsten? |
Ich habe mir den File auch runtergeladen. Bei doppelten Artikeln am besten nach unten scrollen, nachsehen, wieviel Abrufe beide hatten, und dann selbstverständlich die Version mit den meisten Abrufen benutzen, weil aktueller.
|
Zitat:
Zitat:
|
Zitat:
|
OK. Sind aus dem Bereich Bd 001 - 099 noch Heftbeschreibungen + Inhalt zu erwarten? Habe bisher nur ca 10 gefunden.
|
Zitat:
Falls jemand noch HTML-Dateien haben sollte, die er kurz nach dem Plattencrash aus dem Google-Cache gespeichert hat und die in meinem Paket nicht mehr enthalten waren: immer nur her damit, die kann ich natürlich jederzeit auch noch konvertieren. Das werden aber vermutlich nicht viele Seiten sein, die in der Zeit aus dem Google-Cache verschwunden sind. |
Zitat:
Das hättet ihr mir schon sagen können, daß man so z.B. alle FF Extras finden kann... :rolleye: Habe diese Seiten jetzt mit meinem Download-Programm heruntergeladen. Ich glaube, ich sollte euch mein Programm zur Verfügung stellen, da man doch mehr finden kann als ich dachte. So kann man z.B. die meisten Hefte aus dem Jahr 1979 finden: http://www.google.de/search?hl=de&q=...%22+1979&meta= |
Zitat:
|
Zitat:
So, ich hab jetzt mit dem Suchbegriff im Format site:kaukapedia.com "Fix und Foxi" 1954 für alle Jahre alle gefundenen Seiten heruntergeladen. Schaut gut aus, bei den meisten Jahrgängen sind jetzt mehr als die Hälfte der Heftinhalte gerettet! Ich werd das noch konvertieren und euch dann ein neues Paket zur Verfügung stellen... |
Ich habe nun eine neue Version des Gesamtpakets hochgeladen:
Kaukapedia_Neuaufbau_Paket_2007-03-06.zip (7.295 MB) http://www.filefactory.com/file/90bf16/ Vorgehensweise beim Download: siehe oben. Enthaltene Dateien: Kaukapedia_GoogleCache_2007-03-06.zip Alle mit der neuen Methode aus dem Google-Cache heruntergeladenen Kaukapedia-Seiten (1324 HTML-Seiten). Kaukapedia_GoogleCache_2007-03-06_Konvertiert_FF.zip Aus den HTML-Seiten der FF-Heft-Inhaltsangaben konvertierte Textdateien mit dem entsprechenden Wiki-Code (921 Stück) Kaukapedia_GoogleCache_2007-03-06_Konvertiert_SonstigePublikationen.zip detto, jedoch für Sonderhefte, FF Extra, etc. (168 Stück) Das Erfreuliche: diese Zahlen enthalten diesmal keine doppelten Dateien! Vor allem bei den FF-Heften gibt es nun einen beachtlichen Zuwachs. Beim Übernehmen des Wiki-Codes gelten die gleichen Anweisungen wie oben beschrieben, d.h. immer mit der HTML-Seite vergleichen. P.S. Ich kümmere mich nun weiter um den FF-Bereich 1977 bis 1982. |
@RobertK: Ich bin mal den 27. Jahrgang durchgegangen und habe mit Hilfe zusätzlicher Suchwörter (gelegentlich mit Auslassen der Heftnummer) noch einige vollständigere bzw. noch nicht gefundene Cache-Versionen entdeckt. Ich habe die Links jeweils in die Diskussionen zu den betreffenden Heften gesetzt, damit du sie konvertieren kannst. Oder wär's praktischer, wenn ich sie hier poste?
|
Zitat:
Am einfachsten wäre es für dich und mich, wenn du einfach alles, was du noch findest, abspeicherst und mir dann gesammelt in einem Zip zur Verfügung stellst (die "Dateien"-Ordner brauche ich aber nicht, nur die HTML-Dateien). Und so ist es auch sicherer, denn wer weiß, wie lange die Seiten noch verfügbar bleiben. |
Alle Zeitangaben in WEZ +2. Es ist jetzt 13:12 Uhr. |
Powered by vBulletin® Version 3.8.7 (Deutsch)
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.
Copyright: www.sammlerforen.net