26.02.2007, 22:38 | #1 |
Mitglied
Ort: Wien
Beiträge: 103
|
Konvertierung HTML->Wiki-Code
Zu eurer Info: ich baue gerade ein Programm, mit dem ich die aus dem Google-Cache heruntergeladenen HTML-Seiten der FF-Heft-Inhaltsangaben in (fast) fertigen Wiki-Code konvertieren kann. Erste Tests haben schon sehr vielversprechend ausgesehen. Wenn ich es dann aber über alle Dateien laufen lasse, wird es sicher nicht überall so reibungslos laufen, da hier doch viele Köche viele unterschiedliche Süppchen gekocht haben. Dennoch wird das beim Wiederaufbau sicher sehr hilfreich sein.
Schade aber, daß offenbar keiner weiß, wie man mit Google mehr als 1000 Suchergebnisse zurückbekommt. Weil dann würde sich die Arbeit ja wirklich auszahlen... |
27.02.2007, 20:15 | #2 |
Mitglied
Ort: Wien
Beiträge: 103
|
Hier mal eine konvertierte Datei zur Begutachtung, als Beispiel jene von FF 2/1979. Die meisten Dateien (bei den FF-Heften ca. 250 Stück) werden ungefähr diese Qualiät erreichen, bei ein paar wird man händisch ein wenig nachbessern müssen.
Code:
{{Infobox_FF | FFNR=2/1979| EDATUM=5.1.1979| JGANG=27| NRCOMICS=6| SEITEN=44| PREIS=DM 1,70 öS 13,- sfr 1,80| BES=<P>Bastelkarton: Fix und Foxi-Kegelspiel, Teil 2/3 <BR><BR><BR></P> <HR> *Vorh. Ausgabe: [[Fix und Foxi 1/1979]] *Folg. Ausgabe: [[Fix und Foxi 3/1979]] | }} [[Bild:27_02s.jpg|500px|Fix & Foxi 2/1979]] *Titelbild: [[Julino]] ===[[Fix und Foxi]]: Spuk und Trug bei Onkel Rufus=== *Seite 3-12 (10 Seiten) *Zeichnungen: [[Marti]] *Inhalt: [[Fix]] und [[Foxi]] erhalten ein Telegramm von ihrem Onkel Rufus: er behauptet, er könne seinen Wald nicht roden, weil es dort spukt. Also fahren Fix, Foxi und [[Lupo]] zu ihm aufs Land, um den Fall zu lösen. Rufus erzählt ihnen dann, daß sich seine Waldarbeiter nicht mehr in den Wald trauen, weil dort immer unheimliche Gespenster auftauchen würden... ===[[Fridolin]]: Die Muskel-Maus=== *Seite 13-18 (6 Seiten) *Zeichnungen: [[Nadal]] *Inhalt: Als [[Daggi]] eines Tages einkaufen gehen möchte, traut sie sich nicht aus dem Haus, denn draußen lauert ein grimmiger Riesenkater. Den möchte sich [[Fridolin]] gleich vorknöpfen, doch dieser Gegner ist viel stärker als er. Damit die drei nicht in ihrem Haus verhungern müssen, beschließt Fridolin, zusammen mit [[Pieps]] zu trainieren, um den Kater besiegen zu können... ===[[Eusebia]]: Ein Sonderangebot teuer bezahlt=== *Seite 19 (1 Seite) *Auch erschienen in: [[Fix und Foxi 12/1985|FF 12/1985]] *Zeichnungen: *Inhalt: [[Lupinchen]] bekommt von [[Eusebia|ihrer Oma]] eine Schallplatte zum Geburtstag - doch leider haben sie gar keinen Plattenspieler im Haus. Lupinchen möchte unbedingt einen haben, und Eusebia möchte ihr diesen Wunsch dann auch erfüllen. Im Geschäft ist ihr dann ein 100 Mark-Gerät zu teuer, doch der Verkäufer hat auch noch ein Sonderangebot um 20 Mark für sie... ===[[Lupo]] hat 'ne Schraube locker=== *Seite 26-36 (11 Seiten) *Zeichnungen: *Inhalt: [[Lupo]] möchte seine baufällige Eingangstür reparieren, doch da fällt ihm ein, daß er seinen Schraubenzieher an [[Knox]] verliehen hat. Um ihn wiederzubekommen, ist ihm jedes Mittel recht... ===[[Pauli]]: Wer glaubt schon an Gespenster...=== *Seite 38-40, 42-43 (5 Seiten) *Zeichnungen: [[Cerdan]] (?) *Inhalt: Ins verschneite Maulwurfshausen kommt prominenter Besuch: der berühmte Filmemacher Bruno Blende steigt aus seinem Auto und fragt Paulis Eltern, ob [[Pauli]] und [[Mausi]] ihm einen Gefallen tun könnten: er erzählt, daß auf Schloß Zitterfels ein guter Freund von ihm auf einen Brief warte, doch leider ist er in Eile und kann den Brief nicht selber überbringen. Pauli und Mausi freuen sich über den Auftrag und machen sich gleich mit ihrem Schlitten auf den Weg. Doch im Schloß ist es dann stockfinster, und es scheint dort auch zu spuken... ===[[Lupo]]=== *Seite 44 (1 Seite) *Zeichnungen: [[Fecchi]] *Inhalt: [[Lupo]] spielt Tennis - doch mit seinen Aufschlägen trifft er nur die Fenster eines Hotels... __NOTOC__ [[Kategorie:Fix & Foxi| 1979 02]] [[Kategorie:27. Jahrgang| 1979 02]] 1) In der Info-Box unter "BES=": die <BR> sollten glaube ich passen, aber die <P> und </P> kommen mir suspekt vor - soll ich die dort generell entfernen? 2) Der Verweis aufs Titelbild: [[Bild:27_02s.jpg|500px|Fix & Foxi 2/1979]] Paßt das so? Was bedeuten die 500px? Skaliert er größere Bilder dann auf 500 Pixel herunter? Die Scans sind doch alle 300 Pixel breit, wäre hier nicht 300px sinnvoller? 3) Ganz unten bei den Kategorieren: [[Kategorie:Fix & Foxi| 1979 02]] [[Kategorie:27. Jahrgang| 1979 02]] Wozu dienen eigentlich die Zusätze "1979 02"? Sind die überhaupt notwendig? Oder stellt er sich dann beim Anzeigen der Kategorie-Seite auf die angegebene Stelle? |
27.02.2007, 21:54 | #3 | |
Mitglied
Ort: München
Beiträge: 2.714
|
Zitat:
|
|
27.02.2007, 21:57 | #4 | |||
Mott (viel zu früh verstorben)
Ort: Tief im Westen
Beiträge: 7.328
|
Ich habe mal deine konvertierte Datei in den betreffenden Artikel reinkopiert, ohne irgendetwas zu ändern, und sehe keinen Unterschied zu vorher (außer, dass das Bild fehlt, selbstverständlich).
http://www.kaukapedia.com/index.php/Fix_und_Foxi_2/1979 Zitat:
Zitat:
Zitat:
Geändert von Brisanzbremse (27.02.2007 um 22:04 Uhr) |
|||
27.02.2007, 21:59 | #5 | |
Mitglied
Ort: München
Beiträge: 2.714
|
Zitat:
Geändert von albert-enzian (28.02.2007 um 00:18 Uhr) |
|
27.02.2007, 22:01 | #6 |
Mitglied
Ort: München
Beiträge: 2.714
|
Doppelte Antworten sind besser als gar keine.
|
27.02.2007, 22:03 | #7 |
Mott (viel zu früh verstorben)
Ort: Tief im Westen
Beiträge: 7.328
|
Ich habe mal die <P> entfernt, das Resultat ist dasselbe...
Und ich habe die beiden Leerzeilen zwischen <HR> und *Vorh. Ausgabe: [[Fix und Foxi 1/1979]] entfernt, sieht besser aus. |
27.02.2007, 23:24 | #8 | ||
Mitglied
Ort: Wien
Beiträge: 103
|
Zitat:
Und die <P> und </P> werden jetzt auch gekübelt - ich dachte halt, die hat vielleicht jemand händisch eingebaut, hab ja vorher nie darauf geachtet Der Bereich "Extras/Besonderheiten" soll also wie in FF 2/1979 dreizeilig sein (ist ja wichtig, daß die Vor & Zurück-Links immer an der richtigen Stelle sind, damit man sich durchklicken kann). Das bekomme ich aber nicht automatisch hin, das wird man dann händisch ausbessern müssen (ist aber sicher das geringste Problem). Zitat:
Ich schau mir dann noch die restlichen Publikationen an (mit der neuen Infobox), und morgen oder übermorgen stelle ich euch dann die konvertierten Textdateien zur Verfügung. Und dann geht's ans fröhliche Einarbeiten |
||
28.02.2007, 00:08 | #9 |
Mitglied
Ort: Wien
Beiträge: 103
|
Noch eine kurze Frage: ich habe bisher für das Cover den Original-Dateinamen aus der HTML-Datei ausgelesen, also bei FF 2/1979 "27_01s.jpg". Soll ich das bei der Gelegenheit bei den FF-Heften gleich auf den einheitlichen Standard im Format "FF 27-02.jpg" umdrehen?
|
28.02.2007, 00:15 | #10 |
Mott (viel zu früh verstorben)
Ort: Tief im Westen
Beiträge: 7.328
|
Wäre ratsam. Was mich betrifft, ich habe sowieso nie begriffen, wofür das s steht...
|
01.03.2007, 20:35 | #11 |
Mitglied
Ort: Wien
Beiträge: 103
|
Also, meine Konvertierung ist nun fertig, viel besser bekomme ich es nicht hin. Ich habe hier folgendes Gesamtpaket hochgeladen:
Kaukapedia_Neuaufbau_Paket_2007-03-01.zip (4,95 MB) http://www.filefactory.com/file/16df74/ Dort macht man dann:
Im Paket sind folgende Zip-Dateien enthalten: Kaukapedia_GoogleCache_2007-02-25.zip Alle im Google-Cache verfügbar gewesenen Kaukapedia-Seiten (1000 HTML-Seiten). Kaukapedia_GoogleCache_Konvertiert_FF.zip Aus den HTML-Seiten der FF-Heft-Inhaltsangaben konvertierte Textdateien mit dem entsprechenden Wiki-Code (254 Stück) Kaukapedia_GoogleCache_Konvertiert_SonstigePublikatione n.zip detto, jedoch für Sonderhefte, FF Extra, etc. (151 Stück) Folgende Sachen sind beim Übernehmen des Codes zu beachten: a) Bitte IMMER die Seitenvorschau mit der aus dem Google-Cache gespeicherten Original-Seite vergleichen! Es kann immer irgendwo ein Fehler enthalten sein. b) ein paar Inhaltsangaben der neueren Jahrgänge (diese sind offenbar früher erfaßt worden) hatten einen ziemlich abweichenden Aufbau, diese haben sich daher nicht so gut konvertieren lassen. Tw. kann man hier nur den Code für die Infobox wiederverwenden. c) In der Infobox ist die Größe des Bereichs "Extras-Besonderheiten" händisch anzupassen - nach Möglichkeit so, daß die "Vorh.Ausg./Folg.Ausg."-Links immer auf der gleichen Höhe sind. d) Bei den "Sonstigen Publikationen" ist der Dateiname des Cover-Scans auf ein einheitliches Format zu korrigieren, dies konnte ich im Gegensatz zu den FF-Heften nicht automatisch vereinheitlichen. Zum "wer macht was"-Ablauf bitte um entsprechende Wortmeldungen im Artikel "Koordination Neuaufbau". |
01.03.2007, 22:12 | #12 | |
Mitglied
Ort: Wien
Beiträge: 103
|
Zitat:
Für die Höhe der Infobox öffnet am besten z.B. FF 2/1979 und vergleicht es mit eurer Seitenvorschau. Wenn man die Browserfenster nebeneinander stellt, erkennt man gleich, ob die Höhe paßt oder nicht. |
|
02.03.2007, 10:30 | #13 |
Mitglied
Beiträge: 53
|
Theoretisch koennten wir das ja mit einem Bot hochladen, aber da es ja nicht eilig ist, ist die beste Vorgehensweise es wie von Dir vorgeschlagen manuell zu machen, so kann man immer die Vorschau pruefen.
Bei msn.at, msn.de usw gibt es Microsofts gecachte Seiten, die soweit ich das sehen kann nicht immer identisch mit denen von Google sind. Koenntest Dein Programm die auch durchforsten? |
02.03.2007, 11:49 | #14 |
Mott (viel zu früh verstorben)
Ort: Tief im Westen
Beiträge: 7.328
|
Ich habe mir den File auch runtergeladen. Bei doppelten Artikeln am besten nach unten scrollen, nachsehen, wieviel Abrufe beide hatten, und dann selbstverständlich die Version mit den meisten Abrufen benutzen, weil aktueller.
|
02.03.2007, 19:49 | #15 | ||
Mitglied
Ort: Wien
Beiträge: 103
|
Zitat:
Zitat:
|
||
03.03.2007, 11:25 | #16 | |
Mitglied
Ort: Wien
Beiträge: 103
|
Zitat:
|
|
03.03.2007, 14:20 | #17 |
Mitglied
Beiträge: 21
|
OK. Sind aus dem Bereich Bd 001 - 099 noch Heftbeschreibungen + Inhalt zu erwarten? Habe bisher nur ca 10 gefunden.
|
03.03.2007, 15:51 | #18 | |
Mitglied
Ort: Wien
Beiträge: 103
|
Zitat:
Falls jemand noch HTML-Dateien haben sollte, die er kurz nach dem Plattencrash aus dem Google-Cache gespeichert hat und die in meinem Paket nicht mehr enthalten waren: immer nur her damit, die kann ich natürlich jederzeit auch noch konvertieren. Das werden aber vermutlich nicht viele Seiten sein, die in der Zeit aus dem Google-Cache verschwunden sind. |
|
05.03.2007, 22:13 | #19 | |
Mitglied
Ort: Wien
Beiträge: 103
|
Zitat:
Das hättet ihr mir schon sagen können, daß man so z.B. alle FF Extras finden kann... Habe diese Seiten jetzt mit meinem Download-Programm heruntergeladen. Ich glaube, ich sollte euch mein Programm zur Verfügung stellen, da man doch mehr finden kann als ich dachte. So kann man z.B. die meisten Hefte aus dem Jahr 1979 finden: http://www.google.de/search?hl=de&q=...%22+1979&meta= |
|
05.03.2007, 22:18 | #20 | |
Mitglied
Ort: München
Beiträge: 2.714
|
Zitat:
|
|
06.03.2007, 20:05 | #21 | |
Mitglied
Ort: Wien
Beiträge: 103
|
Zitat:
So, ich hab jetzt mit dem Suchbegriff im Format site:kaukapedia.com "Fix und Foxi" 1954 für alle Jahre alle gefundenen Seiten heruntergeladen. Schaut gut aus, bei den meisten Jahrgängen sind jetzt mehr als die Hälfte der Heftinhalte gerettet! Ich werd das noch konvertieren und euch dann ein neues Paket zur Verfügung stellen... |
|
06.03.2007, 22:28 | #22 |
Mitglied
Ort: Wien
Beiträge: 103
|
Ich habe nun eine neue Version des Gesamtpakets hochgeladen:
Kaukapedia_Neuaufbau_Paket_2007-03-06.zip (7.295 MB) http://www.filefactory.com/file/90bf16/ Vorgehensweise beim Download: siehe oben. Enthaltene Dateien: Kaukapedia_GoogleCache_2007-03-06.zip Alle mit der neuen Methode aus dem Google-Cache heruntergeladenen Kaukapedia-Seiten (1324 HTML-Seiten). Kaukapedia_GoogleCache_2007-03-06_Konvertiert_FF.zip Aus den HTML-Seiten der FF-Heft-Inhaltsangaben konvertierte Textdateien mit dem entsprechenden Wiki-Code (921 Stück) Kaukapedia_GoogleCache_2007-03-06_Konvertiert_SonstigePublikationen.zip detto, jedoch für Sonderhefte, FF Extra, etc. (168 Stück) Das Erfreuliche: diese Zahlen enthalten diesmal keine doppelten Dateien! Vor allem bei den FF-Heften gibt es nun einen beachtlichen Zuwachs. Beim Übernehmen des Wiki-Codes gelten die gleichen Anweisungen wie oben beschrieben, d.h. immer mit der HTML-Seite vergleichen. P.S. Ich kümmere mich nun weiter um den FF-Bereich 1977 bis 1982. |
09.03.2007, 21:35 | #23 |
Mott (viel zu früh verstorben)
Ort: Tief im Westen
Beiträge: 7.328
|
@RobertK: Ich bin mal den 27. Jahrgang durchgegangen und habe mit Hilfe zusätzlicher Suchwörter (gelegentlich mit Auslassen der Heftnummer) noch einige vollständigere bzw. noch nicht gefundene Cache-Versionen entdeckt. Ich habe die Links jeweils in die Diskussionen zu den betreffenden Heften gesetzt, damit du sie konvertieren kannst. Oder wär's praktischer, wenn ich sie hier poste?
|
10.03.2007, 10:25 | #25 | |
Mitglied
Ort: Wien
Beiträge: 103
|
Zitat:
Am einfachsten wäre es für dich und mich, wenn du einfach alles, was du noch findest, abspeicherst und mir dann gesammelt in einem Zip zur Verfügung stellst (die "Dateien"-Ordner brauche ich aber nicht, nur die HTML-Dateien). Und so ist es auch sicherer, denn wer weiß, wie lange die Seiten noch verfügbar bleiben. |
|
|
|
|