Sammlerforen.net - Konvertierung HTML->Wiki-Code

Seite 1 von 2

100 Beiträge dieses Themas auf einer Seite anzeigen

Sammlerforen.net (https://www.sammlerforen.net/forum.php)

- Kaukapedia-Forum (https://www.sammlerforen.net/forumdisplay.php?f=83)

- - Konvertierung HTML->Wiki-Code (https://www.sammlerforen.net/showthread.php?t=12594)

RobertK

26.02.2007 22:38

Konvertierung HTML->Wiki-Code

Zu eurer Info: ich baue gerade ein Programm, mit dem ich die aus dem Google-Cache heruntergeladenen HTML-Seiten der FF-Heft-Inhaltsangaben in (fast) fertigen Wiki-Code konvertieren kann. Erste Tests haben schon sehr vielversprechend ausgesehen. Wenn ich es dann aber über alle Dateien laufen lasse, wird es sicher nicht überall so reibungslos laufen, da hier doch viele Köche viele unterschiedliche Süppchen gekocht haben. Dennoch wird das beim Wiederaufbau sicher sehr hilfreich sein.

Schade aber, daß offenbar keiner weiß, wie man mit Google mehr als 1000 Suchergebnisse zurückbekommt. Weil dann würde sich die Arbeit ja wirklich auszahlen...

RobertK

27.02.2007 20:15

Hier mal eine konvertierte Datei zur Begutachtung, als Beispiel jene von FF 2/1979. Die meisten Dateien (bei den FF-Heften ca. 250 Stück) werden ungefähr diese Qualiät erreichen, bei ein paar wird man händisch ein wenig nachbessern müssen.

Code:

{{Infobox_FF |

FFNR=2/1979|

EDATUM=5.1.1979|

JGANG=27|

NRCOMICS=6|

SEITEN=44|

PREIS=DM 1,70 öS 13,- sfr 1,80|

BES=<P>Bastelkarton: Fix und Foxi-Kegelspiel, Teil 2/3 <BR><BR><BR></P>

<HR>





*Vorh. Ausgabe: [[Fix und Foxi 1/1979]] 

*Folg. Ausgabe: [[Fix und Foxi 3/1979]] |

}}

[[Bild:27_02s.jpg|500px|Fix & Foxi 2/1979]]

*Titelbild: [[Julino]]





===[[Fix und Foxi]]: Spuk und Trug bei Onkel Rufus===

*Seite 3-12 (10 Seiten)

*Zeichnungen: [[Marti]]

*Inhalt: [[Fix]] und [[Foxi]] erhalten ein Telegramm von ihrem Onkel Rufus: er behauptet, er könne seinen Wald nicht roden, weil es dort spukt. Also fahren Fix, Foxi und [[Lupo]] zu ihm aufs Land, um den Fall zu lösen. Rufus erzählt ihnen dann, daß sich seine Waldarbeiter nicht mehr in den Wald trauen, weil dort immer unheimliche Gespenster auftauchen würden...



===[[Fridolin]]: Die Muskel-Maus===

*Seite 13-18 (6 Seiten)

*Zeichnungen: [[Nadal]]

*Inhalt: Als [[Daggi]] eines Tages einkaufen gehen möchte, traut sie sich nicht aus dem Haus, denn draußen lauert ein grimmiger Riesenkater. Den möchte sich [[Fridolin]] gleich vorknöpfen, doch dieser Gegner ist viel stärker als er. Damit die drei nicht in ihrem Haus verhungern müssen, beschließt Fridolin, zusammen mit [[Pieps]] zu trainieren, um den Kater besiegen zu können...



===[[Eusebia]]: Ein Sonderangebot teuer bezahlt===

*Seite 19 (1 Seite)

*Auch erschienen in: [[Fix und Foxi 12/1985|FF 12/1985]]

*Zeichnungen:

*Inhalt: [[Lupinchen]] bekommt von [[Eusebia|ihrer Oma]] eine Schallplatte zum Geburtstag - doch leider haben sie gar keinen Plattenspieler im Haus. Lupinchen möchte unbedingt einen haben, und Eusebia möchte ihr diesen Wunsch dann auch erfüllen. Im Geschäft ist ihr dann ein 100 Mark-Gerät zu teuer, doch der Verkäufer hat auch noch ein Sonderangebot um 20 Mark für sie...



===[[Lupo]] hat 'ne Schraube locker===

*Seite 26-36 (11 Seiten)

*Zeichnungen:

*Inhalt: [[Lupo]] möchte seine baufällige Eingangstür reparieren, doch da fällt ihm ein, daß er seinen Schraubenzieher an [[Knox]] verliehen hat. Um ihn wiederzubekommen, ist ihm jedes Mittel recht...



===[[Pauli]]: Wer glaubt schon an Gespenster...===

*Seite 38-40, 42-43 (5 Seiten)

*Zeichnungen: [[Cerdan]] (?)

*Inhalt: Ins verschneite Maulwurfshausen kommt prominenter Besuch: der berühmte Filmemacher Bruno Blende steigt aus seinem Auto und fragt Paulis Eltern, ob [[Pauli]] und [[Mausi]] ihm einen Gefallen tun könnten: er erzählt, daß auf Schloß Zitterfels ein guter Freund von ihm auf einen Brief warte, doch leider ist er in Eile und kann den Brief nicht selber überbringen. Pauli und Mausi freuen sich über den Auftrag und machen sich gleich mit ihrem Schlitten auf den Weg. Doch im Schloß ist es dann stockfinster, und es scheint dort auch zu spuken...



===[[Lupo]]===

*Seite 44 (1 Seite)

*Zeichnungen: [[Fecchi]]

*Inhalt: [[Lupo]] spielt Tennis - doch mit seinen Aufschlägen trifft er nur die Fenster eines Hotels...



__NOTOC__

[[Kategorie:Fix & Foxi| 1979 02]]

[[Kategorie:27. Jahrgang| 1979 02]]

Ein paar Fragen habe ich noch:

1) In der Info-Box unter "BES=": die sollten glaube ich passen, aber die und kommen mir suspekt vor - soll ich die dort generell entfernen?

2) Der Verweis aufs Titelbild:

[[Bild:27_02s.jpg|500px|Fix & Foxi 2/1979]]

Paßt das so? Was bedeuten die 500px? Skaliert er größere Bilder dann auf 500 Pixel herunter? Die Scans sind doch alle 300 Pixel breit, wäre hier nicht 300px sinnvoller?

3) Ganz unten bei den Kategorieren:

[[Kategorie:Fix & Foxi| 1979 02]]
[[Kategorie:27. Jahrgang| 1979 02]]

Wozu dienen eigentlich die Zusätze "1979 02"? Sind die überhaupt notwendig? Oder stellt er sich dann beim Anzeigen der Kategorie-Seite auf die angegebene Stelle?

albert-enzian

27.02.2007 21:54

Zitat:

Zitat von RobertK

2) Der Verweis aufs Titelbild:

[[Bild:27_02s.jpg|500px|Fix & Foxi 2/1979]]

Paßt das so? Was bedeuten die 500px? Skaliert er größere Bilder dann auf 500 Pixel herunter? Die Scans sind doch alle 300 Pixel breit, wäre hier nicht 300px sinnvoller?

Das ist noch aus der Zeit, als wir alle die Cover in den verschiedensten Größen hochgeladen haben (dafür übt man ja :grins: ). Durch den Zusatz |300px wurde es dann im Artikel auf die richtige Größe gestutzt und angezeigt. Jetzt laden wir in der Regel die Titelbilder gleich in der vorgeschriebenen Breite hoch.

Brisanzbremse

27.02.2007 21:57

Ich habe mal deine konvertierte Datei in den betreffenden Artikel reinkopiert, ohne irgendetwas zu ändern, und sehe keinen Unterschied zu vorher (außer, dass das Bild fehlt, selbstverständlich). :top:

http://www.kaukapedia.com/index.php/Fix_und_Foxi_2/1979

Zitat:

aber die und kommen mir suspekt vor

Die kommen mir auch unbekannt vor, aber das Resultat ist trotzdem perfekt.

Zitat:

Skaliert er größere Bilder dann auf 500 Pixel herunter?

Yep. Wenn ich nicht völlig verkalkt bin, war der Titelbild-Scan dieses Heftes allerdings ohnehin in der "genormten" Größe, der Zusatz also unnötig. Wenn Bilder fortan in derselben Größe hochgeladen werden (davon gehe ich aus, nicht wahr, a-e und pirg?), brauchen wir's nicht.

Zitat:

Oder stellt er sich dann beim Anzeigen der Kategorie-Seite auf die angegebene Stelle?

Korrekt, ist nur dafür da, dass die Hefte auf der Kategorie-Seite chronologisch erscheinen.

albert-enzian

27.02.2007 21:59

Zitat:

Zitat von RobertK

3) Ganz unten bei den Kategorieren:

[[Kategorie:Fix & Foxi| 1979 02]]
[[Kategorie:27. Jahrgang| 1979 02]]

Wozu dienen eigentlich die Zusätze "1979 02"? Sind die überhaupt notwendig? Oder stellt er sich dann beim Anzeigen der Kategorie-Seite auf die angegebene Stelle?

Die Zusätze dienen der Sortierung in der jeweiligen Kategorie. Ebenfalls bedingt duch die Anfangszeit hatte jeder bei seinen Bilder eigene Dateinamen. Dadurch wurden sie dann z.B. in den Coverkategorien nach "Kraut und Rüben" sortiert, nur nicht aufsteigend. Hier kann man dann mit den Zusätzen abhelfen bzw. nachbessern.

albert-enzian

27.02.2007 22:01

Doppelte Antworten sind besser als gar keine. :D

Brisanzbremse

27.02.2007 22:03

Ich habe mal die entfernt, das Resultat ist dasselbe... :kratz:

Und ich habe die beiden Leerzeilen zwischen <HR> und *Vorh. Ausgabe: [[Fix und Foxi 1/1979]] entfernt, sieht besser aus.

RobertK

27.02.2007 23:24

Zitat:

Zitat von Brisanzbremse

Ich habe mal die entfernt, das Resultat ist dasselbe... :kratz:
Und ich habe die beiden Leerzeilen zwischen <HR> und *Vorh. Ausgabe: [[Fix und Foxi 1/1979]] entfernt, sieht besser aus.

Ja, der Abstand nach <HR> ist mir auch schon aufgefallen, ich hab das jetzt aber so hinbekommen, daß immer genau ein Zeilenumbruch nach dem <HR> steht.
Und die und werden jetzt auch gekübelt - ich dachte halt, die hat vielleicht jemand händisch eingebaut, hab ja vorher nie darauf geachtet :D

Der Bereich "Extras/Besonderheiten" soll also wie in FF 2/1979 dreizeilig sein (ist ja wichtig, daß die Vor & Zurück-Links immer an der richtigen Stelle sind, damit man sich durchklicken kann). Das bekomme ich aber nicht automatisch hin, das wird man dann händisch ausbessern müssen (ist aber sicher das geringste Problem).

Zitat:

Zitat von albert-enzian

Alles klar, dann ist die Skalierung also unnötig und ich lasse sie weg.

Ich schau mir dann noch die restlichen Publikationen an (mit der neuen Infobox), und morgen oder übermorgen stelle ich euch dann die konvertierten Textdateien zur Verfügung. Und dann geht's ans fröhliche Einarbeiten :grins:

RobertK

28.02.2007 00:08

Noch eine kurze Frage: ich habe bisher für das Cover den Original-Dateinamen aus der HTML-Datei ausgelesen, also bei FF 2/1979 "27_01s.jpg". Soll ich das bei der Gelegenheit bei den FF-Heften gleich auf den einheitlichen Standard im Format "FF 27-02.jpg" umdrehen?

Brisanzbremse

28.02.2007 00:15

Wäre ratsam. Was mich betrifft, ich habe sowieso nie begriffen, wofür das s steht...

RobertK

01.03.2007 20:35

Also, meine Konvertierung ist nun fertig, viel besser bekomme ich es nicht hin. Ich habe hier folgendes Gesamtpaket hochgeladen:

Kaukapedia_Neuaufbau_Paket_2007-03-01.zip (4,95 MB)
http://www.filefactory.com/file/16df74/
Dort macht man dann:

"Download for free with FileFactory Basic" (steht ein bißchen weiter unten)
angezeigte Buchstabenkombination eingeben
"Click here to begin your download"

Sollte es später mal noch jemand benötigen (wird nach 30 Tagen ohne Zugriff automatisch gelöscht): einfach eine private Nachricht an mich schicken.

Im Paket sind folgende Zip-Dateien enthalten:

Kaukapedia_GoogleCache_2007-02-25.zip
Alle im Google-Cache verfügbar gewesenen Kaukapedia-Seiten (1000 HTML-Seiten).

Kaukapedia_GoogleCache_Konvertiert_FF.zip
Aus den HTML-Seiten der FF-Heft-Inhaltsangaben konvertierte Textdateien mit dem entsprechenden Wiki-Code (254 Stück)

Kaukapedia_GoogleCache_Konvertiert_SonstigePublikatione n.zip
detto, jedoch für Sonderhefte, FF Extra, etc. (151 Stück)

Folgende Sachen sind beim Übernehmen des Codes zu beachten:

a) Bitte IMMER die Seitenvorschau mit der aus dem Google-Cache gespeicherten Original-Seite vergleichen! Es kann immer irgendwo ein Fehler enthalten sein.

b) ein paar Inhaltsangaben der neueren Jahrgänge (diese sind offenbar früher erfaßt worden) hatten einen ziemlich abweichenden Aufbau, diese haben sich daher nicht so gut konvertieren lassen. Tw. kann man hier nur den Code für die Infobox wiederverwenden.

c) In der Infobox ist die Größe des Bereichs "Extras-Besonderheiten" händisch anzupassen - nach Möglichkeit so, daß die "Vorh.Ausg./Folg.Ausg."-Links immer auf der gleichen Höhe sind.

d) Bei den "Sonstigen Publikationen" ist der Dateiname des Cover-Scans auf ein einheitliches Format zu korrigieren, dies konnte ich im Gegensatz zu den FF-Heften nicht automatisch vereinheitlichen.

Zum "wer macht was"-Ablauf bitte um entsprechende Wortmeldungen im Artikel "Koordination Neuaufbau".

RobertK

01.03.2007 22:12

Zitat:

Zitat von RobertK

c) In der Infobox ist die Größe des Bereichs "Extras-Besonderheiten" händisch anzupassen - nach Möglichkeit so, daß die "Vorh.Ausg./Folg.Ausg."-Links immer auf der gleichen Höhe sind.

Nachtrag: wenn unter "Extras-Besonderheiten" mehr als eine Zeile vorhanden war, dann sind die -Zeilenumbrüche zwischen diesen Zeilen bei der Konvertierung verloren gegangen. Diese muß man dann händisch ergänzen (und vor dem <HR> ein oder zwei weglöschen, damit die Höhe wieder stimmt).

Für die Höhe der Infobox öffnet am besten z.B. FF 2/1979 und vergleicht es mit eurer Seitenvorschau. Wenn man die Browserfenster nebeneinander stellt, erkennt man gleich, ob die Höhe paßt oder nicht.

memm	02.03.2007 10:30

Theoretisch koennten wir das ja mit einem Bot hochladen, aber da es ja nicht eilig ist, ist die beste Vorgehensweise es wie von Dir vorgeschlagen manuell zu machen, so kann man immer die Vorschau pruefen.

Bei msn.at, msn.de usw gibt es Microsofts gecachte Seiten, die soweit ich das sehen kann nicht immer identisch mit denen von Google sind. Koenntest Dein Programm die auch durchforsten?

Brisanzbremse

02.03.2007 11:49

Ich habe mir den File auch runtergeladen. Bei doppelten Artikeln am besten nach unten scrollen, nachsehen, wieviel Abrufe beide hatten, und dann selbstverständlich die Version mit den meisten Abrufen benutzen, weil aktueller.

RobertK

02.03.2007 19:49

Zitat:

Zitat von memm

Naja, da würde man sich aber nur das Copy & Paste sparen, außerdem muß man jede Seite sowieso auf jeden Fall kontrollieren. Ich finde, händisch macht das mehr Spaß :zwinker:

Zitat:

Zitat von memm

Bei msn.at, msn.de usw gibt es Microsofts gecachte Seiten, die soweit ich das sehen kann nicht immer identisch mit denen von Google sind. Koenntest Dein Programm die auch durchforsten?

Theoretisch ja. Sucht man da eigentlich auch einfach nach "site:kaukapedia.com"? Weil so finde ich nämlich nur 52 Seiten, was ein bißchen wenig ist. Oder funktioniert die Suche da anders? :kratz:

RobertK

03.03.2007 11:25

Zitat:

Zitat von RobertK

Dabei ist mir jetzt ein kleiner Fehler aufgefallen: bei den Heften aus dem Bereich 1 bis 99 (das waren aber nur ein paar) habe ich die Nummer nur zweistellig generiert, sie hätte aber dreistellig sein sollen (so hat Albert-Enzian die Bilder auch schon hochgeladen). D.h. statt z.B. FF 18.jpg sollte es FF 018.jpg lauten. Bitte daher beim Übernehmen des Codes einfach den Nuller ergänzen (Wenzel, ich nehme an, das betrifft hauptsächlich dich).

wenzel

03.03.2007 14:20

OK. Sind aus dem Bereich Bd 001 - 099 noch Heftbeschreibungen + Inhalt zu erwarten? Habe bisher nur ca 10 gefunden.

RobertK

03.03.2007 15:51

Zitat:

Zitat von wenzel

OK. Sind aus dem Bereich Bd 001 - 099 noch Heftbeschreibungen + Inhalt zu erwarten? Habe bisher nur ca 10 gefunden.

Von meiner Seite kommt nichts mehr - ich habe alle 1000 Seiten, die Google zurückgeliefert hat, heruntergeladen und alle Inhalts-Seiten konvertiert, d.h. mehr kann ich vorerst nicht machen. Außer jemand sagt mir noch eine Möglichkeit, von irgendwo her noch mehr gecachte Seiten zu bekommen (bei z.B. MSN kommt ja nicht viel zurück).
Falls jemand noch HTML-Dateien haben sollte, die er kurz nach dem Plattencrash aus dem Google-Cache gespeichert hat und die in meinem Paket nicht mehr enthalten waren: immer nur her damit, die kann ich natürlich jederzeit auch noch konvertieren. Das werden aber vermutlich nicht viele Seiten sein, die in der Zeit aus dem Google-Cache verschwunden sind.

RobertK

05.03.2007 22:13

Zitat:

Zitat von RobertK

http://www.google.de/search?hl=de&q=...Extra%22&meta=

Das hättet ihr mir schon sagen können, daß man so z.B. alle FF Extras finden kann... :rolleye:
Habe diese Seiten jetzt mit meinem Download-Programm heruntergeladen.

Ich glaube, ich sollte euch mein Programm zur Verfügung stellen, da man doch mehr finden kann als ich dachte. So kann man z.B. die meisten Hefte aus dem Jahr 1979 finden:
http://www.google.de/search?hl=de&q=...%22+1979&meta=

albert-enzian

05.03.2007 22:18

Zitat:

Zitat von RobertK

...Das hättet ihr mir schon sagen können, daß man so z.B. alle FF Extras finden kann... :rolleye:

Bis vor 14 Tagen wußte ich nicht mal was ein "Google-Cache" ist, geschweige denn, was man damit anfangen könnte. :D :grins: :zwinker: :wink:

RobertK

06.03.2007 20:05

Zitat:

Zitat von albert-enzian

Bis vor 14 Tagen wußte ich nicht mal was ein "Google-Cache" ist, geschweige denn, was man damit anfangen könnte. :D :grins: :zwinker: :wink:

Ich hatte den Google-Cache bisher auch noch nie gebraucht :P

So, ich hab jetzt mit dem Suchbegriff im Format
site:kaukapedia.com "Fix und Foxi" 1954
für alle Jahre alle gefundenen Seiten heruntergeladen. Schaut gut aus, bei den meisten Jahrgängen sind jetzt mehr als die Hälfte der Heftinhalte gerettet!

Ich werd das noch konvertieren und euch dann ein neues Paket zur Verfügung stellen...

RobertK

06.03.2007 22:28

Ich habe nun eine neue Version des Gesamtpakets hochgeladen:

Kaukapedia_Neuaufbau_Paket_2007-03-06.zip (7.295 MB)
http://www.filefactory.com/file/90bf16/

Vorgehensweise beim Download: siehe oben.

Enthaltene Dateien:

Kaukapedia_GoogleCache_2007-03-06.zip
Alle mit der neuen Methode aus dem Google-Cache heruntergeladenen Kaukapedia-Seiten (1324 HTML-Seiten).

Kaukapedia_GoogleCache_2007-03-06_Konvertiert_FF.zip
Aus den HTML-Seiten der FF-Heft-Inhaltsangaben konvertierte Textdateien mit dem entsprechenden Wiki-Code (921 Stück)

Kaukapedia_GoogleCache_2007-03-06_Konvertiert_SonstigePublikationen.zip
detto, jedoch für Sonderhefte, FF Extra, etc. (168 Stück)

Das Erfreuliche: diese Zahlen enthalten diesmal keine doppelten Dateien! Vor allem bei den FF-Heften gibt es nun einen beachtlichen Zuwachs.

Beim Übernehmen des Wiki-Codes gelten die gleichen Anweisungen wie oben beschrieben, d.h. immer mit der HTML-Seite vergleichen.

P.S. Ich kümmere mich nun weiter um den FF-Bereich 1977 bis 1982.

Brisanzbremse

09.03.2007 21:35

@RobertK: Ich bin mal den 27. Jahrgang durchgegangen und habe mit Hilfe zusätzlicher Suchwörter (gelegentlich mit Auslassen der Heftnummer) noch einige vollständigere bzw. noch nicht gefundene Cache-Versionen entdeckt. Ich habe die Links jeweils in die Diskussionen zu den betreffenden Heften gesetzt, damit du sie konvertieren kannst. Oder wär's praktischer, wenn ich sie hier poste?

Brisanzbremse

09.03.2007 22:48

RobertK

10.03.2007 10:25

Zitat:

Zitat von Brisanzbremse

:top: Auf die Idee bin ich noch nicht gekommen, nach "Eisgetüm" oder so zu suchen :D

Am einfachsten wäre es für dich und mich, wenn du einfach alles, was du noch findest, abspeicherst und mir dann gesammelt in einem Zip zur Verfügung stellst (die "Dateien"-Ordner brauche ich aber nicht, nur die HTML-Dateien). Und so ist es auch sicherer, denn wer weiß, wie lange die Seiten noch verfügbar bleiben.

Alle Zeitangaben in WEZ +2. Es ist jetzt 13:12 Uhr.

Seite 1 von 2

100 Beiträge dieses Themas auf einer Seite anzeigen