Einzelnen Beitrag anzeigen
Alt 02.03.2007, 20:17   #37  
RobertK
Mitglied
 
Benutzerbild von RobertK
 
Ort: Wien
Beiträge: 103
Zitat:
Zitat von memm
Super. Machst Du das eigentlich mit regulären Ausdrücken oder parst (ist das so richtig konjugiert?)
Ich verwende ziemlich "bodenständige" Programmiertechniken. Geschrieben habe ich das Programm in Visual Basic 6.0. Die Funktionsweise kurz zusammengefaßt: ich lese die HTML-Seiten mit MSHTML ein, dann lese ich verschiedene Elemente nach Typ ein, und zwar mit der Funktion getElementsByTagName(). Und in diesen Elementen versuche ich, anhand bestimmter Kriterien die gewünschten Daten zu finden.
Z.B. lese ich alle Tabellen ein, gehe diese durch und überprüfe alle, die mehr als eine Zeile haben -> das könnte die Infobox sein. Bei diesen Tabellen gehe ich alle Zeilen durch und schaue mir den Wert der ersten Spalte an: wenn dort "Jahrgang:" steht, dann weiß ich, daß in der zweiten Spalte eben der Jahrgang steht. Und so weiter, also alles keine Hexerei. Nur setzt so eine Konvertierung halt ein halbwegs einheitliches Format voraus, was aber bei den meisten Seiten glücklicherweise der Fall war.
RobertK ist offline   Mit Zitat antworten