Die Reihenfolge der Zeilen und Siglen in der Zeilensynopse sowie die Reihenfolge und Datierung der Balken im Balkendiagramm beruhen auf einem experimentellen Teil der Edition, dem Makrogenese-Lab.
Hierfür wurden die für relevant erachteten Quellen aus der Forschungs- und Editionsgeschichte zu Faust ausgewertet. Als Kriterium für die Auswahl diente nicht die Plausibilität der jeweiligen Annahmen, sondern der konkrete Bezug auf die Überlieferung.Aufgenommen wurden auch Annahmen, die lediglich forschungsgeschichtlich relevant sind. Allgemeine Annahmen über die mutmaßliche Entstehungszeit von Teilen des Werks wurden dagegen nicht berücksichtigt. Die Erkenntnisse, die im Rahmen der Arbeit an der Faustedition gewonnen und noch nicht separat publiziert sind, wurden als Selbstaussagen (self) aufgenommen. Die Forschungsaussagen wurden nach einem einfachen Modell in XML codiert: Einzelne Zeugen können untereinander in einer zeitlichen Reihenfolge stehen sowie mit einem möglichen Entstehungszeitraum assoziiert werden. Ungefähre oder vage Angaben (z.B. „1800/1801“ oder „Frühsommer“) wurden dabei zu eindeutig definierten Zeitintervallen normiert und nach Möglichkeit interpretatorisch präzisiert. Diese Aussagen wurden dann zu einem großen Gesamtgraphen miteinander verknüpft.
Ein Graph setzt sich zusammen aus Objekten (graphentheoretisch: Knoten), zwischen denen Relationen (Kanten) bestehen. Die Knoten werden in diesem Fall durch Zeugen und tagesgenaue Datumsangaben gebildet, die Kanten durch zeitliche Verhältnisse (z.B. Handschrift a entstand vor Handschrift b, das Datum 25. Februar 1825 liegt vor der Entstehung von Handschrift c). Der Graph ist gerichtet, d.h. die Richtung der Kanten ist relevant: Eine Kante x → y drückt immer das Verhältnis „x vor y“ aus.
Sobald die Einzelaussagen zu einem Gesamtzusammenhang verknüpft werden, treten Widersprüche zwischen Forschungsaussagen als Zyklen zutage. Insbesondere bildet sich ein großes Widerspruchscluster (in der Sprache der Graphentheorie eine stark zusammenhängende Komponente) mit über 2000 Aussagen zu fast 500 Zeugen, in der die (vermutlich) falschen Aussagen nicht mehr mit bloßem Auge zu identifizieren sind. Mithilfe einer Heuristik wurde deshalb automatisch eine Menge von Aussagen identifiziert, die bei der Bildung des Gesamtgraphen ausscheiden sollen – im Makrogenese-Lab Konfliktkanten genannt und rotgestrichelt dargestellt. Die Auswahl der Konfliktkanten geschieht nach mehreren Kriterien:
- Grundsätzlich wird angestrebt, möglichst viele Aussagen in den Graphen zu integrieren (d.h. die Anzahl der ausgeschiedenen gering zu halten).
- Einzelne Kanten können ein größeres Gewicht erhalten durch
- die Glaubwürdigkeit der Quelle aus heutiger Sicht (formuliert durch ein einfaches Punktesystem),
- durch Addition gleichlautender Aussagen.
Einige Aussagen werden bereits vor der heuristischen Konfliktbeseitigung aus dem Graphen entfernt: weil die Quelle entweder insgesamt als lediglich forschungsgeschichtlich relevant gilt (Hertz 1931) oder weil eine einzelne Aussage als offensichtlich unbegründet markiert wurde. Aussagen über Gleichzeitigkeit zwischen Zeugen werden bei der Konstruktion des Graphen ebenfalls nicht berücksichtigt, weil sie keine gerichtete Beziehung ausdrücken. Alle diese nicht berücksichtigten Kanten erscheinen in den Visualisierungen grau.
Der verbleibende Graph ist zyklen- und damit widerspruchsfrei. Damit besteht die Möglichkeit, seine Knoten in eine Reihenfolge zu bringen, die keiner der verbliebenen Aussagen widerspricht (eine topologische Sortierung). Diese Reihenfolge ist nicht eindeutig, zur Auflösung von Ambiguitäten wurden als sekundäre Kriterien das Syntagma (konkret: der erste vorkommende Faustvers) und die Siglierung herangezogen. Die auf diese Weise disambiguierte Reihenfolge dient als Grundlage der Sortierung der Zeilen und Siglen in der Zeilensynopse sowie der Balken im Balkendiagramm.
Das Makrogenese-Lab versteht sich als Werkzeug nicht nur zum Nachvollziehen der in der Faustedition sichtbaren Einordnung, sondern insbesondere auch zur weiteren Forschung und Verbesserung der Daten. Es gibt deshalb nicht nur zu jedem Zeugen (Beispiel) eine interaktive Visualisierung auf der Basis der Software Graphviz mit Einordnung und eine Darstellung der unmittelbar assoziierten Aussagen, sondern auch etwa eine Darstellung aller entfernten Konfliktkanten mit individueller Visualisierung des Widerspruchs, sowie Darstellungen pro Szene oder pro Quelle. Eine Legende erläutert die Visualisierungen im Detail.