Grundlage unseres Workflows für die teilautomatisierte Bestandserfassung bilden Fotoaufnahmen. Fotos haben einen sehr hohen Informationsgehalt – gerade auf Grund dessen sind sie aber nur schwer verwertbar. Daher müssen sie zumindest in einen räumlichen oder zeitlichen Kontext gesetzt werden, um einen Mehrwert daraus generieren zu können.
Durch die weite Verbreitung von Handykameras und optischen Systemen entstand eine Masse an Daten, die manuell kaum mehr bewältigbar ist. Diese Masse ist es jedoch auch, die den Fortschritt der Forschung im Bereich Computer Vision - also dem Auswerten visueller Daten mittels geeigneter Algorithmen - stark vorangetrieben hat. Durch das Aufkommen neuronaler Netze und das Trainieren dieser Modelle anhand umfangreicher Bilddatensätze können heute hochkomplexe Informationen aus Bildern abgeleitet werden. In der Baubranche finden solche neuronalen Netze bereits Anwendung, beispielsweise bei der automatisierten Riss- und Schadenserkennung.
Räumliche Daten wie Punktwolken oder Gebäudemodelle sind nicht weniger komplex, allerdings lassen sich Informationen mit Hilfe von geeigneter Software oft deutlich intuitiver herauslesen als aus Fotos. Die Konzepte von Distanz, relativer Position und Größe sind auf 3D Daten gleich anwendbar wie im alltäglichen Leben und daher für den Menschen mit nur einem Blick extrahierbar. Außerdem lassen sich weitere Problemstellungen anhand eines 3D Modelles bearbeiten, die mit 2D Daten deutlich aufwendiger umzusetzen sind – Sichtbarkeits-, Sonnenstand- oder Kollisionsanalysen beispielsweise.
Die Informationen aus einem räumlichen Datensatz lassen sich einfach in 2D überführen. Dies geht zwar mit einem Informationsverlust einher - immerhin werden die Daten um eine Dimension minimiert -, allerdings können so weitere Auswertungsverfahren auf die Daten angewendet werden, um die spezifischen Eigenschaften jeweils optimal zu nutzen. Im einfachsten Fall ist bereits das Erstellen eines Screenshots solch eine Umwandlung von 3D zu 2D.
Der Übergang von zweidimensionalen, visuellen Daten zur räumlichen, dreidimensionalen Repräsentation hingegen ist nicht ganz so einfach. Die Information, die beim Dimensionsverlust verloren gegangen ist, muss nun wieder rekonstruiert werden. Bei Bildern ist es die Information der Tiefe, die wiederhergestellt werden muss – also wie weit ein abgebildeter Punkt vom Aufnahmezentrum entfernt ist.