Automatische Kartenproduktion mithilfe generativer Text-zu-Bild Diffusion unter Nutzung von raumbezogenen Daten sozialer Medien The state of generativ

Generative Text-to-Image Diffusion for Automated Map Production Based on Geosocial Media Data

submited by
Style Pass
2024-02-13 08:00:14

Automatische Kartenproduktion mithilfe generativer Text-zu-Bild Diffusion unter Nutzung von raumbezogenen Daten sozialer Medien

The state of generative AI has taken a leap forward with the availability of open source diffusion models. Here, we demonstrate an integrated workflow that uses text-to-image stable diffusion at its core to automatically generate icon maps such as for the area of the Großer Garten, a tourist hotspot in Dresden, Germany. The workflow is based on the aggregation of geosocial media data from Twitter, Flickr, Instagram and iNaturalist. This data are used to create diffusion prompts to account for the collective attribution of meaning and importance by the population in map generation. Specifically, we contribute methods for simplifying the variety of contexts communicated on social media through spatial clustering and semantic filtering for use in prompts, and then demonstrate how this human-contributed baseline data can be used in prompt engineering to automatically generate icon maps. Replacing labels on maps with expressive graphics has the general advantage of reaching a broader audience, such as children and other illiterate groups. For example, the resulting maps can be used to inform tourists of all backgrounds about important activities, points of interest, and landmarks without the need for translation. Several challenges are identified and possible future optimizations are described for different steps of the process. The code and data are fully provided and shared in several Jupyter notebooks, allowing for transparent replication of the workflow and adoption to other domains or datasets.

Der Stand von generativen KI hat mit der Verfügbarkeit von Open-Source-Diffusionsmodellen einen großen Entwicklungssprung vollzogen. Hier demonstrieren wir einen integrierten Arbeitsablauf, der im Kern Text-zu-Bild-Diffusion nutzt, um automatisch Icon-Karten zu generieren, z.B. für das Gebiet des Großen Gartens, einem touristischen Hotspot in Dresden. Der Arbeitsablauf basiert auf der Aggregation von raumbezogenen Daten aus den sozialen Medien Twitter, Flickr, Instagram und iNaturalist. Diese Daten werden verwendet, um textbasierte Eingabeaufforderungen („Prompts“) für den Diffusionprozess zu erstellen. Ziel ist es, raumbezogene kollektive Bedeutungs- und Wertzuschreibungen der Bevölkerung bei der Kartenerstellung zu berücksichtigen. Insbesondere stellen wir Methoden zur Verfügung, welche helfen, die Vielfalt der in sozialen Medien kommunizierten Kontexte zu generalisieren und zu reduzieren. Durch räumliches Clustering und semantische Filterung erzeugen wir vereinfachte Zusammenfassungen und verwenden diese in Prompts. Der Prozess zeigt, wie von Menschen bereitgestellte Basisdaten mittels „Prompt-Engineering“ zur automatischen Generierung von Icon-Karten verwendet werden können. Das Ersetzen von Kartenbeschriftungen durch aussagekräftige Grafiken hat den grundsätzlichen Vorteil, dass ein breiteres Publikum, z. B. auch Kinder und Legastheniker, erreicht werden kann. Die daraus resultierenden Karten können darüber hinaus verwendet werden, um Touristen jeglicher Herkunft über wichtige Aktivitäten, Sehenswürdigkeiten und Wahrzeichen zu informieren, ohne dass eine Übersetzung erforderlich ist. Es werden verschiedene Herausforderungen identifiziert und mögliche zukünftige Entwicklungen für verschiedene Schritte des Prozesses beschrieben. Der Quellcode und die Daten werden vollständig zur Verfügung gestellt und in mehreren Jupyter-Notebooks geteilt, was eine transparente Replikation des Arbeitsablaufs und die Übertragung auf andere Gebiete oder Datensätze ermöglicht.

Leave a Comment