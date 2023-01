In nuce: Das US-amerikanische Unternehmen OpenAI, welche künstlichen Intelligenzen beforscht, hat Point-E veröffentlicht. Mit Point-E lassen sich vermittels Texteingaben 3D-Objekte erstellen. Das geht aus einer Meldung von Journalist Andrew Tarantola hervor, veröffentlicht beim Nachrichtendienst Engadget. Dabei funktioniert Point-E ähnlich wie eine andere Entwicklung aus dem Hause OpenAI: Dall-E, dem Text-Bild-Generator. Der Unterschied liegt darin, dass mit Point-E 3D-Modelle erstellt werden – mit Dall-E nur Standbilder. Hintergrund dazu: Dall-E ist eine künstliche Intelligenz, anhand der Bilder, auf Basis von Texteingaben, generiert werden (diese Texteingaben werden im Fachjargon auch Prompts genannt). Digital Production berichtete zuletzt am 27.10.2022 über Dall-E, als der Generator in die Internet-Suchmaschine Microsoft Bing integriert wurde.

In toto: Mit Point-E werden, ebenfalls auf Grundlage von Prompts, 3D-Punktwolken erstellt. Während DreamFusion von Google – wie es Andrew Tarantola schreibt – „in der Regel mehrere Stunden benötigt, um 3D-Objekte zu erstellen“, würde der Vorgang mit Point-E auf wenige Minuten minimiert. Zusätzlich soll Point-E, schreibt Tarantola weiter, bereits mit nur einer GPU vernünftig funktionieren – anstatt, wie bei DreamFusion, erst unter Einsatz mehrere GPUs Ergebnisse zeitigen.

Wie funktioniert Point-E? Im wissenschaftlichen Aufsatz Point·E: A System for Generating 3D Point Clouds from Complex Prompt (Point-E: Ein System zur Erzeugung von 3D-Punktwolken aus komplexen Vorgaben) schreibt das Team um Alex Nichol, Rechercheur bei OpenAI, Point-E nutze „einen großen Korpus von (Text-, Bild-) Paaren“. Trainiert hingegen wurde Point-E, führen Nichol und Team weiter aus, mithilfe eines „kleineren Datensatz von (Bild-, 3D-) Paaren“. Des Weiteren wird in dem Aufsatz darauf eingegangen, wie 3D-Objekte mit Unterstützung von Point-E entstehen. Im Aufsatz heißt es, im Falle einer Texteingabe (bspw. „Eine Katze isst einen Burrito“), erzeugt Point-E zuerst eine synthetische 3D-Darstellung einer Burrito-essenden Katze. Anschließend durchläuft das so erzeugte Bild mehrere Diffusionsmodelle; diese Modelle dienen als Basis für eine 3D-RGB-Punktwolke – zunächst für ein grobes 1.024-Punkte-Wolkenmodell, dann ein feineres 4.096-Punkte-Modell.

Quelle: engadget.com (Meldung von Andrew Tarantola)