Wyobraź sobie, że możesz stworzyć własny 3D świat z tekstu. Na przykład, żeby napisać “zielony smok na niebie” i zobaczyć, jak wyglądałby taki stwór. To możliwe dzięki nowemu modelowi generatywnemu dla assetów 3D, stworzonemu przez OpenAI. Nazywa się Shap-E i jest w stanie tworzyć realistyczne i spójne, trójwymiarowe obrazy na podstawie podpowiedzi tekstowych.
Prompt | | | | |
---|
a penguin |  |  |  |  |
a campfire |  |  |  |  |
an elephant |  |  |  |  |
a donut with pink icing |  |  |  |  |
a voxelized dog |  |  |  |  |
ube ice cream cone |  |  |  |  |
a birthday cupcake |  |  |  |  |
shepherds pie |  |  |  |  |
a bowl of vegetables |  |  |  |  |
a cheeseburger |  |  |  |  |
a plate of mushy green peas |  |  |  |  |
a traffic cone |  |  |  |  |
a car that looks like an avocado |  |  |  |  |
an airplane that looks like a banana |  |  |  |  |
a stop sign |  |  |  |  |
a spaceship |  |  |  |  |
a race car |  |  |  |  |
a schoolbus |  |  |  |  |
a firetruck |  |  |  |  |
a rusty old car |  |  |  |  |
a fast car |  |  |  |  |
a chair that looks like an avocado |  |  |  |  |
a chair that looks like fruit |  |  |  |  |
a chair that looks like a tree |  |  |  |  |
a chair that looks like a zebra |  |  |  |  |
a chair that looks like a swimming pool |  |  |  |  |
the person is running |  |  |  |  |
the person is sitting |  |  |  |  |
the person is lying down |  |  |  |  |
a person that looks like a zebra |  |  |  |  |
a person that looks like a leopard |  |  |  |  |
a pair of shorts |  |  |  |  |
a designer dress |  |  |  |  |
banana shoes |  |  |  |  |
a green boot |  |  |  |  |
a pair of sunglasses |  |  |  |  |
</tbody></table>
Shap-E działa na zasadzie *[funkcji niejawnych](https://en.wikipedia.org/wiki/Implicit_function)*, czyli takich, które określają, co znajduje się w danej przestrzeni 3D. Shap-E używa sieci neuronowej, która przyjmuje jako wejście współrzędne 3D punktu i zwraca jako wyjście kolor i gęstość tego punktu. Shap-E uczy się mapować tekst na parametry sieci neuronowej, która reprezentuje funkcję niejawną. Następnie Shap-E może generować nowe assety 3D na podstawie nowych tekstów.
Shap-E ma kilka zalet w porównaniu do innych modeli generatywnych 3D. Po pierwsze, Shap-E może generować zarówno *teksturowane siatki*, jak i *pola promienistości neuronowej (NeRF)*, czyli dwa sposoby renderowania 3D obrazów. Po drugie, Shap-E wykorzystuje technikę *dyfuzji warunkowej*, która pozwala na lepszą kontrolę nad różnorodnością i jakością generowanych obrazów. Po trzecie, Shap-E jest szybszy i łatwiejszy do trenowania niż inne modele generatywne 3D.
Shap-E ma wiele potencjalnych zastosowań w różnych dziedzinach, takich jak grafika komputerowa, projektowanie gier, edukacja czy medycyna. Może być używany do tworzenia, edycji lub ulepszania assetów 3D na podstawie tekstu lub głosu. Może być też używany do nauki o kształtach i kolorach poprzez interaktywną eksplorację 3D świata.
Shap-E jest jednym z niewielu projektów OpenAI udostępnionych na otwartym kodzie źródłowym. Model ten jest dostępny wraz z wagami modelu, kodem wnioskowania i próbkami na GitHubie pod tym adresem: https://github.com/openai/shap-e