AI-generatory wideo - zaczyna się starcie. Hollywood, Bollywood, AI-llywood

Gdy OpenAI, firma, która stworzyła ChatGPT i DALL-E, zademonstrowała generator wideo z promptów tekstowych o nazwie Sora, początkowo nie zrobiło to wielkiego wrażenia. Narzędzi text-to-video powstało wcześniej sporo i kolejne w szeregu nie musiało być zbyt ekscytujące. Gdy jednak fachowcy przyjrzeli się filmom, które Sora tworzy, a zwłaszcza wierności napisów, zrozumieli, że to nowa jakość.

Po kilku dniach ukazały się recenzje, z których wynikało, że chociaż istnieją od dłuższego czasu inne modele generowania wideo, to żaden z nich nie jest w stanie generować realistycznych, złożonych filmów, takich jak te, które ma tworzyć Sora. Różnica jest choćby taka, że dzięki Sora użytkownicy (ograniczona, wyselekcjonowana grupa, która miała dostęp w momencie powstawania tego artykułu) mogli generować filmy o długości do jednej minuty. Udostępniane wcześniej generatory wideo AI mogły się pochwalić najwyżej kilkusekundowymi kreacjami. Zatem już to jest skokiem w porównaniu z tym, co widzieliśmy. Dochodzą do tego takie aspekty jak dokładność (wspomniane niezniekształcane litery w napisach) i duża liczba szczegółów animowanych na filmach. W ramach demonstracji OpenAI pokazała m.in. sekwencje wideo ukazujące SUV-a jadącego po krętej górskiej drodze, „historyczne” nagrania z Kalifornii z czasów gorączki złota i scenę przedstawiającą piękną modelkę przechadzającą się po ulicach Tokio.

Kilka dni po premierze i pokazie demonstracyjnych filmików brytyjski start-up ElevenLabs dodał wygenerowane przez własny model AI efekty dźwiękowe do filmów wyprodukowanych przez Sora. To jedna z wielu firm rozwijających technikę generowania przez AI efektów audio. Pracują nad tym także m.in. myEdit, AudioGen i Stable Audio, powiązana ze StabilityAI.

Prompty tekstowe wydają się dopiero początkiem. Zdaniem ekspertów, następnym etapem będą prawdopodobnie narzędzia, które analizowałyby zawartość wideo i automatycznie dodawały efekty dźwiękowe w odpowiednich momentach, dokładnie i kreatywnie zsynchronizowane. Będącym w tej chwili jeszcze w sferze marzeń dążeniem twórców generatywnej sztucznej inteligencji jest umożliwienie tworzenia kompletnych utworów wideo i audio na podstawie pojedynczej podpowiedzi tekstowej, głosowej, a kto wie, może po prostu jednego obrazu, stanowiącego inspirację.

Alibaba każe śpiewać modelce z generatora Sora

Nie jest specjalnym zaskoczeniem, że premiera generatora wideo OpenAI pobudziła konkurencję do działania. Z dalekich Chin doszły wieści, że generator wideo AI, opracowany przez Institute for Intelligent Computing, organizację badawczą finansowaną przez potentata handlu internetowego Alibaba, postanowił podobnie jak ElevenLabs wzbogacić wideo wygenerowane przez Sora dźwiękiem i czymś więcej, zamieniając spacerującą modelkę w piosenkarkę śpiewającą Don’t Start Now Dua Lipy. Chińscy twórcy modelu opublikowali artykuł na temat nowego generatora wideo AI, który potrafi przekształcać nieruchome obrazy twarzy w aktorów i piosenkarzy, nazwanego EMO. Alibaba umieściła filmy demonstracyjne wygenerowane przez to narzędzie na GitHubie. Oprócz śpiewającej modelki Sora prezentacje ukazują m.in. nieżyjącą od lat gwiazdę filmu, Audrey Hepburn, wypowiadającą kwestie pochodzące ze współczesnych memów. Prezentacje Alibaby od razu wzbudziły falę obaw, że powstało udoskonalone narzędzie do produkcji tzw. deep fake’ów.

W ciągu ostatnich kilku lat pojawiły się aplikacje zaprojektowane do generowania animacji twarzy na podstawie dźwięku, ale nie robiły aż tak wielkiego wrażenia. Na przykład, w ramach promocji pakietu oprogramowania NVIDIA Omniverse oferowano aplikację do animacji twarzy i generacji audio o nazwie „Audio2Face”. Narzędzie to opierało się jednak na mniej wyrafinowanej animacji 3D, a nie na fotorealistycznym wideo, które tworzy EMO.

Warto w tym miejscu zauważyć, że podobnie jak w przypadku Sora, platforma AI Alibaby jest omawiana na podstawie wersji demonstracyjnej dostarczonej przez jej twórców. W rzeczywistości rzesze użytkowników nie mają w rękach użytecznej wersji, którą można by przetestować. Trudno sobie wyobrazić, że to oprogramowanie w rękach amatorów może od razu tworzyć tak zaawansowaną mimikę ludzkiej twarzy i jakościowy dźwięk, bez błędów i konieczności wielokrotnego poprawiania, nawet w rękach pierwszego lepszego użytkownika.

Według dostępnych informacji, model EMO opiera się na dużym zbiorze danych audio i wideo. Nie wiadomo jednak wiele więcej, w tym tego, skąd pochodzą dane szkoleniowe, jak elastyczny i podatny na ekstrema jest to model.

Big Tech nie zasypia gruszek w popiele

Choć właściwie wszystkie generatory wideo oparte na modelach AI są jeszcze na wstępnym etapie, a ich kreacje są wciąż bardzo skromne, zwłaszcza jeśli chodzi o długość tworzonych klipów wideo, można mówić już o pierwocinach rynku i zalążkach rywalizacji w dziedzinie generacji wideo opartej na sztucznej inteligencji. Można znaleźć na nim narzędzia na różnym poziomie zaawansowania, niektóre mocno prototypowe, inne będące raczej zabawkami niż czymś poważnym. Aktywni są tu właściwie wszyscy potentaci Big Tech, z Google, Meta, Microsoftem i Amazonem na czele.

Meta (dawniej Facebook) przygotowała prototypowy, oparty na AI generator filmów, Make-A-Video. Wkrótce po jego pojawieniu się Google przedstawiło Imagen Video, system sztucznej inteligencji, który potrafi generować klipy wideo na podstawie podpowiedzi tekstowej. Imagen to wspominany już model „dyfuzyjny”, generujący nowe dane (np. filmy) poprzez naukę, jak „zniszczyć” i „odzyskać” istniejące próbki danych. W miarę jak model jest nimi karmiony, staje się lepszy w odzyskiwaniu danych, które wcześniej zniszczył, aby stworzyć nowe dzieła. Google podaje, że Imagen Video został wyszkolony na czternastu milionach par wideo-tekst i sześćdziesięciu milionach par obraz-tekst, a także na publicznie dostępnym zbiorze danych LAION-400M obraz-tekst. W eksperymentach stwierdzono, że Imagen Video może tworzyć filmy w stylu obrazów van Gogha i akwareli. Zespół Imagen Video łączy siły z badaczami stojącymi za Phenaki, innym projektem Google generującym wideo z tekstu.

Produkcje powstające w tych wczesnych, prototypowych wersjach generatorów wideo AI są bardzo dalekie od ideału. Przede wszystkim są jedynie krótkimi sekwencjami ruchomych obrazów. Jest w nich pełno zakłóceń, szumów i aberracji typowych dla kreacji tworzonych przez sztuczną inteligencję. Oba narzędzia trzeba traktować głównie jako zapowiedź przyszłości, w której miałyby powstać rozwiązania pozwalające tworzyć za pomocą AI całe, najpierw krótkometrażowe, potem być może coraz dłuższe i doskonalsze, dzieła filmowe.

Amerykańscy potentaci Big Tech nie są jedynymi ważnymi graczami, którzy nad tym pracują. Chiny również są zainteresowane rozwojem tej techniki a powyższy przykład Alibaby nie jest odosobniony. Na początku 2022 r. grupa chińskich badaczy z Uniwersytetu Tsinghua zademonstrowała system CogVideo, który potrafi przetłumaczyć tekst na krótkie klipy o dość wysokiej jakości.

AI już wszechobecna w świecie produkcji wideo

Jest wiele innych narzędzi wykorzystujących AI do generowania wideo do różnych zadań. Częściowo wykorzystywane są w nich do pewnych zadań prompty tekstowe, ale przede wszystkim opierają się na archiwach gotowych materiałów filmowych, bibliotekach i stockach. Przykłady takich narzędzi to InVideo, które oprócz typowych funkcji edycji i montażu umożliwia też generatywne tworzenie obrazów. Narzędzie o nazwie Fliki może wygenerować scenariusz filmu na podstawie prompta tekstowego. Może też generować treści audio w 78 językach. Inne narzędzie, o swojsko kojarzącej się nazwie - Visla - również potrafi wygenerować zadowalający scenariusz z prostej podpowiedzi. Designs.ai firmy Inmagine to cały pakiet narzędzi do tworzenia wideo, w tym modułów generowania tekstów, logotypów i projektów graficznych.

Spośród narzędzi oferujących moce AI w tworzeniu treści wideo warto wspomnieć też o ShortX, przeznaczonym dla twórców filmików na TikToka, DupDuub wyróżnia się wspomaganymi sztuczną inteligencją funkcjami zamiany tekstu na mowę, co przydaje się twórcom reklam i filmów na YouTube. Pabs przekształca prompt tekstowy w krótkie wideo. Soundraw jest kompozytorem AI, tworzy warstwę dźwiękową w oparciu o wybrane gatunki i nastroje. Opus Clip przetwarza filmy źródłowe na krótkie klipy, odpowiednie do mediów społecznościowych. Wonder Dynamics wyróżnia się funkcją zamiany osób w filmach na animacje w stylu CGI. I w końcu jest Pika - to oparta na sztucznej inteligencji platforma do tworzenia sztuki cyfrowej. Animuje obrazy, które można przetwarzać i wzbogacać promptami tekstowymi. Oferuje narzędzia zarówno dla początkujących, jak i doświadczonych artystów.

Przyszła rywalizacja w tej dziedzinie, tak wciąż wstępnej i początkującej, już teraz wydaje się emocjonująca, choć prawdziwa walka jeszcze się nie zaczęła. Zacznie się, gdy które z narzędzi będzie generować treści o zadowalającej jakości i długości, co być może stworzy przewagę konkurencyjną nad tradycyjnymi metodami produkcji filmowej.

Mirosław Usidus