Die Macher des KI-Bildgenerators Stable Diffusion, der u.a. anhand des LAION-5B Datensatzes mit Bilder trainiert wurde, deren Urheber nicht gefragt wurden, steigt jetzt mit Stable Video Diffusion in den Bereich der generativen KI-Videos ein. Das KI-Videomodell basiert auf dem Bildmodell Stable Diffusion und steht ab sofort für die Wissenschaft zur Verfügung. Laut Stability AI ist das Modell so konzipiert, dass es an verschiedene Videoanwendungen angepasst werden kann, einschließlich der Synthese mehrerer Ansichten aus einem einzigen Bild. Auch sollen Datensätze mit mehreren Ansichten feinabgestimmt werden.
Stable Video Diffusion ist in zwei Versionen erhältlich, die 14 (SVD) und 25 Bilder (SVD-XT) bei Bildraten zwischen drei und 30 Bildern pro Sekunde erzeugen können und das bei einer Auflösung von 576×1024 Pixeln. Noch seien nach Angaben der Entwickler die generierten Videos recht kurz (vier Sekunden), und das Modell erreiche auch keinen perfekten Fotorealismus. Derzeit ist es ausschließlich für Forschungszwecke und nicht für reale oder kommerzielle Anwendungen vorgesehen. Wer die Stable Video Diffusion nutzen möchte, muss sich an Stability AI wenden, um den Zugang zur Warteliste zu beantragen.
Aber wie schon bei den Fotos (wir sind mit unserer Bildagentur und Magazinen selbst betroffen vom LAION-5B Crawl – Link), ist die Quelle der Daten auch bei den Videos ein heikles Thema. Für sein Videomodell hat Stability AI lediglich angegeben, dass es „öffentlich zugängliche“ Daten verwendet hat. Dies ist ein gängiger Begriff, den Unternehmen für künstliche Intelligenz verwenden, um zu beschreiben, woher sie ihre Trainingsdaten beziehen.
Laut Experten will man mit Stable Video Diffusion versuchen, mit Unternehmen wie Runway ML in einem Markt zu konkurrieren, der sich nicht in dem Maße entwickelt hat, wie es bei KI-Bildern der Fall war. Dies liegt vor allem daran, dass die Qualität der Technologie noch nicht ausgereift ist, aber es ist wahrscheinlich, dass sie sich in den kommenden Jahren erheblich verbessern wird. Neben den offensichtlichen Vorteilen für die Medienerstellung besteht aber die Gefahr für Deepfakes und Urheberrechtsverletzungen.