A(I)BC: wegwijs in de flows voor generative AI-content

Prompt: Kan je een overzicht geven van de verschillende AI–flows voor het genereren van content? Wat is er vandaag allemaal mogelijk in het rijtje text–to-image, text–to-video, enzovoort?

Text–to-Image
Hierbij wordt tekst omgezet in afbeeldingen of illustraties. Dit kan gaan van eenvoudige grafische voorstellingen van tekst tot gedetailleerde afbeeldingen op basis van –gedetailleerde-beschrijvingen.
Bvb.: Dall-E, Midjourney, Stable Diffusion, Google Imagen

Text–to-Video
Text–to-Video-algoritmen zetten geschreven tekst om in videomateriaal. Dit kan variëren van slideshows met afbeeldingen en tekst tot volledig geanimeerde video’s op basis van tekstbeschrijvingen.
Bvb.: Runway Gen-2, Stable Video Diffusion, Pika, Deep Dream Generator

Text–to-Speech
Deze technologie zet geschreven tekst om in gesproken woorden. Dit wordt vaak gebruikt voor het maken van spraakassistenten en het toegankelijker maken van tekstinhoud voor mensen met visuele beperkingen.
Bvb.: Google Cloud Text–to-Speech, Amazon Polly

Speech-to–Text
In plaats van tekst te genereren, zet Speech-to–Text gesproken woorden om in geschreven tekst. Dit wordt vaak gebruikt voor spraakherkenningstoepassingen, zoals transcriptie van spraakopnamen.
Bvb.: Google Cloud Speech-to–Text, IBM Watson Speech to Text

Text–to-Code
Text–to-Code-algoritmen proberen code te genereren op basis van natuurlijke taalbeschrijvingen. Dit kan handig zijn voor het automatiseren van programmeertaken.
Bvb.: OpenAI’s Codex, GitHub Copilot

Image-to–Text
Deze flow doet het omgekeerde van Text–to-Image. Het analyseert afbeeldingen en genereert tekstuele beschrijvingen of labels op basis van wat er in de afbeelding te zien is. Dit wordt vaak gebruikt voor automatische beeldtagging en toegankelijkheid.
Bvb.: Google Cloud Vision, Microsoft Azure Computer Vision

Image-to-Image
Dit type AI-flow zet ene soort afbeelding om in een andere. Bijvoorbeeld het omzetten van zwart-witafbeeldingen in kleur, het schilderen van foto’s in de stijl van beroemde kunstenaars, enzovoort.
Bvb.: DeepArt.io, CycleGAN, Stable Diffusion

Video-to–Text
Video’s kunnen worden geanalyseerd om tekstuele ondertitels of transcripties te genereren. Dit is handig voor videobeschrijvingen en zoekmachineoptimalisatie.
Bvb.: YouTube Automatic Captions, OpenAI‘s Whisper

Video-to-Video
Deze flow slaat op het bewerken of manipuleren van video-inhoud op basis van tekstuele aanwijzingen, zoals het aanpassen van achtergronden, toevoegen van speciale effecten of het verbeteren van de beeldkwaliteit.
Bvb.: Runway ML, DeepAI Video Enhance, Deforum Stable Diffusion

Text–to-Music
Text–to-Music-algoritmen genereren muziek op basis van geschreven tekst of notities. Dit kan variëren van eenvoudige deuntjes tot het componeren van complexe muziekstukken.
Bvb.: OpenAI’s MuseNet, Amper Music

Text-to-Chatbot
Deze technologie wordt gebruikt om geautomatiseerde chatbots te creëren die op basis van tekstuele input “mensachtige” gesprekken kunnen voeren.
Bvb.: Dialogflow, IBM Watson Assistant

Image-to-3D
In deze formule worden 2D-afbeeldingen omgezet in 3D-modellen, wat nuttig kan zijn in 3D-modellering en game-ontwikkeling.
Bvb.: Nerfstudio, Meshroom, RealityCapture, Luma AI

De AI-flows en –tools groeien momenteel aan een sneltreintempo aan. Wij houden voor jou de vinger aan de pols, en verzamelen onze tests en bevindingen zo overzichtelijk mogelijk.
Bekijk hier jullie favorieten.