Réaliser des vidéos IA : prompts, plans, personnages et montage


Se perfectionner à la réalisation vidéo IA en maîtrisant l'ensemble du workflow : prompts text-to-video et image-to-video, cohérence des personnages et des plans, génération audio, montage et diffusion.
2 jours / 14 heures
Prix : 1 600 € HT
Réf. : I09

Compétences visées

Concevoir et produire des séquences vidéo IA exploitables en maîtrisant l'ensemble du workflow de réalisation : construction d'un kit de production, écriture de prompts vidéo adaptés aux différents modes de génération (text-to-video, image-to-video, frames-to-video, video-to-video), maintien de la cohérence visuelle entre les plans, intégration de l'audio et livraison en formats adaptés à la diffusion professionnelle et aux réseaux sociaux.

Objectifs

  • Identifier les principales évolutions de la génération vidéo par IA (image-to-video, text-to-video, video-to-video)
  • Distinguer les logiques de fonctionnement et de production des modèles vidéo IA
  • Structurer efficacement un prompt visuel ou textuel pour obtenir un résultat cohérent et stylisé
  • Expérimenter la génération vidéo à partir d’images, de texte ou de vidéos existantes
  • Appliquer des techniques de personnalisation, d’optimisation et d’adaptation multi-plateformes
  • Évaluer la qualité d’une vidéo générée selon des critères esthétiques, narratifs et techniques

Public concerné

Cette formation s'adresse aux créatifs (directeurs artistiques, graphistes…) et aux professionnels de la communication et du marketing qui génèrent déjà des contenus avec des outils d'IA générative et souhaitent structurer une méthode de production vidéo complète et exploitable.

Prérequis

Il est nécessaire d'avoir une pratique régulière des outils d'IA générative, en particulier de la génération d'images, pour suivre cette formation. Une bonne culture visuelle et une aisance informatique générale sont également requises.

Programme

Comprendre le nouvel écosystème vidéo IA et identifier les outils adaptés à chaque cas d'usage

  • Situer les évolutions récentes de la génération vidéo IA : du clip isolé au workflow professionnel combinant images sources, références de personnages, première et dernière frame, objets récurrents, audio, montage et diffusion multi-formats
  • Distinguer les positionnements des outils principaux : Veo et Kling pour la cohérence visuelle, les références, le format vertical et l'audio natif ; Seedance pour le contrôle du mouvement et l'itération ; Luma et RunwayML pour les alternatives créatives ; CapCut pour le montage et la finalisation
  • Identifier les cas d'usage pertinents : film d'intention, produit, social ad, scène narrative, cinemagraph, vidéo verticale
  • Analyser une vidéo IA de manière inversée : décrypter le style, la lumière, le rythme, le mouvement de caméra et l'ambiance pour en reconstituer la logique de construction

→ Atelier : choisir et justifier l'outil adapté à six cas d'usage distincts

Construire un prompt vidéo structuré et adapté au mode de génération visé

  • Comprendre ce qui distingue un prompt vidéo d'un prompt image : le prompt vidéo décrit ce qui change dans le temps, pas seulement ce que l'on voit
  • Distinguer les quatre modes de génération et leurs logiques respectives : text-to-video, image-to-video, frames-to-video et video-to-video
  • Identifier et hiérarchiser les composantes d'un prompt vidéo efficace : plan, sujet, action, environnement, mouvement de caméra, rythme, durée, ambiance sonore, intention
  • Évaluer quand décrire toute la scène et quand ne décrire que le mouvement
  • Repérer et éviter les erreurs fréquentes : prompts trop longs, contradictoires ou impossibles à exécuter
  • Utiliser Claude, ChatGPT ou Gemini pour structurer, affiner et hiérarchiser ses prompts vidéo en amont de la génération

→ Atelier : transformer une idée vague en 5 prompts de plans distincts (plan fixe, travelling, orbite, caméra portée, zoom dramatique)

Préparer les images sources nécessaires à une production cohérente et réutilisable

  • Identifier pourquoi la cohérence se construit avant la génération vidéo : personnage, décor, objet, matière, lumière, première et dernière frame doivent être préparés comme des ingrédients de production
  • Créer des images sources stables avec Gemini + Flow et ChatGPT Images
  • Préparer un personnage récurrent : consistance du visage, de la morphologie et du style visuel
  • Construire un décor réutilisable et définir les caractéristiques visuelles fixes d'un objet récurrent
  • Définir et fixer les constantes de production : palette, focale, lumière et style de mouvement
  • Préparer une première et une dernière frame pour anticiper les transitions entre les plans

→ Atelier : constituer un kit de production vidéo IA (1 personnage, 1 décor, 1 objet, 3 images sources et une intention de mouvement)

Générer une séquence vidéo cohérente à partir d'un kit de production organisé

  • Comprendre ce qui distingue un plan isolé d'une séquence : la continuité visuelle, les raccords, le rythme et la répétition contrôlée des constantes sont le vrai sujet
  • Expérimenter les outils de génération et de contrôle : start frames, end frames, ingrédients visuels, références, extensions, variations et régénérations ciblées
  • Organiser une séquence courte : ordre des plans, continuité visuelle, raccords, variations utiles
  • Appliquer une méthode d'itération rigoureuse : tester court, comparer, corriger, sélectionner et (seulement ensuite) produire la version finale

→ Atelier : produire une séquence de 3 plans cohérents à partir du kit de production pré-constitué 

Intégrer une dimension sonore et des sous-titres pour produire une vidéo exploitable

  • Comprendre pourquoi une vidéo IA sans audio reste une démo : toute vidéo livrable demande une intention sonore (ambiance, bruitage, dialogue, voix off, musique, silence, respiration)
  • Identifier les trois approches possibles selon les outils : audio généré nativement, préparé à part ou ajouté au montage
  • Préparer un prompt d'audio et créer une intention sonore cohérente avec la séquence visuelle
  • Générer ou intégrer voix off, bruitages et musique avec ElevenLabs, Suno et Flow Music
  • Adapter la durée de chaque plan au rythme réel de l'action et à l'intention sonore
  • Ajouter des sous-titres à la séquence avec CapCut (ou équivalent)

→ Atelier : ajouter une couche sonore complète et des sous-titres à la séquence produite

Contrôler la qualité d'une séquence vidéo IA et la livrer en formats adaptés à la diffusion

  • Inspecter une vidéo IA avant diffusion : cohérence du personnage, stabilité des mains et des visages, lisibilité de l'action, artefacts, droits des images sources, mentions IA, watermark, formats, compression, sous-titres, accessibilité
  • Appliquer une grille de validation structurée sur ces critères
  • Produire les formats de diffusion : master 16:9, version 9:16 et déclinaisons courtes pour les réseaux sociaux
  • Constituer un mini-pack de livraison complet : master, versions déclinées, sous-titres, prompts sources, note de traçabilité, grille de validation
  • Intégrer les obligations de transparence et les bonnes pratiques liées à l'AI Act

→ Atelier final : livrer un mini-pack campagne avec 1 master 16:9, 1 version 9:16, sous-titres, note de traçabilité et checklist de diffusion

Artistes / Auteurs affiliés à la maison des artistes ?

Découvrez nos conditions préférentielles

Évaluation

L'atteinte des objectifs
a été évaluée par les apprenants à
5
/5
Moyenne des résultats obtenus depuis
début 2023

Profil de l’intervenant

Directeur de création avec 3 ans d’expérience en animation de formation.

Ressources

  • Supports de cours dématérialisés
  • Abonnement de 3 mois à tuto.com
  • Accès illimité par mail à la hotline Swash
Image
Tuto.com
Chaque participant bénéficie de 3 mois d'abonnement à tuto.com

Partager :

Image

Découvrez Swash #3

Notre offre, des chiffres et toujours un peu de lecture !

Modalités en présentiel

Parcours pédagogique :

Questionnaire de positionnement 2 jours en présentiel Évaluation des acquis

Méthode pédagogique :

Expositive + interrogative + démonstrative : exposés théoriques, démonstrations, exercices, feedbacks personnalisés

Moyens techniques :

  • 1 poste par participant, fourni par nos soins, équipé des comptes et abonnements utiles
  • Poste de l’intervenant relié à un grand écran ou vidéoprojecteur

Modalités en distanciel

Pour des raisons techniques et pédagogiques, cette formation est proposée exclusivement en présentiel.

Méthodes d'évaluation

  • Validation des acquis pendant la formation grâce à des études de cas et des exercices pratiques
  • Suivi d'acquisition des objectifs pédagogiques par l'intervenant
  • Évaluation à chaud (remplie en fin de formation) et à froid (à 60 jours)

Pourquoi suivre une formation "Réaliser des vidéos IA : prompts, plans, personnages et montage" ?

•••

Générer un clip avec Seedance, Kling ou Google Veo ne prend que quelques secondes. Cette formation vidéo IA pour créatifs part de ce constat pour aller plus loin : produire une séquence cohérente, diffusable et adaptée à un usage professionnel réel, c’est une autre affaire. La plupart des créatifs qui s’y confrontent butent sur les mêmes obstacles : un personnage qui change de visage d’un plan à l’autre, une transition impossible à raccorder, un résultat visuellement intéressant mais inutilisable sans audio ni sous-titres, et aucune méthode pour itérer efficacement sans relancer tout à zéro.

Cette formation vidéo IA est conçue pour passer de l’expérimentation isolée à un workflow de production structuré. En deux jours, elle couvre l’ensemble de la chaîne : choix des outils selon le cas d’usage, préparation des images sources, écriture de prompts adaptés aux quatre modes de génération (text-to-video, image-to-video, frames-to-video, video-to-video), maintien de la cohérence visuelle sur plusieurs plans, intégration de l’audio et livraison en formats adaptés à la diffusion.

Seedance, Veo, Kling : lequel choisir ?

C’est souvent la première question que se posent les créatifs qui abordent la vidéo IA. La réponse dépend de ce qu’on cherche à produire.

Google Veo et Kling se distinguent sur la cohérence visuelle, la gestion des références de personnages, les formats verticaux et la génération audio native. Ils sont particulièrement adaptés aux productions qui exigent une continuité d’un plan à l’autre.

Seedance offre un contrôle plus fin du mouvement et facilite l’itération : tester plusieurs variantes d’un même plan, comparer, corriger et sélectionner avant de produire la version finale.

Luma et RunwayML couvrent des alternatives créatives utiles selon les cas d’usage, notamment pour des effets stylistiques ou des transformations de vidéos existantes (video-to-video).

CapCut intervient en bout de chaîne pour le montage, la finalisation, l’ajout de sous-titres multilingues et l’adaptation aux contraintes des plateformes.

La formation compare ces outils sur des cas d’usage concrets (social ad, film de produit, scène narrative, cinemagraph, vidéo verticale) pour que chaque participant sache lequel mobiliser selon sa production.

À qui s’adresse cette formation ?

Cette formation s’adresse aux graphistes, directeurs artistiques, motion designers et professionnels de la communication et du marketing qui utilisent déjà des outils d’IA générative pour la production d’images et souhaitent structurer une méthode de production vidéo complète.

Elle est conçue pour celles et ceux qui ont dépassé le stade de la découverte : ils ont généré des clips, testé quelques prompts, mais n’ont pas encore de méthode pour produire une séquence exploitable de bout en bout. Elle convient également aux chefs de projet et responsables de contenu qui intègrent la vidéo IA dans leur stratégie de diffusion sur les réseaux sociaux et ont besoin de maîtriser les formats, les contraintes algorithmiques et les obligations de transparence liées à l’AI Act.

Le prérequis est réel : une pratique régulière des outils d’IA générative, en particulier de la génération d’images, est nécessaire. Sans cette base, le rythme de la formation (± 70 % de pratique guidée) sera difficile à suivre.

Ce que la formation change dans la pratique

Construire un kit de production réutilisable

Avant de générer quoi que ce soit, la formation apprend à préparer les « ingrédients » : images sources stables créées avec ChatGPT Images et Gemini + Flow, personnage récurrent avec une consistance visuelle garantie d’un plan à l’autre, décor réutilisable, palette, focale et intention de mouvement définis en amont. C’est ce travail préparatoire qui conditionne la cohérence de la séquence finale, pas la qualité du prompt au moment de la génération.

Écrire des prompts vidéo qui décrivent ce qui change dans le temps

Un prompt vidéo efficace ne fonctionne pas comme un prompt image. Il décrit ce qui se transforme dans la durée : action du sujet, mouvement de caméra, rythme, transitions, ambiance sonore. La formation couvre les quatre modes de génération et la façon d’adapter la structure du prompt à chacun : quand décrire toute la scène, quand ne décrire que le mouvement, comment éviter les prompts trop longs ou contradictoires. Claude, ChatGPT et Gemini sont utilisés en amont comme outils de structuration et d’affinage.

Intégrer l’audio comme composante de production

Une séquence sans audio reste une démo. La formation aborde la construction d’une intention sonore complète (ambiance, bruitage, voix off, musique, silence, respiration) et sa traduction en prompt d’audio. ElevenLabs, Suno et Flow Music sont utilisés en atelier pour générer et intégrer ces éléments à la séquence produite.

Livrer un format professionnel

La formation se conclut par un atelier de livraison : master 16:9, version 9:16, déclinaisons courtes pour les réseaux sociaux, sous-titres, note de traçabilité, grille de validation. Les questions de droits sur les images sources, de mentions IA, de watermark et d’accessibilité sont traitées dans ce module, avec les obligations liées à l’AI Act.

Format et modalités

Cette formation est proposée en inter-entreprises, en présentiel à Paris. Chaque participant dispose d’un poste fourni, équipé des accès nécessaires aux outils utilisés pendant la session. Pour des raisons techniques et pédagogiques, elle n’est pas proposée en distanciel.

Elle peut être organisée en intra, adaptée aux projets et aux outils de votre équipe. Pour en discuter : privatiser cette formation.

FAQ

Les outils sont-ils mis à jour entre les sessions ? Oui. La liste des outils est actualisée avant chaque session pour intégrer les évolutions de l’écosystème. Le socle pédagogique repose sur des principes de réalisation transférables, pas sur une interface unique.

Faut-il disposer d’abonnements aux outils avant la formation ? Non. Les postes sont fournis par Swash avec les accès nécessaires.

La formation couvre-t-elle les questions de droits et de transparence IA ? Oui. Le dernier module traite des droits sur les images sources, des mentions IA, du watermark, de l’accessibilité et des obligations liées à l’AI Act.

Cette formation est-elle proposée en distanciel ? Non. Pour des raisons techniques et pédagogiques, elle est proposée exclusivement en présentiel.

La formation est-elle finançable par mon OPCO ? Swash est un organisme de formation certifié Qualiopi. Une prise en charge par votre OPCO peut être envisageable selon votre statut et votre secteur. Les modalités sont détaillées sur la page dédiée au financement.

Lire plus

Dernière mise à jour le 6 mai 2026