Словарь терминов ИИ‑видео: от Diffusion до RIFE
Что такое ИИ‑видео и зачем нужен словарь
ИИ для видео — это набор методов и инструментов, позволяющих генерировать, стилизовать, улучшать или преобразовывать ролики при помощи нейросетей. Новичков часто отпугивают «магические» слова и сокращения. Этот словарь собирает ключевые термины ИИ‑видео, объясняет логику под капотом и помогает быстро разобраться, как выбрать подходящий генератор, параметры и рабочий процесс.
Полезно начать с практики: посмотрите наше руководство как создать ИИ‑видео и обзор видео с помощью ИИ. Для обзора софта — раздел генераторы ИИ‑видео, а если хотите начать без бюджета — гид бесплатно: ИИ‑видео.
Базовые принципы: Diffusion, VAE, UNet и временное внимание
Большинство современных моделей используют диффузию (Diffusion). Идея простая: мы учим сеть шаг за шагом превращать шум в осмысленное изображение или видео по заданному тексту/референсу.
- VAE (Variational Autoencoder) сжимает кадры в скрытое пространство (latents), ускоряя вычисления.
- UNet — архитектура, которая «чистит» шум. В видео‑моделях UNet дополняют временным вниманием (temporal attention), чтобы кадры «слышали» друг друга и сохраняли целостность объектов.
- Video Diffusion: диффузия применяется к 3D‑тензору (время × высота × ширина), часто в скрытом пространстве. Вариант от Stability — SVD (Stable Video Diffusion).
![Схема диффузии в видео: шум → UNet+VAE → кадры с согласованным движением]
Ключевое отличие от картинок — временная согласованность. Без специальных трюков (оптический поток, пропагация сидов, attention по времени) ролики «мерцают» или «плывут».
Аббревиатуры и форматы (T2V, I2V, V2V, SVD, RIFE)
Короткий словарь видео ИИ по типам задач и компонентам:
| Сокращение/термин |
Что это |
Где встречается |
| T2V (Text‑to‑Video) |
Генерация видео из текста |
Runway, Pika, SVD, коллабы и облачные сервисы |
| I2V (Image‑to‑Video) |
«Оживление» картинки в короткий клип |
Stable Video Diffusion, Pika, I2V‑моды |
| V2V (Video‑to‑Video) |
Стилизация/перегенерация по входному видео |
Deforum, AnimateDiff, коммерческие T2V |
| SVD |
Stable Video Diffusion от Stability |
I2V/T2V пайплайны |
| RIFE |
Real‑Time Intermediate Flow Estimation — интерполяция кадров |
Увеличение FPS, плавный слоу‑мо |
| CFG / Guidance |
Сила следования промпту (Classifier‑Free Guidance) |
Любые диффузионные пайплайны |
| Seed |
Начальное значение генератора случайностей |
Фиксация результата/вариации |
| Sampler |
Алгоритм обратной диффузии (DDIM, DPM++, Euler…) |
Контроль скорости/качества |
| LoRA |
Лёгкая донастройка модели под стиль/персонажа |
Перенос стиля и персонажей |
| ControlNet |
Управление композицией: поза, контур, глубина |
Стабильная геометрия и движение |
| LCM |
Latent Consistency Models — ускорение генерации |
Меньше шагов при сопоставимом качестве |
| IP‑Adapter |
Подмешивание референс‑изображений |
Стиль/идентичность, референсы |
Если вы «оживляете» фото — загляните в видео из фото (ИИ). Для сравнений подходов — раздел сравнение workflows.
Ключевые параметры генерации: seed, guidance/CFG, steps, sampler, fps
Выбор параметров решает всё — от стабильности до динамики.
- Seed (сид): число, задающее исходный шум. Один и тот же seed при прочих равных даёт повторяемый результат. В видео важно, как сид «ведёт себя» между кадрами: фиксирован для всего клипа или меняется по кадрам.
- Guidance / CFG scale: насколько жёстко модель следует промпту. Низкий CFG — больше реализма, меньше соответствия тексту. Высокий CFG — меньше реализма, но «послушнее» по описанию. Часто хорошие диапазоны: 3.5–7 для видео.
- Steps: сколько шагов «очистки» шума. Больше шагов — потенциально лучше качество и стабильность, но дольше рендер.
- Sampler: способ обратной диффузии. Популярны DPM++ 2M Karras (баланс), DDIM (быстро), Euler (детали), Heun (стабильность). Для видео часто рекомендуют семейство DPM++.
- Resolution / AR: итоговое разрешение и соотношение сторон. Видео‑модели любят кратные значения (например, 576×1024).
- FPS: кадры в секунду. Генерация 8–12 FPS + RIFE до 24–30 FPS — типичный практический компромисс.
- Strength (I2V/V2V): степень перезаписи исходного сигнала. Меньше — ближе к источнику, больше — сильнее творческая перегенерация.
- Motion/Camera scale: в некоторых UI — «амплитуда» движения камеры/сцены.
Нужны готовые пресеты и формулировки? Откройте подборку промптов для ИИ‑видео.
Что значит seed guidance video?
Запрос «что значит seed guidance video» появляется в интерфейсах генераторов, где нужен контроль стабильности от кадра к кадру.
Разберём по частям:
- Seed — начальный шум. В видео важно не только значение, но и то, как он переносится между кадрами.
- Guidance — «наводка» или «сила следования». В контексте диффузии это чаще CFG, но в видео есть отдельный механизм guidance именно для распространения шума/структуры во времени.
Seed Guidance Video — это метод/параметр, который:
- Пропагирует (передаёт) шум от кадра к кадру, часто с учётом оптического потока. Проще: берём сид/шум предыдущего кадра, «перетаскиваем» его на следующий в соответствии с движением в видео, а затем доочищаем диффузией.
- Управляет силой этой «наводки» (сколько брать из предыдущего кадра vs. сколько вносить нового шума). В UI это может быть слайдер 0–1 или 0–100.
Практика:
- 0 (или низко): независимый шум на каждом кадре — больше мерцания, но больше новизны.
- 0.5–0.8: компромисс — лицо и предметы стабильны, движения читаются, меньше фликера.
- 1 (или высоко): максимальная согласованность — минимум новизны, возможна «залипшая» текстура.
Где встречается: Deforum/Automatic1111, SVD‑пайплайны, облачные T2V, плагины с оптическим потоком. Сравнить различные подходы можно в разделе сравнение workflows.
Совет: для портретов начните с 0.6–0.75; для динамичных сцен — 0.3–0.5; под анимацию с сильными деформациями — пробуйте ниже 0.4 и повышайте steps/CFG.
Модели и модули: RIFE, ControlNet, LoRA, LCM, IP‑Adapter
Коротко о популярных «кирпичиках» ИИ для видео:
- RIFE (Real‑Time Intermediate Flow Estimation): модель интерполяции кадров. Увеличивает FPS (например, 12 → 24/48) и делает слоу‑мо плавнее. Не генерирует новый контент — лишь вставляет промежуточные кадры по оценённому движению.
- ControlNet: даёт контроль над композицией через карты глубины, позы, контуры, нормали. В видео помогает держать форму объектов и крупной геометрии.
- LoRA: лёгкие дообученные «слои» для стиля/персонажей. Удобны для фирменного визуального языка или стабильной внешности героя.
- IP‑Adapter: позволяет смешивать текст и референс‑изображения для стилистической/идентичной консистентности.
- LCM: ускорители диффузии, требующие меньше шагов без сильной потери качества.
Примерный выбор:
| Модуль |
Когда использовать |
| RIFE |
Нужно удвоить FPS или сделать слоу‑мо без пересчёта всего ролика |
| ControlNet |
Нужна точная поза/контур/глубина, меньше «плавания» форм |
| LoRA |
Фирменный стиль, персонажи, единый визуальный язык |
| IP‑Adapter |
Добавить референсы стиля/лица к текстовому промпту |
| LCM |
Ускорить рендер клипов/итераций на черновой стадии |
Пайплайны (workflows) ИИ для видео: от черновика до финального ролика
Типичный рабочий процесс:
- Черновая генерация: T2V/I2V в низком разрешении (например, 576×1024, 8–12 FPS), подберите seed/CFG и проверьте динамику. См. как создать ИИ‑видео.
- Стабилизация контента: настройте seed guidance video и/или ControlNet для геометрии.
- Повышение FPS: RIFE до 24–30 (иногда до 60 для особо плавных сцен).
- Апскейл и супер‑резолюция кадров: апскейлеры/VideoSR. Для сравнения подходов — сравнение workflows.
- Цвет/шум/деталь: лёгкая пост‑обработка (debanding, лёгкий sharpen), грейдинг.
- Озвучка/музыка/субтитры: синтез речи/музыки, тайминг.
- Финальный экспорт: кодеки (H.264/H.265/VP9/AV1), битрейт, профили.
Хотите минимизировать софт? Используйте облачные генераторы ИИ‑видео или подберите решения из списка российские сервисы ИИ‑видео.
Качество и артефакты: как читать термины и что с ними делать
- Temporal consistency (временная согласованность): степень стабильности объектов между кадрами. Повышают: seed guidance video, temporal attention, ControlNet, меньше strength.
- Flicker (мерцание): случайные изменения текстур/света. Решения: повысить steps, усилить seed guidance, сгладить экспозицию.
- Ghosting (призраки): двойные контуры при быстром движении/интерполяции. Решения: снизить агрессивность RIFE, уменьшить motion blur, пере‑рендер.
- Warping/Jitter (плавание/дребезг): деформация форм. Решения: карты глубины/позы в ControlNet, уменьшить strength, повысить разрешение.
- Object drift (дрейф объекта): лицо/логотип «съезжает». Решения: фиксировать сид, усилить guidance, использовать трекинг в посте.
- Lipsync/phoneme mismatch: несинхрон губ и речи. Решения: специализованные липсинк‑модели поверх сгенерированного видео.
- Метрики: FVD (Fréchet Video Distance), LPIPS — научные метрики близости качества; в практике важнее «человеческая» оценка сцены.
Частые вопросы и короткие ответы собраны в разделе FAQ по ИИ‑видео.
Право и безопасность: deepfake, NSFW, watermarking, лицензии
С ростом качества растут и риски. Ключевые термины:
- Deepfake: подмена лица/голоса. Требует согласия изображённого лица и соблюдения закона.
- Consent (согласие): юридически и этически обязательный аспект при использовании реальных персон.
- NSFW классификаторы: фильтры, блокирующие нежелательный контент.
- Watermarking: водяные знаки/метаданные, помогающие идентифицировать ИИ‑контент.
- Лицензии датасетов/моделей: определяют, можно ли использовать результат коммерчески.
Подробно о рисках, ответственности и практике — в материале Порно‑ИИ‑видео: риски и закон.
Где продолжить: сервисы, генераторы, промпты и FAQ
![Пример пайплайна: T2V → стабилизация → RIFE → апскейл → цвет → экспорт]
Вывод и следующий шаг
Теперь вы понимаете базовую механику диффузии, роль VAE/UNet, чем T2V отличается от I2V/V2V, зачем нужны RIFE и ControlNet, и что именно означает seed guidance video для временной стабильности. С таким словарём вы быстрее подберёте параметры и соберёте надёжный воркфлоу.
Готовы применить на практике? Начните с простого сценария в руководстве как создать ИИ‑видео и подберите площадку в разделе генераторы ИИ‑видео. Экспериментируйте с seed, CFG и RIFE, чтобы найти свой идеальный баланс между креативом и стабильностью.