The Seedance 2.0 Prompting Bible, как да спреш да правиш AI video slop

Повечето хора обвиняват модела, когато AI видеото им изглежда евтино. Истинският проблем често е в prompt архитектурата.

The Seedance 2.0 Prompting Bible, как да спреш да правиш AI video slop

The Seedance 2.0 Prompting Bible, как да спреш да правиш AI video slop

Честно казано, това е един от най-полезните материали, които съм виждал напоследък за AI video.

Не защото обещава магия. Не защото продава поредния shortcut. А защото показва нещо, което много хора още не са разбрали:

проблемът рядко е само в модела, проблемът често е в начина, по който му говориш.

И точно тук повечето хора губят.

Пускат Seedance 2.0, Veo, Kling, Sora или какъвто и да е модел, хвърлят едно общо описание в prompt полето, после се чудят защо резултатът изглежда евтин, трепери, сменя идентичност, чупи крайници или просто мирише на AI от километър.

Истината е проста.

Ако искаш cinematic output, не можеш да пишеш prompt-и като човек, който търси в Google. Трябва да пишеш като човек, който режисира сцена.

Голямата идея

Seedance 2.0 не трябва да се мисли като text-to-video играчка. По-полезната рамка е да го мислиш като multimodal film set.

Тоест не просто пишеш какво искаш да се случи. Можеш да зададеш: - персонаж - действие - камера - осветление - стил - ограничения - референтни изображения - референтно видео - дори аудио контекст

И ако не използваш тази логика, реално ползваш малка част от инструмента, докато очакваш резултат като от цяла продукция.

Това е причината толкова много хора да получават slop. Не защото моделът не може. А защото prompt архитектурата им е слаба.

Най-важната рамка, 5-слойният prompt stack

Най-полезният модел за мислене според мен е този:

```text subject > action > camera > style > constraints ```

Това не е просто подредба за удобство. Това е логика.

  • Subject казва на модела кое е централното нещо в кадъра.

  • Action му казва какво реално се случва.

  • Camera му казва откъде гледаме това действие.

  • Style задава атмосферата и визуалния език.

  • Constraints държат кадъра стабилен и намаляват типичните артефакти.

Когато тези 5 слоя са разбити ясно, резултатът става по-предвидим. Когато са смесени в една каша, моделът започва да гадае. А когато моделът гадае, почти винаги личи.

1. Subject, не казвай “a woman”, режисирай човека

Една от най-големите грешки е прекалено общият subject.

Лошо:

```text a woman ```

По-добре:

```text a young woman with brown hair ```

Много по-добре:

```text a woman in her late 20s, tight dark curls at ear length, small silver hoop in left ear, wearing a fitted black turtleneck, neutral expression ```

Причината е проста. Всичко, което не уточниш, моделът ще си го измисли.

И точно там идват generic лицата, плаващите дрехи, случайните аксесоари и чувството, че виждаш “още един AI кадър”.

Ако искаш консистентност, specificity не е бонус. Тя е задължителна.

2. Action, описвай движение, не настроение

Тук много хора се чупят.

Пишат неща като:

```text she looks happy and is enjoying the sunset ```

Това звучи красиво, но е лоша инструкция. Защото описва усещане, не изпълнимо действие.

По-добре:

```text she slowly turns toward the camera, breeze lifting the hem of her skirt, eyes narrowing against the light ```

Това вече е нещо, което моделът може да изпълни като последователност.

Много важно правило: разделяй движението на субекта от движението на камерата.

Лошо:

```text spinning camera around a dancing person ```

По-добре:

```text the dancer spins slowly, camera holds fixed framing ```

Когато двете движения са слети в едно изречение, моделът често се обърква кой точно трябва да се движи и започва визуалният хаос.

3. Camera, моделът има нужда от кино език

Това е частта, която най-много вдига качеството.

Повечето хора не описват камерата добре. Пишат общи неща като “cinematic shot” и се надяват моделът да измисли останалото.

По-добре работят ясни camera cues като:

```text static wide slow push-in dolly out pan right tracking shot orbit shot handheld gimbal rack focus ```

Още нещо важно. Не тъпчи prompt-а с технически фото спецификации само защото звучат професионално. В много случаи моделът реагира по-добре на descriptive camera language, отколкото на сухи стойности за lens, ISO или f-stop.

Има и един капан, който много хора пропускат.

Ако и subject-ът е бърз, и камерата е бърза, и сцената е претрупана, шансът за jitter и artifact-и скача много.

Затова, ако ще има speed, обикновено само един елемент трябва да бъде fast. Останалото трябва да остане стабилно.

4. Style, lighting е по-важно, отколкото повечето хора мислят

Ако трябва да добавиш само едно нещо към слаб prompt, много често това трябва да е lighting.

Примери за силни style и lighting anchors:

```text golden hour rim light soft key from 45 degrees overcast daylight volumetric fog chiaroscuro cinematic film tone, 35mm anamorphic lens flare ```

Една важна идея тук е, че vague думи почти не помагат.

Например:

```text cinematic ```

само по себе си е твърде широко.

Но нещо такова е далеч по-полезно:

```text cinematic film tone, 35mm, warm golden lighting ```

Тоест не казвай на модела как искаш зрителят да се чувства. Казвай му какво камерата трябва да вижда.

5. Constraints, това е слоят, който спасява output-а

Точно тук много хора подценяват силата на prompt-а.

А после се чудят защо лицето drift-ва, ръцете се чупят или картината трепти.

Практични constraint-и, които си струва да се повтарят:

```text avoid jitter avoid bent limbs avoid identity drift avoid temporal flicker maintain face consistency no distortion, no stretching ```

И един много полезен quality suffix:

```text sharp clarity, natural colors, stable picture, no blur, no ghosting, no flickering ```

Не звучи поетично. Но често работи.

Думи, които звучат добре, но развалят кадъра

Ето това ми е един от любимите practically useful уроци.

Някои думи са добри за marketing copy, но лоши за generative video prompting.

Например:

```text fast epic beautiful stunning cinematic glow glimmer glints lots of movement ```

Проблемът не е, че са забранени. Проблемът е, че са прекалено неясни или провокират грешен тип визуално поведение.

Например: - fast често кара твърде много елементи да ускорят едновременно - cinematic без контекст е прекалено празно - beautiful и stunning са оценка, не инструкция - glow / glimmer / glints често водят до flicker - lots of movement почти моли модела да създаде хаос

Ако една дума описва как зрителят трябва да се чувства, вместо какво трябва да види камерата, шансът да е слаб prompt token е голям.

Time-coded prompting, тук вече не пишеш prompt, а режисираш мини сцена

Това е може би най-силната част.

Когато искаш 10-15 секундно видео, можеш да мислиш в shot progression, а не в едно общо описание.

Пример:

```text [0-4s]: wide establishing shot, static camera, misty bamboo forest at dawn, golden hour light filtering through leaves [4-9s]: medium shot, slow push-in, the fighter steps forward, white silk kimono billowing, determined expression [9-15s]: close-up, orbit shot, the fighter strikes, slow motion, impact visible in the fabric ripple ```

Това рязко вдига шанса моделът да разбере какво трябва да става във времето.

Особено силен шаблон е този:

```text wide > tighter > tight > closest ```

Което на практика е мини filmmaking escalation arc вътре в един generation window.

@ reference system, това е разликата между prompt и production

Ако искаш резултат, който не крещи AI, референциите са огромна част от играта.

Вместо просто да пишеш текст, използваш роли за всеки asset:

```text @Image1 as character reference @Image2 as environment reference @Video1 for camera motion reference @Audio1 as background music ```

Това променя всичко.

Особено силен е first-last frame подходът:

```text @Image1 as desired first frame @Image2 as desired last frame ```

След това описваш какво се случва между тях. Така моделът не просто халюцинира началото и края, а има две ясни визуални опори.

Един practical framework, който си струва да пазиш

Ако правиш AI video за реклами, UGC, product demo или cinematic scenes, аз бих тръгнал така:

Framework

1. Опиши subject-а максимално конкретно 2. Напиши едно основно действие в present tense 3. Определи една основна camera movement логика 4. Добави lighting и style anchors 5. Добави constraints за стабилност 6. Ако сцената е по-сложна, разбий я по секунди 7. Ако имаш референции, маркирай ролята на всяка 8. Итерирай само по една променлива наведнъж

Това последното е много важно.

Хората често провалят generation, после пренаписват всичко. Subject, camera, style, lighting, pacing, всичко наведнъж.

Така никога не разбираш какво е счупило кадъра и какво го е оправило.

По-добре: - правиш 2-3 baseline версии - сменяш само едно нещо - гледаш кое влияе най-силно - повтаряш

Това е скучно. Но работи.

5 prompt шаблона, които можеш да ползваш веднага

1. Talking head / UGC

```text 15 seconds UGC style review video, filmed on smartphone, natural bedroom window lighting, casual handheld selfie angle, a young woman with brown hair pulled back, natural skin with visible texture, wearing a casual grey t-shirt, in her cozy bedroom, she holds a product up to the camera with genuine excitement, quick jump cut slightly closer angle, she applies it showing the texture, jump cut she leans into the camera with a natural smile, the lighting is soft natural daylight no ring light no filters, direct phone mic audio room ambience natural voice ```

2. Luxury product hero

```text ultra cinematic 15-second luxury product commercial, smooth continuous sequence elegant pacing, fluid cinematic glide macro dolly plus soft orbit plus gentle push-ins, seamless transitions masked by depth blur and motion continuity no hard cuts everything flows organically, (0-3s) macro shot of product on dark surface shallow depth of field rim light catching edges, (3-7s) camera glides closer warm light rakes across surface revealing texture, (7-11s) slow motion detail moment volumetric lighting, (11-15s) pull-out to centered hero frame product isolated premium minimalist background, sharp clarity no jitter stable picture ```

3. Cinematic craft scene

```text cinematic film tone 35mm warm golden hour lighting, a man in his 40s with weathered features sits at a wooden desk in a sun-drenched workshop carefully carving walnut wood, slow push-in from medium shot to close-up on his hands, dust motes float in the light beams from the window, shallow depth of field background softly blurred, earthy color palette, quiet ambient sound of wood shavings, avoid jitter avoid bent limbs, stable picture no temporal flicker ```

4. Action sequence with time code

```text high-intensity cinematic fight in a misty bamboo forest 15 seconds, photorealistic, [0-4s]: wide establishing shot static camera mist rolling between bamboo stalks golden hour light two fighters face each other, [4-8s]: medium tracking shot the fighter in white lunges forward with a spinning strike fluid orbital tracking follows the motion, [8-12s]: low-angle power shot impact moment slow motion bamboo leaves scatter, [12-15s]: pull-out wide shot the fighter in white stands victorious rim light separating figure from mist, film grain anamorphic texture, avoid bent limbs maintain face consistency ```

5. Full multimodal production

```text 15-second cinematic sequence 16:9 2K resolution, character from @Image1 walks through the environment from @Image2, camera performs slow orbit matching @Video1's motion arc, scene transitions align with beat positions of @Audio1, golden hour rim lighting shallow depth of field, maintain character identity across all frames, avoid identity drift avoid jitter avoid temporal flicker, sharp clarity stable picture ```

Най-важният извод

Ако output-ът ти изглежда евтин, не започвай с мисълта, че моделът е слаб. Първо провери дали prompt-ът ти изобщо има архитектура.

Защото точно там е разликата между: - AI video, който изглежда като demo - и AI video, който изглежда като режисирана сцена

Честно казано, следващият голям edge в AI video няма да е просто “кой има достъп до най-новия модел”.

Ще е: кой умее да говори на модела като режисьор, а не като случаен user.

И това е skill, който тепърва ще става все по-ценен.

Сподели:👤🐦💼