Lip-sync (nhép miệng) tự nhiên là một trong những yếu tố quan trọng nhất khi làm video AI, nhưng lại là thứ nhiều người làm sai mà không nhận ra. Sau khi thử nghiệm khá nhiều, mình rút ra một nguyên tắc đơn giản: càng “bình thường” thì càng thật.
Ứng dụng bài viết sẽ tạo ra video nhép môi chân thật như dưới đây:
Toàn bộ Prompt tạo video được chia sẻ cuối bài
Về giọng nói, nên hướng đến cách nói rõ ràng, tự nhiên như đang trò chuyện hàng ngày, giữ nhịp vừa phải và phát âm chuẩn. Video Veo 3 chỉ thời lượng 8 giây, do đó số từ vừa phải trong mỗi lần tạo là 35-40 từ và nên chia thành 2-3 phân cảnh (scene).
Những kiểu như thì thầm, nhiều hơi, hoặc cố tình làm giọng “mềm” thường khiến video bị giả và thiếu tự nhiên (thuật ngữ chuyên môn là ASMR).
Về biểu cảm, hãy giữ trong PROMPT ở mức nhẹ và kiểm soát tốt. Một nụ cười mỉm, ánh mắt ổn định, cảm xúc vừa phải sẽ giúp nhân vật trông thật hơn rất nhiều. Ngược lại, biểu cảm quá lố, cười lớn hoặc kiểu hoạt hình sẽ làm lộ ngay cảm giác “AI”.
Phần khẩu hình là yếu tố cốt lõi. Cần đảm bảo miệng mở đúng theo âm, chuyển động môi chính xác và không bị phóng đại. Chỉ cần cử động hàm nhẹ, tự nhiên là đủ.
Chuyển động cơ thể cũng nên tối giản. Một tư thế vững, ít cử chỉ, không lắc lư hoặc di chuyển nhiều sẽ giúp hệ thống xử lý ổn định hơn và giữ được độ chân thực.
Về camera, nên dùng góc quay cố định, khung hình trung bình (từ ngực trở lên), background gọn gàng. Tránh rung lắc, cắt cảnh nhanh hoặc chuyển động camera liên tục vì sẽ làm giảm độ chính xác của lip-sync.
Cuối cùng là âm thanh. Giọng nói cần rõ, sạch, cân bằng như thu trong studio. Tránh nhạc nền quá lớn hoặc môi trường có tiếng vang vì sẽ ảnh hưởng trực tiếp đến khả năng đồng bộ miệng.
Muốn lip-sync tự nhiên thì đừng cố làm cho “hay” hay “diễn”, mà hãy làm cho “giống người thật nhất có thể”.
Phần SETUP Prompt mình sẽ ràng buộc như sau để Lip-sync hiệu quả:
“lip_sync”: {
“quality”: “precise lip-sync to dialogue”,
“movement”: “realistic mouth shapes with subtle jaw motion”,
“constraint”: “lips must accurately match spoken audio at all times”
},
“body_language”: {
“posture”: “grounded and stable”,
“gesture”: “minimal hand movement only when necessary”,
“movement”: “no fidgeting, no unnecessary motion”
},
“audio”: {
“quality”: “balanced, clear dialogue, studio-like sound”,
“noise”: “no background music, no echo, no ambient noise, no laughter, no giggle, no wow. Clean speech only. MANDATORY: Each sentence and scene ends cleanly with no added vocal effects.”
}
Kèm thêm là Negative Prompt để hạn chế lỗi:
“negative_constraints”: [
“ASMR”,
“whispering”,
“breathy voice”,
“hushed tone”,
“exaggerated expression”,
“hyper movement”,
“cartoonish behavior”,
“intense grin”,
“rubbery face”,
“overly animated mouth”,
“wild body movement”,
“fidgeting”,
“pacing”,
“shaky camera”,
“dynamic camera”,
“fast cuts”,
“loud ambience”,
“echoey space”,
“background music”
]
Tải toàn bộ JSON Prompt để tạo ra video như trên Tại đây



