Quá trình đồng bộ hóa âm thanh với hình ảnh trong một video, đảm bảo âm thanh khớp chính xác với chuyển động và lời thoại.