Nghiên cứu gần đây về các phương pháp phát hiện video do AI tạo ra đã tìm ra các dấu hiệu đặc trưng không xuất hiện trong hình ảnh kỹ thuật số thông thường. Đây là thuật toán AI phát hiện deepfake với độ chính xác đến 98%.
Với sự ra mắt của các sản phẩm tạo video bằng trí tuệ nhân tạo (AI) như Sora và Luma, chúng ta đang đứng trước nguy cơ một làn sóng nội dung video do AI tạo ra, và các nhà hoạch định chính sách, nhân vật công chúng và kỹ sư phần mềm đã cảnh báo về sự bùng nổ của deepfake.
Cho đến hiện tại, có vẻ như chính AI có thể là biện pháp phòng thủ tốt nhất của chúng ta nhằm chống lại thông tin sai lệch do AI tạo ra khi một thuật toán đã xác định được các dấu hiệu đặc trưng của video AI với độ chính xác hơn 98%.
Thật khó tránh khỏi sự mỉa mai về việc dùng AI để bảo vệ chúng ta khỏi nội dung do AI tạo ra, nhưng như trưởng dự án Matthew Stamm, phó giáo sư kỹ thuật tại Đại học Drexel, đã nói trong một tuyên bố: “Thật đáng lo ngại khi xuất bản một nội dung trước khi có một hệ thống đủ tốt để phát hiện các video giả mạo do các đối tượng xấu tạo ra.”
“Cho đến nay, các chương trình phát hiện pháp y đã chống lại các video chỉnh sửa hiệu quả bằng một cách đơn giản là coi chúng như một loạt hình ảnh và áp dụng cùng một quy trình kiểm tra,” Stamm nói thêm. “Nhưng với video do AI tạo ra, không có bằng chứng về việc chỉnh sửa hình ảnh giữa các khung hình, vì vậy để một chương trình phát hiện hiệu quả, nó sẽ cần phải có khả năng nhận biết các dấu vết do cách các chương trình AI tạo ra video để lại.”
Bước đột phá, được trình bày trong một nghiên cứu công bố ngày 24 tháng 4 trên máy chủ pre-print arXiv, là một thuật toán đánh dấu cột mốc quan trọng mới trong việc phát hiện hình ảnh và video giả. Đó là vì nhiều “dấu vết kỹ thuật số” mà các hệ thống hiện có tìm kiếm trong các sản phẩm kỹ thuật số do AI tạo ra thường không xuất hiện.
Công cụ mới mà dự án nghiên cứu đưa ra để phát hiện deepfake, gọi là “MISLnet“, phát triển từ dữ liệu thu thập được qua nhiều năm từ việc phát hiện hình ảnh và video giả bằng các công cụ phát hiện các thay đổi được thực hiện đối với video hoặc hình ảnh kỹ thuật số. Những thay đổi này có thể bao gồm việc thêm hoặc di chuyển các pixel giữa các khung hình, thay đổi tốc độ của đoạn video hoặc loại bỏ các khung hình.
Các công cụ như vậy hiệu quả vì trong quá trình xử lý, thuật toán của máy ảnh kỹ thuật số tạo ra các mối quan hệ giữa các giá trị màu pixel. Những mối quan hệ giữa các giá trị này rất khác biệt trong các hình ảnh do người dùng tạo ra hoặc chỉnh sửa bằng các ứng dụng như Photoshop.
Nhưng vì video do AI tạo ra không được sản xuất bởi máy ảnh ghi lại cảnh hoặc hình ảnh thực nên chúng không chứa những khác biệt đặc trưng giữa các giá trị pixel đó.
Các công cụ của nhóm Drexel, bao gồm MISLnet, học bằng cách sử dụng phương pháp gọi là mạng neural ràng buộc, có thể phân biệt giữa các giá trị bình thường và bất thường ở cấp độ dưới pixel của hình ảnh hoặc đoạn video, thay vì tìm kiếm các dấu hiệu phổ biến từ việc chỉnh sửa hình ảnh như đã đề cập ở trên.
MISLnet vượt trội so với bảy hệ thống phát hiện video giả AI khác, xác định đúng video do AI tạo ra 98.3% trong tổng thời lượng phát, vượt qua tám hệ thống còn lại cũng đạt mức ít nhất 93%.
“Chúng tôi đã thấy video do AI tạo ra được sử dụng để tạo ra thông tin sai lệch,” Stamm nói trong tuyên bố. “Khi các chương trình này trở nên phổ biến và dễ sử dụng hơn, chúng ta có thể dự đoán chính xác rất nhiều nội dung video từ được sản xuất bằng AI.”