Hãng NVIDIA hôm nay đã giới thiệu hàng loạt các nghiên cứu AI tiên tiến cho phép các nhà phát triển và nghệ sĩ biến ý tưởng của họ thành hiện thực, dù là tĩnh hay động, ở dạng 2D hay 3D, siêu thực hay giả tưởng. Hãy cùng tìm hiểu Neural Rendering, những bước tiến mới nhất trong xử lý đồ họa với AI.
Khoảng 20 bài báo Nghiên cứu của NVIDIA thúc đẩy Generative AI và mạng đồ họa thần kinh — bao gồm sự hợp tác với hơn một chục trường đại học ở Hoa Kỳ, Châu Âu và Israel — đang hướng tới Hội nghị SIGGRAPH 2023, hội nghị đồ họa máy tính hàng đầu, diễn ra từ ngày 6 đến ngày 10 tháng 8 tại Los Angeles.
Các bài báo bao gồm các mô hình Generative AI biến văn bản thành hình ảnh được cá nhân hóa; các công cụ kết xuất ngược giúp chuyển đổi hình ảnh tĩnh thành đối tượng 3D; các mô hình vật lý thần kinh sử dụng AI để mô phỏng các yếu tố 3D phức tạp với độ chân thực tuyệt đẹp; các mô hình kết xuất thần kinh mở ra khả năng mới để tạo các chi tiết hình ảnh theo thời gian thực do AI.
Những đổi mới của các nhà nghiên cứu NVIDIA thường xuyên được chia sẻ với các nhà phát triển trên GitHub và được tích hợp vào các sản phẩm, bao gồm nền tảng NVIDIA Omniverse để xây dựng và vận hành các ứng dụng siêu dữ liệu và NVIDIA Picasso, xưởng đúc cho các mô hình Generative AI tùy chỉnh dành cho thiết kế trực quan. Nhiều năm nghiên cứu đồ họa của NVIDIA đã giúp mang đến khả năng kết xuất phim cho các trò chơi, chẳng hạn như Cyberpunk 2077 Ray Tracing: Overdrive Mode mới phát hành gần đây, tựa game path-traced AAA đầu tiên trên thế giới.
Những tiến bộ được giới thiệu trong năm nay tại SIGGRAPH sẽ giúp các nhà phát triển và doanh nghiệp nhanh chóng tạo ra dữ liệu tổng hợp để tạo ra thế giới ảo cho đào tạo người máy và xe tự hành. Chúng cũng sẽ cho phép những người sáng tạo trong lĩnh vực nghệ thuật, kiến trúc, thiết kế đồ họa, phát triển trò chơi và làm phim nhanh chóng tạo ra hình ảnh chất lượng cao để tạo các phân cảnh cảnh, nguyên mẫu và thậm chí là sản xuất.
AI cá nhân hóa: Mô hình chuyển văn bản thành hình ảnh tùy chỉnh
Các mô hình Generative AI chuyển đổi văn bản thành hình ảnh là những công cụ mạnh mẽ để tạo ý tưởng nghệ thuật hoặc bảng phân cảnh cho phim, trò chơi điện tử và thế giới ảo 3D. Các công cụ AI chuyển văn bản thành hình ảnh có thể biến lời nhắc như “đồ chơi trẻ em” thành hình ảnh gần như vô tận mà người sáng tạo có thể sử dụng để tạo ra hình ảnh thú nhồi bông, khối hình hoặc câu đố.
Tuy nhiên, các nghệ sĩ có thể có một chủ đề cụ thể trong tâm trí. Ví dụ: giám đốc sáng tạo của một thương hiệu đồ chơi có thể đang lên kế hoạch cho một chiến dịch quảng cáo về một chú gấu bông mới và muốn hình dung đồ chơi đó trong các tình huống khác nhau, chẳng hạn như tiệc trà gấu bông. Để kích hoạt mức độ cụ thể này trong đầu ra của mô hình AI tổng quát, các nhà nghiên cứu từ Đại học Tel Aviv và NVIDIA sẽ có paper trong SIGGRAPH cho phép người dùng cung cấp các ví dụ hình ảnh mà mô hình có thể nhanh chóng học hỏi.
Một bài báo mô tả một kỹ thuật cần một hình ảnh ví dụ duy nhất để tùy chỉnh đầu ra của nó, tăng tốc quá trình cá nhân hóa từ vài phút lên khoảng 11 giây trên một GPU NVIDIA A100 Tensor Core duy nhất , nhanh hơn 60 lần so với các phương pháp cá nhân hóa trước đây.
Bài báo thứ hai giới thiệu một mô hình rất nhỏ gọn có tên là Perfusion, mô hình này sử dụng một số hình ảnh khái niệm để cho phép người dùng kết hợp nhiều yếu tố được cá nhân hóa — chẳng hạn như một con gấu bông và ấm trà cụ thể — thành một hình ảnh duy nhất do AI tạo ra:
Ứng dụng 3D: Những tiến bộ trong Kết xuất Nghịch đảo và Sáng tạo Nhân vật
Sau khi người sáng tạo nghĩ ra ý tưởng nghệ thuật cho thế giới ảo, bước tiếp theo là kết xuất môi trường và đưa vào đó các đối tượng và ký tự 3D. Nghiên cứu của NVIDIA đang phát minh ra các kỹ thuật AI để tăng tốc quá trình vốn đã tốn thời gian này bằng cách tự động chuyển đổi hình ảnh và video 2D thành hình ảnh đại diện 3D mà người sáng tạo có thể đưa vào sử dụng trong các ứng dụng đồ họa để chỉnh sửa thêm.
Bài báo thứ ba do các nhà nghiên cứu tại Đại học California, San Diego, thảo luận về công nghệ có thể tạo và hiển Live 3D Portrait dựa trên một bức chân dung 2D duy nhất — một bước đột phá lớn giúp tạo hình đại diện 3D và show truyền hình 3D có thể truy cập bằng AI. Phương pháp này chạy theo thời gian thực trên máy tính của người dùng và và giúp họ có thể hiện diện từ xa với hình ảnh 3D chân thực hoặc độc đáo chỉ bằng việc sử dụng webcam thông thường hoặc camera trên điện thoại thông minh.
Dự án thứ tư, hợp tác với Đại học Stanford, tạo ra các chuyển động sống động như thật cho các nhân vật 3D. Các nhà nghiên cứu đã tạo ra một hệ thống AI có thể học nhiều kỹ năng quần vợt từ các bản ghi video 2D của các trận đấu quần vợt thực tế và Vid2Player3D. Những người chơi trên mô hình có thể đánh bóng chính xác đến các vị trí mục tiêu trên sân ảo và thậm chí thực hiện các trận đấu trong thời gian dài với các nhân vật khác.
Ngoài trường hợp thử nghiệm của môn quần vợt, bài báo SIGGRAPH này giải quyết thách thức khó khăn trong việc tạo ra các nhân vật 3D có thể thực hiện các kỹ năng đa dạng với chuyển động chân thực — mà không cần sử dụng dữ liệu từ các thiết bị chụp chuyển động đắt tiền.
Để tạo một nhân vật 3D được tạo, các nghệ sĩ cần phải tạo ra nhiều lớp với các chi tiết thực tế như tóc, một thách thức và tốn kém về với các nhà làm phim hoạt hình.
Con người có trung bình 100.000 sợi tóc trên đầu, mỗi sợi phản ứng linh hoạt với chuyển động của chính nó và môi trường xung quanh. Theo truyền thống, những người sáng tạo đã sử dụng các công thức vật lý để tính toán chuyển động của tóc, đơn giản hóa hoặc ước tính chuyển động của tóc dựa trên các tài nguyên có sẵn. Đó là lý do tại sao các nhân vật ảo trong một bộ phim kinh phí lớn có mái tóc chi tiết hơn nhiều so với hình đại diện trong trò chơi điện tử thời gian thực.
Bài báo thứ năm giới thiệu một phương pháp có thể bằng vật lý thần kinh, Interactive Hair Simulation on the GPU Using ADMM, một kỹ thuật AI dạy mạng thần kinh dự đoán cách một vật thể sẽ di chuyển trong thế giới thực.
Phương pháp mới của nhóm để mô phỏng chính xác toàn bộ tóc được tối ưu hóa đặc biệt cho GPU hiện đại. Nó mang lại bước nhảy vọt đáng kể về hiệu suất so với các bộ giải dựa trên CPU, giúp giảm thời gian mô phỏng từ nhiều ngày xuống chỉ còn vài giờ — đồng thời nâng cao chất lượng mô phỏng tóc có thể có trong thời gian thực. Kỹ thuật này cuối cùng cho phép chải tóc dựa trên vật lý chính xác và tương tác.
Neural Rendering mang lại chất lượng phim cho đồ họa theo thời gian thực
Sau khi một môi trường được đưa vào với đầy đủ các đối tượng và nhân vật 3D, quá trình kết xuất sẽ diễn ra theo thời gian thực, mô phỏng tính chất vật lý của ánh sáng phản chiếu qua cảnh ảo. Nghiên cứu gần đây của NVIDIA cho thấy cách các mô hình AI cho kết cấu, vật liệu và khối lượng có thể mang lại hình ảnh chân thực, chất lượng như phim trong thời gian thực cho trò chơi điện tử và bản sao kỹ thuật số.
NVIDIA đã phát minh ra phương pháp programmable shading hơn hai thập kỷ trước, cho phép các nhà phát triển tùy chỉnh quy trình đồ họa. Trong các phát minh Neural Renderin mới nhất này, các nhà nghiên cứu đã mở rộng các mã tạo bóng có thể lập trình bằng các mô hình AI chạy sâu bên trong các quy trình đồ họa thời gian thực của NVIDIA.
Trong bài báo SIGGRAPH thứ sáu, NVIDIA sẽ giới thiệu kỹ thuật Random-Access Neural Compression of Material Textures mà không cần sử dụng thêm bộ nhớ GPU để tạo các bề mặt phức tạp. Nén kết cấu nơ-ron có thể làm tăng đáng kể tính chân thực của cảnh 3D, như có thể thấy trong hình ảnh bên dưới, điều này cho thấy cách kết cấu được nén bằng nơ-ron (bên phải) thu được chi tiết sắc nét hơn so với các định dạng trước đó, trong đó văn bản vẫn bị mờ (ở giữa).
Một bài báo liên quan được công bố vào năm ngoái hiện đã có sẵn cho quyền truy cập với tên gọi NeuralVDB , một kỹ thuật nén dữ liệu hỗ trợ AI giúp giảm 100 lần bộ nhớ cần thiết để biểu thị dữ liệu thể tích — như khói, lửa, mây và nước.
Hôm nay, NVIDIA cũng đã công bố thêm thông tin chi tiết về kỹ thuật Real-Time Neural Appearance Models đã được trình bày trong bài phát biểu quan trọng gần đây nhất của NVIDIA GTC. Bài báo mô tả một hệ thống AI học cách ánh sáng phản xạ từ các vật liệu nhiều lớp, quang học, giảm độ phức tạp của các tài sản này xuống các mạng thần kinh nhỏ chạy trong thời gian thực, cho phép đổ bóng nhanh hơn tới 10 lần.
Mức độ hiện thực có thể được nhìn thấy trong ấm trà được kết xuất bằng mạng thần kinh này, thể hiện chính xác chất liệu gốm sứ, lớp tráng men trong suốt không hoàn hảo, dấu vân tay, vết ố và thậm chí cả bụi.
Thêm các nghiên cứu đồ họa và AI sáng tạo
Đây chỉ là những điểm nổi bật — còn nhiều các bài báo và nghiên cứu của NVIDIA tại SIGGRAPH khác. NVIDIA cũng sẽ trình bày sáu nghiên cứu, bốn bài nói chuyện và hai bản trình diễn Công nghệ mới nổi tại hội nghị, với các chủ đề bao gồm theo dõi đường đi, hiện diện từ xa và các mô hình khuếch tán cho Generative AI.
(Theo Aaron Lefohn)
Xem thêm bài viết:
Nghiên cứu AI mới giúp chỉnh sửa hình ảnh bằng thao tác bấm và kéo thả đơn giản