Metaverse đã thu hút trí tưởng tượng của chúng ta. Sự phát triển mạnh mẽ của các thiết bị kết nối internet và nội dung ảo cho Metaverse ngày càng được chấp nhận rộng rãi, đòi hỏi các doanh nghiệp phải vượt ra khỏi các phương pháp tiếp cận truyền thống để tạo ra nội dung Metaverse.
Tuy nhiên, các công nghệ thế hệ tiếp theo như Metaverse, sử dụng Trí tuệ nhân tạo (AI) và máy học (ML), dựa vào các bộ dữ liệu khổng lồ để hoạt động hiệu quả.
Sự phụ thuộc vào các bộ dữ liệu lớn này mang lại những thách thức mới. Người dùng công nghệ đã ý thức hơn về cách mà dữ liệu cá nhân nhạy cảm của họ được thu thập, lưu trữ và sử dụng, dẫn đến việc ra đời các quy định nhằm ngăn các tổ chức sử dụng dữ liệu cá nhân mà không được sự cho phép.
Nếu không có lượng lớn dữ liệu chuẩn thì không thể đào tạo hoặc phát triển các mô hình AI / ML, điều này hạn chế rất lớn đến sự phát triển của Metaverse. Khi yêu cầu này càng trở nên cấp bách hơn thì dữ liệu tổng hợp là một giải pháp đáng được chú ý.
Trên thực tế, theo Gartner dự báo, vào năm 2024, 60% dữ liệu cần thiết cho các dự án Phân tích và AI sẽ được tạo ra là dữ liệu tổng hợp.
Cách dữ liệu tổng hợp hoạt động và phát triển AR / VR và Metaverse
Các thuật toán học máy tạo ra dữ liệu tổng hợp bằng cách nhập dữ liệu thực để đào tạo về các mẫu hành vi và tạo dữ liệu giả được mô phỏng và giữ lại các thuộc tính thống kê của tập dữ liệu gốc. Dữ liệu như vậy có thể mô phỏng các trường hợp trong thế giới thực. Không giống như các bộ dữ liệu ẩn danh thông thường, nó ít bị sai sót hơn dữ liệu thực.
Khi AR / VR phát triển và Metaverse đạt được môi trường kỹ thuật số chính xác hơn, chúng cần khả năng mới để con người có thể tương tác liền mạch với thế giới kỹ thuật số. Điều này bao gồm khả năng tương tác với các đối tượng ảo, tối ưu hóa hiển thị trên thiết bị bằng cách sử dụng tính toán thị giác chính xác, tạo ra ảnh đại diện người dùng thực tế và tạo lớp phủ kỹ thuật số 3D trên môi trường thực tế một cách ổn định.
Mô hình ML học các đối tượng 3D như mắt lưới, mô hình pha trộn, bề mặt chuẩn từ các bức ảnh. Như vậy, việc thu thập dữ liệu trực quan để đào tạo các mô hình AI này là một thách thức.
Dựng lại thế giới kỹ thuật số với dữ liệu tổng hợp
Đào tạo một mô hình 3D yêu cầu một lượng lớn dữ liệu về khuôn mặt và toàn bộ cơ thể, bao gồm cả chú thích 3D chính xác. Người mẫu cũng phải được dạy để thực hiện các nhiệm vụ như tư thế tay và ước lượng lưới, tư thế thao tác của cơ thể, phân tích ánh mắt, tái tạo môi trường 3D và tổng hợp hình đại diện codec.
“Siêu mô hình này sẽ được hỗ trợ bởi các mô hình máy học thị giác máy tính mới và mạnh mẽ có thể hiểu không gian 3D xung quanh người dùng, nắm bắt chuyển động chính xác, hiểu các cử chỉ và tương tác cũng như chuyển những biểu hiện cảm xúc, lời nói và các chi tiết trên khuôn mặt sang hình đại diện chân thực,” Giám đốc điều hành và người sáng lập của Synthesis AI – Yashar Behzadi nói.
Behzadi cho biết thêm: “Để xây dựng những mô hình này, các mô hình nền tảng sẽ yêu cầu một lượng lớn dữ liệu 3D phong phú được gán nhãn”.
Một ví dụ về kết xuất ước tính cử chỉ cho hình đại diện kỹ thuật số. Nguồn: Tổng hợp AI
Vì những lý do này, Metaverse đang trải qua một sự thay đổi mô hình – chuyển khỏi mô hình hóa và hướng tới cách tiếp cận lấy dữ liệu làm trung tâm để phát triển. Thay vì thực hiện các cải tiến gia tăng cho một thuật toán hoặc mô hình, các nhà nghiên cứu có thể tối ưu hiệu suất mô hình AI của Metaverse hiệu quả hơn nhiều bằng cách cải thiện chất lượng của dữ liệu đào tạo.
“Các cách tiếp cận thông thường để xây dựng thị giác máy tính dựa vào các chú thích của con người thường không thể cung cấp các dữ liệu gán nhãn cần thiết. Tuy nhiên, dữ liệu tổng hợp hoặc dữ liệu do máy tính tạo ra để mô phỏng thực tế đã chứng minh là một cách tiếp cận mới đầy hứa hẹn ”, Behzadi nói.
Bằng cách sử dụng dữ liệu tổng hợp, các công ty có thể tạo ra dữ liệu có thể tùy chỉnh để giúp các dự án chạy hiệu quả hơn vì nó có thể dễ dàng phân phối giữa các nhóm sáng tạo mà không phải lo lắng về việc tuân thủ luật bảo mật. Điều này mang lại quyền tự chủ cao hơn, cho phép các nhà phát triển hoạt động hiệu quả hơn và tập trung vào các nhiệm vụ thúc đẩy doanh thu.
Behzadi cho biết, ông tin rằng việc kết hợp các công nghệ hiệu ứng hình ảnh với các mô hình AI sáng tạo sẽ cho phép công nghệ dữ liệu tổng hợp cung cấp một lượng lớn dữ liệu đa dạng và được gán nhãn hoàn hảo để cung cấp năng lượng cho Metaverse.
Tăng tốc phát triển thị giác máy tính cho Metaverse
Để nâng cao trải nghiệm người dùng, các thiết bị phần cứng được sử dụng để truy cập vào Metaverse đóng một vai trò quan trọng không kém. Tuy nhiên, phần cứng phải được hỗ trợ bởi phần mềm nhằm giúp quá trình chuyển đổi giữa thế giới thực và ảo trở nên liền mạch, và điều này sẽ không thể thực hiện được nếu không có thị giác máy tính.
Để hoạt động bình thường, phần cứng AR / VR cần hiểu vị trí của nó trong thế giới thực bằng bản đồ 3D chi tiết và chính xác của môi trường ảo. Do đó, ước tính tầm nhìn (tức là tìm ra vị trí một người đang nhìn qua hình ảnh khuôn mặt và đôi mắt của họ), là một vấn đề quan trọng đối với các thiết bị AR và VR hiện tại. Đặc biệt, VR phụ thuộc nhiều vào kết xuất Foveated – một kỹ thuật trong đó hình ảnh trong tầm nhìn được tạo ra với độ phân giải cao và chi tiết tuyệt vời nhưng hình ảnh ngoại vi với chất lượng thấp hơn.
Kiến trúc theo dõi và ước tính ánh mắt cho thiết bị VR triển khai kết xuất đáng kinh ngạc. Có nghĩa là, hình ảnh ở trung tâm của môi trường được tạo ra ở độ phân giải cao nhưng hình ảnh ở ngoại vi được giảm dần độ phân giải để có hiệu suất hiệu quả hơn. Nguồn: Tổng hợp AI
Theo Richard Kerris , phó chủ tịch nền tảng phát triển Omniverse tại NVIDIA, việc tạo dữ liệu tổng hợp có thể khắc phục những trường hợp như vậy, vì nó có thể cung cấp các mô phỏng trực quan chính xác về các trường hợp sử dụng khi tương tác với các đối tượng hoặc xây dựng môi trường để đào tạo.
“Dữ liệu tổng hợp được tạo ra với sự phát triển ứng dụng AR / VR từ các máy thám hiểm mô phỏng, bằng cách cung cấp liên tục các luồng xử lý tác vụ tích hợp và phát triển thử nghiệm” Kerris nói với VentureBeat. “Hơn nữa, khi được tạo ra từ bộ đôi kỹ thuật số của thế giới thực, những dữ liệu như vậy có thể giúp đào tạo AI cho các cảm biến môi trường khác nhau mà mắt người không nhìn thấy được, ngoài việc cải thiện độ chính xác theo dõi của cảm biến vị trí.”
Khi bước vào thực tế ảo, một người cần được tồn tại bằng hình đại diện để có trải nghiệm xã hội ảo sống động. Các môi trường Metaverse trong tương lai sẽ cần những hình đại diện ảo chân thực đại diện cho người thật và có thể chụp được tư thế của họ. Tuy nhiên, việc xây dựng một hình đại diện như vậy là một vấn đề phức tạp về thị giác máy tính, hiện đang được giải quyết bằng cách sử dụng dữ liệu tổng hợp.
Kerries giải thích rằng những thách thức lớn nhất gặp phải khi tạo ra nhiều hình đại diện đa dạng với độ trung thực cao, cùng với các phụ kiện như quần áo, kiểu tóc và các cử chỉ cảm xúc liên quan mà không ảnh hưởng đến quyền riêng tư.
“Việc tạo ra các nhân vật kỹ thuật số đa dạng ở quy mô lớn có thể tạo ra các tư thế con người vô tận khác nhau và làm cho các nhân vật trở nên sinh động cho các trường hợp sử dụng cụ thể. Tạo ra quy trình sử dụng dữ liệu tổng hợp giúp giải quyết nhiều kiểu avatar này, ”Kerries nói.
Nhận dạng các đối tượng bằng thị giác máy tính
Để ước tính vị trí của các đối tượng 3D và đặc tính vật chất của chúng trong môi trường kỹ thuật số như Metaverse, ánh sáng phải tương tác với đối tượng và môi trường của nó để tạo ra hiệu ứng tương tự như thế giới thực. Do đó, các mô hình thị giác máy tính dựa trên AI cho Metaverse phải hiểu được bề mặt của đối tượng để hiển thị chúng một cách chính xác trong môi trường 3D.
Theo Swapnil Srivastava , người đứng đầu toàn cầu về dữ liệu và phân tích tại Evalueserve, bằng cách sử dụng dữ liệu tổng hợp, các mô hình AI có thể dự đoán và theo tracking đối tượng trong vô số những vật thể một cách chính xác hơn dựa trên hình dạng cơ thể, ánh sáng, bối cảnh và môi trường.
“Các hệ sinh thái đa dạng hoặc tương tự sẽ phụ thuộc nhiều vào hành vi và biểu cảm của con người, hiện có thể đạt được với dữ liệu tổng hợp. Con người không thể chú thích hình ảnh 2D và 3D ở tỷ lệ pixel hoàn hảo. Với dữ liệu tổng hợp, rào cản công nghệ và vật lý này được rút ngắn, cho phép ghi chú, đa dạng hóa và tùy chỉnh chính xác trong khi vẫn đảm bảo tính hiện thực, ”Srivastava nói.
Nhận dạng cử chỉ là một cơ chế quan trọng khác để tương tác với thế giới ảo. Tuy nhiên, việc xây dựng mô hình để theo dõi bàn tay chính xác rất phức tạp, do sự phức tạp của bàn tay và nhu cầu theo dõi vị trí 3D. Nhiệm vụ phức tạp hơn nữa là nhu cầu thu thập dữ liệu thể hiện chính xác sự đa dạng của người dùng, từ tông màu da đến sự hiện diện của nhẫn, đồng hồ, tay áo và hơn thế nữa.
Behzadi nói rằng ngành công nghiệp hiện đang sử dụng dữ liệu tổng hợp để đào tạo các hệ thống theo dõi bàn tay để vượt qua những thách thức như vậy.
Behzadi cho biết: “Bằng cách tận dụng các mô hình bàn tay tham số 3D, các công ty có thể tạo ra một lượng lớn dữ liệu được gắn nhãn 3D chính xác trên các thông tin nhân khẩu học, bối cảnh, góc nhìn máy ảnh và môi trường.”
“Dữ liệu sau đó có thể được tạo ra trên các môi trường và vị trí / loại camera để có sự đa dạng chưa từng có vì dữ liệu được tạo ra không có bất kỳ lo lắng về quyền riêng tư. Yêu cầu về mức độ chi tiết thường lớn hơn những gì con người có thể cung cấp và đem lại mức độ hiện thực cao hơn để cung cấp năng lượng cho Metaverse, ”ông nói thêm.
Những thách thức khi sử dụng dữ liệu tổng hợp cho Metaverse
Srivastava cho biết so với quy trình hiện tại, Metaverse sẽ thu thập nhiều dữ liệu cá nhân hơn như đặc điểm khuôn mặt, cử chỉ cơ thể, sức khỏe, tài chính, sở thích xã hội và sinh trắc học, cùng nhiều dữ liệu khác.
“Việc bảo vệ các điểm dữ liệu cá nhân này nên được ưu tiên cao nhất. Các tổ chức cần có các chính sách quản lý và bảo mật dữ liệu hiệu quả, cũng như quy trình quản lý với sự đồng thuận từ người dùng. Đảm bảo đạo đức trong AI sẽ rất quan trọng để mở rộng hiệu quả trong Metaverse đồng thời tạo ra dữ liệu có trách nhiệm để đào tạo, lưu trữ và triển khai các mô hình trong sản xuất, ” ông nói.
Tương tự, Behzadi nói rằng các công nghệ dữ liệu tổng hợp sẽ cho phép xây dựng các mô hình toàn diện hơn theo những cách thức tuân thủ quyền riêng tư và đạo đức. Tuy nhiên, vì khái niệm này là mới, nên việc áp dụng rộng rãi sẽ đòi hỏi phải có trình độ học vấn.
“Metaverse là một thuật ngữ rộng và đang phát triển, nhưng tôi nghĩ chúng ta có thể mong đợi những trải nghiệm mới và thú vị cho dù đó là dành cho các tương tác xã hội, tái hiện trải nghiệm mua sắm và tiêu dùng, các loại phương tiện mới hay các ứng dụng mà chúng ta chưa hình dung ra.” Behzadi nói.
Tạo tập dữ liệu sẵn sàng dùng cho mô phỏng là một thách thức đối với các công ty muốn sử dụng tạo dữ liệu tổng hợp để xây dựng và vận hành thế giới ảo trong Metaverse. Kerris nói rằng nội dung 3D không có sẵn và không đủ để triển khai các mô hình đào tạo chính xác.
“Các tập dữ liệu này phải có thông tin và đặc điểm giúp có thể sử dụng được. Ví dụ, trọng lượng, độ ma sát và các yếu tố khác phải được đưa vào tài sản để chúng có thể phục vụ trong việc huấn luyện mô hình, ”Kerris nói. “Chúng tôi có thể mong đợi một bộ thư viện có sẵn ngày càng nhiều từ các công ty, điều này sẽ giúp đẩy nhanh các giải pháp sử dụng để tạo dữ liệu tổng hợp trong các ứng dụng Metaverse cho các ứng dụng công nghiệp như robot và AR / VR.”
(Theo Victor Dey)