Lịch sử và sự phát triển của Deep Learning

[Hot] Tìm hiểu về AI & Data Science tại AI4vietnam

[Upcoming] Tổng hợp các khóa học cho người làm IT

Deep Learning (Học sâu) đã phát triển và góp phần tạo nên một bước tiến lớn trong các ngành và lĩnh vực kinh doanh hiện nay. Học sâu là một nhánh của học máy triển khai các thuật toán để xử lý dữ liệu và bắt chước quá trình tư duy và thậm chí phát triển các tính năng trừu tượng.

Deep Learning sử dụng các lớp thuật toán để xử lý dữ liệu, hiểu giọng nói của con người và nhận dạng các đối tượng một cách trực quan. Trong học sâu, thông tin được chuyển qua từng lớp và đầu ra của lớp trước đóng vai trò là đầu vào cho lớp tiếp theo. Lớp đầu tiên trong mạng được gọi là lớp đầu vào (input layer), trong khi lớp cuối cùng là lớp đầu ra (output layer), các lớp ở giữa được gọi là các lớp ẩn (hidden layer).

Một điểm đặc biệt khác của học sâu là khả năng trích xuất đặc trưng, sử dụng một thuật toán để tự động xây dựng các đặc trưng có ý nghĩa cho việc học tập, đào tạo và hiểu biết trong dữ liệu.

Lịch sử phát triển của Deep Learning trong nhiều năm

Thế giới hiện đang chứng kiến một cuộc cách mạng AI toàn cầu trên tất cả các lĩnh vực. Và một trong những yếu tố thúc đẩy cuộc cách mạng AI này là Học sâu. Nhờ những gã khổng lồ như Google và Facebook, Deep Learning giờ đây đã trở thành một thuật ngữ phổ biến và mọi người có thể nghĩ rằng đó là một khám phá gần đây. Nhưng bạn có thể ngạc nhiên khi biết rằng lịch sử của học sâu có từ những năm 1940.

Thật vậy, học sâu không xuất hiện trong một sớm một chiều, đúng hơn nó đã phát triển từ từ và dần dần trong hơn bảy thập kỷ. Bài viết này nhằm giúp bạn tìm hiểu lịch sử của Deep Learning để điểm lại những khám phá quan trọng mà các nhà nghiên cứu đã thực hiện và tất cả những bước đi nhỏ bé này đã đóng góp như thế nào vào kỷ nguyên hiện đại của sự bùng nổ Học sâu.

Lịch sử của học sâu bắt đầu từ năm 1943 khi Warren McCulloch và Walter Pitts tạo ra một mô hình máy tính dựa trên các mạng thần kinh mô phỏng hoạt động của não bộ con người. Warren McCulloch và Walter Pitts đã sử dụng sự kết hợp giữa toán học và thuật toán để bắt chước quá trình suy nghĩ. Mạng nơ-ron này có khả năng rất hạn chế và không có cơ chế học hỏi. Tuy nhiên, nó sẽ đặt nền tảng cho mạng nơ-ron nhân tạo và Deep Learning.

Năm 1957, trong bài báo của mình “Perceptron: A Perceiving and Recognition Automaton” (Perceptron: Thuật toán để học có giám sát các phân loại nhị phân), Rosenblatt cho thấy diện mạo mới của mạng nơ-ron McCulloch-Pitts – Perceptron có khả năng học tập thực sự để tự phân loại dựa trên phép tính nhị phân. Điều này truyền cảm hứng cho cuộc cách mạng trong nghiên cứu mạng nơ-ron nông trong nhiều năm sau, cho đến mùa đông AI đầu tiên.

Henry J. Kelley trong bài báo của mình, “Lý thuyết Gradient về các đường bay tối ưu” cho thấy phiên bản đầu tiên của Back Propagation Model. Mô hình của ông phù hợp với Lý thuyết điều khiển, nhưng nó đặt nền tảng cho việc hoàn thiện thêm mô hình và sẽ được sử dụng trong ANN trong những năm sau đó.

Năm 1962, ra đời Backpropagation With Chain Rule – Thuật toán Lan truyền ngược với quy tắc chuỗi (Quy tắc chuỗi là một công thức biểu thị đạo hàm), Stuart Dreyfus trong bài báo của mình, “Giải pháp số cho các phép tính biến phân”, (Phép tính biến phân: là một ngành giải tích toán học sử dụng variations, là những thay đổi nhỏ của hàm và phiếm hàm, để tìm cực đại và cực tiểu) cho thấy một thuật toán Lan truyền ngược sử dụng quy tắc chuỗi đạo hàm đơn giản, thay vì lập trình động mà trước đó đang sử dụng. Đây là một bước nhỏ khác giúp củng cố tương lai của Deep Learning.

Năm 1965, khai sinh mạng Học sâu, Alexey Grigoryevich Ivakhnenko cùng với Valentin Grigorʹevich Lapa, cho ra đời Hierarchical Representation of Neural Network (biểu diễn phân cấp của mạng nơ-ron) sử dụng chức năng kích hoạt đa thức và được đào tạo bằng Phương pháp xử lý dữ liệu nhóm (GMDH). Hiện nó được coi là Perceptron nhiều lớp đầu tiên và Ivakhnenko thường được coi là cha đẻ của Deep Learning.

Năm 1969, Sự sụp đổ của Perceptron, Marvin Minsky và Seymour Papert xuất bản cuốn sách “Perceptrons” trong đó họ chỉ ra rằng Rosenblatt’s Perceptron không thể giải quyết các chức năng phức tạp như XOR. Đối với các hàm Perceptron như vậy nên được đặt trong nhiều lớp ẩn làm ảnh hưởng đến thuật toán học Perceptron. Sự thất bại này khởi đầu một mùa đông của nghiên cứu mạng nơ-ron.

Năm 1970, Seppo Linnainmaa công bố phương pháp chung để phân biệt tự động cho Backpropagation và ứng dụng nó vào trong mã máy tính. Nghiên cứu về Backpropagation hiện đã đi rất xa, nhưng nó sẽ không được thực hiện trong mạng nơ-ron cho mãi tới thập kỷ sau.

Năm 1971, Alexey Grigoryevich Ivakhnenko tiếp tục nghiên cứu của mình về Neural Network. Ông tạo ra mạng thần kinh sâu 8 lớp bằng cách sử dụng Group Method of Data Handling (Phương pháp xử lý dữ liệu theo nhóm), viết tắt là GMDH.

Năm 1980, mạng CNN ra đời, Kunihiko Fukushima đưa ra Neocognitron, kiến trúc mạng nơ-ron phức hợp đầu tiên có thể nhận ra các mẫu hình ảnh chẳng hạn như các ký tự viết tay.

Năm 1982, ra đời Hopfield Network – tiền thân của RNN, John Hopfield tạo ra Mạng Hopfield, không có gì khác ngoài một mạng nơ-ron tuần hoàn. Nó hoạt động như một hệ thống bộ nhớ có thể định địa chỉ nội dung và sẽ là công cụ cho các mô hình RNN tiếp theo.

Cùng năm này, đề xuất ứng dụng Back Propagation vào mạng ANN, Paul Werbos, trên luận án bằng tiến sĩ của mình năm 1974, ông đề xuất việc sử dụng Backpropagation để lan truyền lỗi trong quá trình đào tạo Mạng thần kinh. Kết quả từ luận án tiến sĩ của ông cuối cùng được cộng đồng nghiên cứu mạng nơ-ron được áp dụng thực tế sau này.

Năm 1985, ra đời Boltzmann Machine, David H. Ackley, Geoffrey Hinton và Terrence Sejnowski đã tạo ra Boltzmann Machine là một Recurrent Neural Network (Mạng nơ-ron lặp lại ngẫu nhiên). Mạng nơ-ron này chỉ có lớp đầu vào và ẩn lớp nhưng không có lớp đầu ra.

Năm 1986, ra đời NetTalk – ANN học giọng nói, Terry Sejnowski tạo ra NeTalk, một mạng nơ-ron học cách phát âm văn bản tiếng Anh bằng cách hiển thị văn bản dưới dạng đầu vào và khớp phiên âm để so sánh.

Cũng trong năm này, ứng dụng Back Propagation, Geoffrey Hinton, Rumelhart và Williams trong bài báo của họ “Learning Representations by back-propagating errors – Học biểu diễn bằng lỗi thuật toán Lan truyền ngược” cho thấy việc triển khai thành công quá trình lan truyền ngược trong mạng nơ-ron. Nó đã mở ra những cánh cổng cho việc đào tạo mạng nơ-ron sâu phức tạp một cách dễ dàng hơn, vốn là trở ngại chính trong những nghiên cứu trước đây.

Vào thời điểm này, Máy Boltzmann bị hạn chế, Paul Smolensky đưa ra một bản nâng cấp của Boltzmann Machine không có kết nối nội bộ lớp trong đầu vào và lớp ẩn. Nó được gọi là Máy Boltzmann hạn chế (RBM). Nó đã trở nên phổ biến trong nhiều năm tới, đặc biệt là để xây dựng các Recommender System (Hệ thống đề xuất).

Năm 1989, mạng CNN (Convolutional Neural Network – Mạng tích chập) sử dụng Backpropagation, Yann LeCun sử dụng phương pháp lan truyền ngược để huấn luyện mạng nơ-ron phức hợp để nhận dạng các chữ số viết tay. Đây là một thời điểm đột phá vì nó đặt nền tảng của tầm nhìn máy tính hiện đại sử dụng Deep Learning.

Cùng năm, Universal Approximators Theorem – Định lý xấp xỉ phổ quát (Kết quả thiết lập mật độ của một lớp hàm được tạo theo thuật toán trong một không gian hàm quan tâm nhất định), George Cybenko cho ra đời phiên bản đầu tiên của mình trong bài viết có tên “Approximation by Superpositions of a Sigmoidal function”. Ông chứng minh rằng bổ sung mạng nơ-ron với một lớp ẩn chứa số lượng nơ-ron hữu hạn có thể gần đúng với bất kỳ hàm liên tục nào. Nó giúp cho mạng Học sâu trở nên đáng tin cậy hơn.

Năm 1991, vấn đề về Vanishing Gradient xuất hiện, Sepp Hochreiter xác định vấn đề về Vanishing Gradient có thể làm cho việc học của mạng nơron sâu trở nên cực kỳ chậm và gần như không thực tế. Vấn đề này sẽ tiếp tục gây khó khăn cho cộng đồng học sâu trong nhiều năm tới.

Năm 1997, Cột mốc quan trọng của LSTM, Sepp Hochreiter và Jürgen Schmidhuber xuất bản một bài báo quan trọng về “Long Short-Term Memory” (LSTM). Nó là một loại kiến trúc mạng nơ-ron tuần hoàn đã tiếp tục cách mạng hóa học sâu trong nhiều thập kỷ tới.

Năm 2006, xuất hiện Deep Belief Network, Geoffrey Hinton, Ruslan Salakhutdinov, Osindero và Teh xuất bản bài báo “A fast learning algorithm for deep belief nets”, trong đó họ xếp chồng nhiều RBM lại với nhau thành từng lớp và gọi chúng là Deep Belief Networks. Quá trình đào tạo hiệu quả hơn nhiều đối với lượng dữ liệu lớn.

Năm 2008, bắt đầu GPU Revolution – Cuộc cách mạng GPU, nhóm của Andrew NG ở Stanford bắt đầu ủng hộ việc sử dụng GPU để đào tạo Mạng thần kinh sâu nhằm tăng tốc thời gian đào tạo lên nhiều lần. Điều này có thể mang lại tính thực tiễn trong lĩnh vực Deep Learning để đào tạo về khối lượng dữ liệu khổng lồ một cách hiệu quả.

Năm 2009, khởi động ImageNet, tìm đủ dữ liệu được gắn nhãn luôn là một thách thức đối với cộng đồng Học sâu. Năm 2009, Fei-Fei Li, một giáo sư tại Stanford, khởi chạy ImageNet, một cơ sở dữ liệu gồm 14 triệu hình ảnh được dán nhãn. Nó sẽ là tiêu chuẩn đánh giá cho các nhà nghiên cứu Deep Learning, những người sẽ tham gia các cuộc thi ImageNet (ILSVRC) hàng năm.

Năm 2011, Combat For Vanishing Gradient, Yoshua Bengio, Antoine Bordes, Xavier Glorot trong bài báo của họ “Deep Sparse Rectifier Neural Networks” cho thấy rằng chức năng kích hoạt ReLU có thể tránh được vấn đề về Vanishing Gradient. Điều này có nghĩa là bây giờ, ngoài GPU, cộng đồng học sâu có một công cụ khác để giải quyết các vấn đề về thời gian đào tạo dài và không thực tế của mạng nơ-ron sâu.

Năm 2012, bùng nổ học sâu với AlexNet, một kiến trúc mạng nơ-ron phức hợp CNN sử dụng GPU do Alex Krizhevsky thiết kế, giành chiến thắng trong cuộc thi phân loại hình ảnh của Imagenet với độ chính xác 84%. Đó là một bước nhảy vọt vượt bậc so với độ chính xác 75% mà các mô hình trước đó đã đạt được. Chiến thắng này tạo ra một sự bùng nổ học tập sâu mới trên toàn cầu.

Năm 2014, ra đời Neural Adversarial Generative (GAN), GAN được phát triển bởi Ian Goodfellow. Nó mở ra một cơ hội ứng dụng hoàn toàn mới của học sâu trong thời trang, nghệ thuật, khoa học do khả năng tổng hợp dữ liệu giống như thật của nó.

Năm 2016, Mô hình AlphaGo, mô hình Học sâu tăng cường của Deepmind đánh bại nhà vô địch của con người trong trò chơi cờ vây phức tạp. Trò chơi phức tạp hơn nhiều so với cờ vua, vì vậy kỳ tích này thu hút sự quan tâm của mọi người và nâng tầm Học sâu lên một cấp độ hoàn toàn mới.

Năm 2019, Giải thưởng Trio Win Turing, Yoshua Bengio, Geoffrey Hinton và Yann LeCun giành được Giải thưởng Turing 2018 vì những đóng góp to lớn của họ trong những tiến bộ trong lĩnh vực học sâu và trí tuệ nhân tạo. Đây là một thời điểm quan trọng đối với những người đã từng làm việc về mạng nơ-ron mà toàn bộ cộng đồng nghiên cứu Máy học đã bỏ cuộc vào những năm 1970.

Vì vậy, đằng sau sự tiến hóa này của Deep Learning, có rất nhiều nhà nghiên cứu học máy đã làm việc với quyết tâm cao độ ngay cả khi không ai tin rằng mạng nơ-ron có bất kỳ tương lai nào.