Làm sao để máy móc suy nghĩ và hành động giống con người?

thuha19051234 · 23/05/2022

Mạng lưới nơ-ron não bộ là khái niệm chỉ một tập hợp phức tạp gồm hàng chục tỷ tế bào thần kinh trong não, được liên kết thông qua các xung điện hoặc các dạng liên kết hóa học. Những tế bào thần kinh này sử dụng tín hiệu xung điện để tương tác với nhau, nhằm thực hiện một chức năng hoặc điều khiển hành động nhất định nào đó của con người. Chẳng hạn nhiệm vụ nhận thức gồm suy nghĩ, hồi tưởng,...
Tế bào thần kinh sẽ gửi các tín hiệu điện qua sợi trục hoặc sợi nhánh của nó. Phần cuối của sợi trục có nhiều nhánh, được gọi là đuôi gai. Khi tín hiệu được dẫn truyền đến đuôi gai, các hóa chất gọi là chất dẫn truyền thần kinh sẽ được giải phóng vào khoảng trống giữa các tế bào. Những tế bào phía bên kia khoảng trống này chứa thụ thể - nơi các chất dẫn truyền thần kinh liên kết - để kích hoạt những thay đổi trong tế bào.
Trong một số trường hợp các chất dẫn truyền thần kinh làm cho một tín hiệu điện được truyền xuống tế bào nhận, còn một số hợp chất khác có thể chặn tín hiệu tiếp tục, ngăn không cho thông điệp được truyền đến các tế bào thần kinh khác. Bằng cách này, một số lượng lớn các tế bào thần kinh có thể giao tiếp được với nhau, tương tác chặt chẽ làm nên cái gọi là "mạng lưới nơ-ron não bộ" quy mô lớn.
Điều quan trọng bây giờ, đó là con người phải hiểu được hoạt động cơ bản của mạng nơ-ron sinh học, giải thích được nguồn gốc và hoạt động của mạng nơ-ron nhân tạo. Mạng nơ-ron nhân tạo chính là một hệ thống tính toán bắt chước các tế bào thần kinh trong não người để giúp máy móc suy nghĩ, hoạt động như người.

Vậy mạng nơ-ron nhân tạo là gì?

Nếu bạn thực hiện lập trình trên máy tính vì một mục đích nào đó, máy tính sẽ nghe theo sự điều khiển của bạn. Nó phản ứng với một số tình huống nhất định theo cách bạn đã “nói” với nó. Chúng ta đang muốn nói đến một thuật toán ở đây: một tập hợp các hướng dẫn để giải quyết một loại vấn đề nhất định, để máy móc hiểu chúng phải làm gì.
Tuy nhiên, có những hạn chế trong các hướng dẫn mà con người viết ra trong một đoạn mã lập trình. Chúng ta không thể sử dụng một đoạn mã đơn giản để dạy máy tính cách diễn giải ngôn ngữ tự nhiên hoặc cách đưa ra dự đoán, thực tế là cách "suy nghĩ" cho chính nó. Điều này được giải thích do một mã không thể đủ lớn để bao gồm tất cả các tình huống có thể xảy ra. Chẳng hạn những quyết định chúng ta đưa ra khi lái xe trên đường, chúng ta không thể dự đoán những gì mà người lái xe bên cạnh sẽ làm để quyết định những gì mình sẽ làm tiếp theo.
Máy tính không thể phản ứng khác hoặc chính xác nhất với những trường hợp đặc biệt, vì một lý do là nó không thể có các phản ứng cụ thể được định cấu hình trước cho chúng. Nhưng liệu một máy tính có thể tự tìm ra cách phản ứng này không, đó là lúc chúng ta đề cập đến máy học - một công cụ "huấn luyện" máy tính học từ dữ liệu và phát triển năng lực dự đoán, từ đó đưa ra khả năng quyết định chính xác.
Mạng nơ-ron nhân tạo (ANN) hoặc mạng nơ-ron mô phỏng (SNN), là một loại máy học, thiết kế của nó được lấy cảm hứng từ cách các tế bào thần kinh sinh học truyền tín hiệu cho nhau như đã nói ở phần đầu. Trong mạng nơ-ron nhân tạo, các bản sao của nơ-ron sinh học là các lớp nút liên kết với nhau truyền tín hiệu đến các nút khác, sử dụng thông tin từ việc phân tích dữ liệu để đưa ra kết quả đầu ra.
Mạng nơ-ron nhân tạo có ba loại lớp:
- Các lớp đầu vào, nơi đặt dữ liệu đầu vào
- Các lớp ẩn, nơi xử lý xảy ra thông qua các kết nối có trọng số
- Các lớp đầu ra, nơi gửi phản ứng với các “kích thích”

Làm sao để máy móc suy nghĩ và hành động giống con người?

Mỗi nút riêng lẻ trong mạng nơ-ron nhân tạo sẽ nhận dữ liệu và gán trọng số riêng cho nó, do đó nó có tầm quan trọng nhất định. Những dữ liệu có trọng số cao hơn sẽ đóng góp nhiều hơn vào kết quả đầu ra so với các dữ liệu khác. Trường hợp dữ liệu đầu ra vượt quá một ngưỡng nhất định, nó sẽ "kích hoạt" nút, chuyển dữ liệu đến lớp tiếp theo trong mạng.

Mạng nơ-ron sâu và học sâu

Mạng nơ-ron sâu và học sâu đều là tập hợp con của học máy. Khi mạng nơ-ron có nhiều hơn một lớp ẩn để xử lý dữ liệu đầu vào thì chúng có thể học được các nhiệm vụ phức tạp hơn vì chúng có nhiều “nơ-ron” hơn để xử lý dữ liệu đó thông qua tất cả các lớp ẩn được kết hợp. Mạng nơ-ron nhiều lớp còn được được gọi là mạng nơ-ron sâu và những gì chúng làm được gọi là học sâu.
Chúng ta sẽ thực hiện một phép so sánh giữa những gì bộ não của một đứa trẻ 3 tuổi so với những gì bộ não của một người lớn 30 tuổi có thể làm được. Trẻ mới biết nói biết đi vốn cũng có được trí thông minh như người lớn nhưng không có kinh nghiệm như người lớn, đơn giản vì não bộ của chúng chưa có nhiều dữ liệu, do vậy, trẻ sẽ không có nhiều thông tin hoặc khả năng xử lý thông tin như người lớn khi cố gắng giải quyết một vấn đề nào đó.
Đó cũng chính là lý do tại sao mạng nơ-ron cần được đào tạo, nghĩa là chúng cần được cung cấp các tập dữ liệu lớn để có thể tìm ra những trọng số thích hợp nhằm xử lý tốt nhất các dữ liệu đầu vào để đầu ra chính xác nhất. Mạng nơron thực hiện điều này bằng cách áp dụng các thuật toán tối ưu hóa, chẳng hạn như lan truyền ngược gradient. Bằng cách này, học sâu thậm chí có thể vượt qua độ chính xác ở cấp độ con người bởi nó có khả năng sàng lọc và sắp xếp một lượng lớn dữ liệu.
Giống như tường học được tổ chức theo các lớp khác nhau tùy theo mức độ kiến thức của học sinh ở mỗi giai đoạn, các mạng thần kinh học sâu xây dựng các mức kiến thức phân cấp khác nhau trong các lớp của chúng. Chẳng hạn, chúng có thể lưu trữ những thông tin về các hình dạng cơ bản trong lớp ban đầu của chúng và cuối cùng là nhận ra đối tượng một cách đầy đủ trọn vẹn, cùng với các đặc điểm của nó trong lớp đầu ra.
Dưới đây chúng ta sẽ tiếp tục tìm hiểu một số loại mạng nơ-ron nhân tạo cụ thể hơn gồm mạng nơ-ron tích chập và mạng nơ-ron hồi quy.

Mạng nơ-ron tích chập là gì?

Mạng nơ-ron tích chập (CNN-Convolutional neural network) cũng là một loại mạng nơ-ron nhân tạo, là một lớp của mạng thần kinh sâu, trong đó sử dụng các mẫu kết nối để xử lý dữ liệu pixel. Trên thực tế, mạng nơ-ron tích chập chủ yếu được sử dụng cho các nhiệm vụ nhận dạng và phân loại hình ảnh bởi vì chúng được thiết kế và sắp xếp để xử lý đặc biệt tốt trong việc đó.
Chúng thường sử dụng các phép nhân trong ma trận để nhận ra các mẫu trong hình ảnh, yêu cầu nhiều khả năng tính toán và đào tạo.
Mạng tích chập cũng gồm 3 lớp:
- Lớp chuyển đổi, thực hiện tích chập — tìm kiếm các tính năng cụ thể trong hình ảnh đầu vào thông qua các bộ phát hiện tính năng được gọi là bộ lọc.
- Lớp gộp, nơi các kích thước của bản đồ đối tượng địa lý được giảm kích thước, trong khi các đặc điểm quan trọng của chúng được giữ nguyên. Điều này giúp làm giảm số lượng các tham số và tính toán cần được thực hiện, nâng cao hiệu quả xử lý.
- Lớp được kết nối đầy đủ, nơi tất cả các nút và đầu vào từ tất cả các lớp được kết nối, có trọng số, được kích hoạt và quá trình phân loại diễn ra. Điều này cũng có thể được đặt trước hoặc bao gồm một lớp đơn vị tuyến tính được chỉnh lưu. Điều này thay thế tất cả các giá trị âm nhận được dưới dạng đầu vào bởi các số không, hoạt động như một hàm kích hoạt.

Mạng nơ-ron hồi quy là gì?

Mạng nơ-ron hồi quy (RNN- Recurrent neural networks) là một phân loại nữa trong mạng nơ-ron nhân tạo chuyên xử lý dữ liệu chuỗi thời gian tuần tự. Thuật toán học sâu của chúng được thiết kế để giải quyết những vấn đề tức thì như nhận dạng giọng nói, dự báo bán hàng và tạo phụ đề hình ảnh tự động.
Mạng nơ-ron hồi quy lấy thông tin dữ liệu từ các đầu vào trước đó, sau đó áp dụng điều này cho các đầu vào và đầu ra hiện tại. Nếu như mạng nơ-ron truyền thống có đầu vào và đầu ra độc lập với nhau, đầu ra của mạng nơ-ron tuần hoàn phụ thuộc vào các phần tử khác trong chuỗi. Cách tiếp cận này cũng được sử dụng trong nhiệm vụ nhận dạng giọng nói vì ngôn ngữ của con người hoạt động với chuỗi các từ, chứ không phải là những từ riêng lẻ. Do đó, để diễn giải lời nói, mạng nơ-ron lặp lại cần phải "hiểu" toàn bộ câu chứ không chỉ các từ riêng lẻ.
Chẳng hạn, để thành ngữ "give someone the cold shoulder" trong tiếng Anh có nghĩa, các từ cần được diễn đạt theo một trình tự cụ thể. Sau đó, chúng được liên kết với nhau trong ý nghĩa của thành ngữ, còn khi tách các từ ra, sẽ không tạo ra một nghĩa đúng. Để một mạng nơ-ron hồi quy có thể diễn giải chính xác thành ngữ này, nó cần tính đến vị trí của từng từ, sau đó sử dụng thông tin đó để dự đoán từ tiếp theo trong chuỗi.

Tại sao các mạng nơ-ron lại đóng vai trò quan trọng?

Tất cả các loại mạng nơ-ron nói trên đều có thể nâng cao hiệu suất của trí tuệ nhân tạo (AI) lên một cấp độ mới theo cách riêng của chúng. Chúng quan trọng bởi có thể ứng dụng thực tế trong nhiều lĩnh vực. Trong ngành hàng không vũ trụ, chúng được sử dụng để chẩn đoán lỗi và lái tự động trong máy bay và tàu vũ trụ. Trong y học, những mạng nơ-ron phức hợp sẽ giúp chẩn đoán y tế thông qua việc xử lý và so sánh dữ liệu hình ảnh y tế (chẳng hạn như X-quang, chụp CT hoặc siêu âm).
Ngoài ra, mạng nơ-ron cũng được ứng dụng trong các hệ thống bảo mật, chẳng hạn như hệ thống nhận dạng khuôn mặt, trong đó nó sẽ so sánh khuôn mặt được phát hiện với khuôn mặt có trong cơ sở dữ liệu để xác định cá nhân muốn thực hiện hành vi nào đó, hay xác minh các chữ ký để xử lý các dữ liệu ngân hàng hay thông tin tài chính nhằm tránh những trường hợp giả mạo. Ngoài ra, mạng nơ-ron còn hỗ trợ trong việc điều hướng ô tô tự lái thông qua phát hiện người đi bộ và các phương tiện khác, từ đó đưa ra quyết định.
Nhờ vào khả năng dự đoán mà mạng nơ-ron nhân tạo cũng được sử dụng trong dự báo thời tiết và dự đoán thị trường chứng khoán. Hiện mạng nơ-ron có thể được tìm thấy khá phổ biến trong công nghệ hằng ngày. Chẳng hạn như Google Translate sử dụng hệ thống dịch máy để xử lý và có thể dịch toàn bộ câu với độ chính xác ngày càng cao. Trợ lý Siri của Apple sử dụng một mạng lưới nơ-ron sâu để nhận dạng lệnh thoại kích hoạt nó (Hey Siri), cũng như tạo ra lời nói sau đó.
Mạng nơ-ron thực sự rất hữu ích vì tính hiệu quả của chúng, chưa kể đến những tiềm năng công nghệ to lớn khi chúng được phát triển về quy mô và khả năng giải quyết vấn đề.
Nguồn interestingengineering