30/08/2017, 00:00Hà Nội

Xe tự lái vẫn chưa thể bắt chước hành vi tự nhiên nhất của con người

Xe tự lái được kì vọng là giải pháp cho nguyên nhân gây tử vong hàng đầu trên toàn thế giới: tai nạn giao thông. Nhưng để thành công, xe tự lái cần phải mô phỏng được trực giác – hành vi tự nhiên nhất của con người.

Bài viết là góc nhìn của Sam Anthony, Giám đốc công nghệ và đồng sáng lập của Perceptive Automata, một công ty chuyên về phần mềm cho xe tự lái được khởi xướng bởi các nhà thần kinh học và khoa học máy tính của Đại học Harvard.

Chúng ta cần có gì để tạo ra được một chiếc xe tự lái? Các nhà nghiên cứu đã đề ra những yêu cầu cơ bản: Nó cần phải biết các đường ranh giới của đường, biết rẽ và nhấn phanh; biết giới hạn tốc độ, nhận biết màu sắc của đèn giao thông; đọc được biển báo, phản ứng một cách nhanh chóng trước vật thể không mong muốn trên đường, và nó sẽ được điểm cộng nếu biết mình đang ở đâu trên bản đồ.

Tất cả những kĩ năng đó đều quan trọng và cần thiết. Nhưng bằng cách xây dựng từ một hàng dài danh sách yêu cầu kĩ thuật, các nhà nghiên cứu đã bỏ qua một yếu tố quan trọng nhất khi lái xe trên thực tế: trực giác của chúng ta. Việc sử dụng nó để xác định mục đích của những thứ xung quanh chúng ta là một thứ gì đó mà con người giỏi đến nỗi rất khó để nhận thấy được chúng ta đang làm điều đó, chứ đừng nói đến việc lập trình nó.

Một chiếc xe tự lái hiện không có khả năng để nhìn vào một người – dù họ đang đi bộ, lái ô tô hay đi xe đạp – và biết được họ đang nghĩ gì. Tuy nhiên những phán đoán này của con người là điều cốt lõi để đảm bảo sự an toàn khi chúng ta lái xe – và cả những người khác trên đường nữa.

Là Giám đốc công nghệ và đồng sáng lập của Perceptive Automata, một công ty chuyên về phần mềm cho xe tự lái được khởi xướng bởi các nhà thần kinh học và khoa học máy tính của Harvard, tôi muốn biết cách con người thực hiện những hành vi tiềm thức khi đi trên đường như thế nào. Tôi lấy một chiếc camera và đi đến một giao lộ ở gần phòng thí nghiệm cũ của tôi tại Harvard. Nó không đông đúc như những giao lộ ở trung tâm thành phố Boston, chứ chưa nói đến Manhattan hay Mexico City. Nhưng chỉ trong 30 giây, tôi có thể đếm được hơn 45 trường hợp một người sử dụng trực giác để đoán những gì người khác đang suy nghĩ. Những trực giác này có thể là "người đó sẽ không nhường đường", "người kia không nhìn thấy mình", hay "người này sẽ không sang đường khi đang dắt chó đi dạo". Người đi xe đạp đó định rẽ trái hay dừng? Người đi bộ kia có định sang đường ở đường cho người đi bộ hay không? Những sự phán đoán này luôn diễn ra chỉ trong tích tắc.

Dự đoán trạng thái tinh thần

Chúng ta có rất nhiều bằng chứng thực nghiệm cho thấy con người cực kì giỏi trong việc nhận biết ý định của người khác. Sally-Anne là một thí nghiệm tâm lý cổ điển. Các đối tượng – thường là trẻ em – sẽ theo dõi các nhà nghiên cứu diễn cảnh với búp bê. Búp bê có tên Sally giấu một viên đá cẩm thạch trong một chiếc giỏ đã được bọc. Sally rời khỏi phòng. Trong khi Sally không có trong phòng, Anne – con búp bê thứ hai – sẽ bí mật di chuyển viên đá cẩm thạch ra khỏi cái giỏ và đặt vào một hộp kín. Khi Sally quay lại, trẻ em sẽ được hỏi con búp bê sẽ tìm viên đá ở nơi nào đầu tiên. Câu trả lời rất dễ dàng: "Tất nhiên là cô ấy sẽ tìm ở trong giỏ trước rồi", vì Sally không biết viên đá đã bị di chuyển. Nhưng từ "tất nhiên" ấy có ẩn chứa một mô hình có độ phức tạp cao. Trẻ em không những phải biết được Sally chỉ nhận thức được một số điều nhất định, mà còn nhìn thấy được nhận thức của Sally chỉ được cập nhật khi cô ấy chú ý vào một điều gì đó. Trẻ cũng phải hiểu rõ rằng trạng thái tinh thần của Sally là nhất quán, ngay cả khi cô ấy đã đi khỏi phòng và quay trở lại. Thí nghiệm này đã được lặp đi lặp lại nhiều lần ở các phòng thí nghiệm trên toàn thế giới, và nó là một phần của bộ công cụ tiêu chuẩn mà các nhà nghiên cứu sử dụng để hiểu xem trực giác xã hội của một người nào đó còn nguyên vẹn hay không.

Khả năng dự đoán trạng thái tinh thần của người khác là bẩm sinh, và chúng ta thậm chí còn áp dụng nó lên các đối tượng không phải là người. Thí nghiệm Heider-Simel cho thấy chúng ta có xu hướng dễ dàng nhận ra ý định nhận thức ngay cả với các hình dạng hình học đơn giản. Trong nghiên cứu nổi tiếng này, một bộ phim với hai hình tam giác và một hình tròn di chuyển quanh màn hình. Gần như không có ngoại lệ, hầu hết mọi người đều xây dựng một nội dung chi tiết xung quanh mục tiêu và sự tương tác của các hình dạng ấy: một là nhân vật phản diện, một là người bảo vệ, còn lại là nạn nhân đã tìm được lòng dũng cảm và cứu lấy dữ liệu – tất cả chỉ từ việc nhìn vào sự di chuyển của những hình ấy. Trong văn học tâm lý, điều này được gọi là "impoverished stimulus" (tạm dịch: sự kích thích nghèo nàn).

Sự tương tác của chúng ta với những người trên đường cũng là một ví dụ điển hình về sự kích thích nghèo nàn này. Chúng ta chỉ nhìn thấy người đi bộ trong vài trăm mili giây trước khi quyết định phản ứng với họ như thế nào. Chúng ta thấy một chiếc ô tô đi lách sang làn đường trong nửa giây và phải chọn xem có nên nhường đường hay không. Những kiểu tương tác này là bất biến, và chúng là cốt lõi của việc lái xe an toàn.

Và máy tính, cho đến thời điểm hiện tại, hoàn toàn vô vọng trong việc xác định chúng.

Máy tính không phải là những thiết bị đọc tâm trí

Sự nguy hiểm của việc thiếu đi trực giác đã có những bằng chứng thuyết phục. Trong vụ va chạm đầu tiên mà lỗi bắt nguồn từ xe tự lái, một chiếc xe của Google tại Mountain View đã giả định thiếu chính xác rằng tài xế xe bus sẽ nhường đường cho nó, hiểu sai tính cấp bách và sự linh hoạt của người tài xế ấy. Trong vụ tai nạn khác, một chiếc xe của Uber tại Arizona đã bị đâm bởi một tài xế quay đầu xe, người đã dự tính rằng những xe đang đi sẽ chú ý đến việc tốc độ của dòng xe đã giảm xuống và điều chỉnh tốc độ.

Tại sao máy tính lại quá tệ trong việc đọc tâm trí, nếu con người có thể thực hiện một cách dễ dàng? Tình huống này xuất hiện quá nhiều trong sự phát triển của AI, đến nỗi nó có tên riêng: "Nghịch lý Moravec". Các tác vụ càng dễ cho con người thì càng khó cho máy tính. Theo nhà tiên phong trí tuệ nhân tạo Marvin Minsky: "Chúng ta thường chú ý tới những quy trình đơn giản nhưng không hoạt động tốt, hơn là những cái phức tạp mà lại hoạt động hoàn hảo".

Giải pháp thông thường là định nghĩa tác vụ càng đơn giản càng tốt và sử dụng những thứ được gọi là "thuật toán deep-learning", học hỏi từ một lượng lớn dữ liệu. Nhưng chúng ta phải làm gì với những vấn đề mà các sự kiện thực tế cơ bản về thế giới không đơn giản và cũng không truy cập được? Con người có thể đưa ra những phán đoán với sự chính xác đáng ngạc nhiên về những con người khác vì chúng ta có một tập hợp các mô hình cục bộ cực kì phức tạp cho cách hành xử của những người xung quanh. Nhưng các mô hình ấy lại bị ẩn trong những hộp đen ở trong tâm trí của chúng ta. Làm thế nào để bạn có thể liên kết hình ảnh với những lời độc thoại ở trong tâm trí của người khác?

Cách duy nhất để giải quyết những vấn đề này là hiểu sâu về hành vi của con người – không phải chỉ bằng kĩ thuật đảo ngược (reverse engineering), và còn đặc trưng chúng một cách cẩn thận và toàn diện bằng các kĩ thuật của khoa học hành vi. Chúng ta cần sử dụng các kỹ thuật nghiên cứu hành vi của con người để xây dựng mô hình thị giác-máy tính được huấn luyện để nắm bắt các sắc thái của phản ứng của con người với thế giới thay vì cố gắng đoán mô hình cục bộ của chúng ta trông như thế nào.

Trước tiên, chúng ta phải nghiên cứu cách con người hoạt động – rồi mới đào tạo máy móc. Nắm rõ được điểm mạnh, điểm yếu trong khả năng của con người thì chúng ta mới có thể tạo ra những chiếc máy tính để giải quyết vấn đề. Bằng cách sử dụng con người làm mô hình để thực hiện ý tưởng, chúng ta có thể tìm ra một giải pháp có ý nghĩa cho trực giác.

Và chúng ta buộc phải giải quyết. Nếu xe tự lái có thể thực hiện được lời hứa và trở thành một cuộc cách mạng trong giao thông đô thị - giảm phát khí thải, di chuyển tốt hơn, đường phố an toàn hơn – chúng sẽ phải ở cùng đẳng cấp với những con người ở trên đường. Xe tự lái sẽ không những phải trở thành một "công dân tốt", biết cách tránh gây tai nạn, mà còn có thể lái theo cách dễ hiểu, dễ đoán với những phương tiện khác đang chia sẻ con đường.

Văn Hoàn

Xe tự lái vẫn chưa thể bắt chước hành vi tự nhiên nhất của con người

Chủ đề khác