Lizzie
Writer
AlphaGo là một tác nhân trí tuệ nhân tạo (AI) chuyên để chơi cờ vây - trò chơi trên bàn cờ chiến lược của Trung Quốc – đấu với người. AlphaGo là một dự án DeepMind của Google. Khả năng tạo ra một thuật toán học tập có thể đánh bại một người chơi trong các trò chơi chiến lược là một thước đo cho sự phát triển của AI.
Kỳ thủ Ke Jie chịu thất bại trước Alphago
Trí tuệ nhân tạo AlphaGo đã chiến thắng nhà vô địch thế giới cờ vây Ke Jie năm 2017, được mô tả như “người ngoài hành tinh” hay người đến từ một chiều không gian hay thế.
AlphaGo sử dụng một mạng nơ-ron thay vì hai mạng. Các phiên bản trước của AlphaGo đã sử dụng “mạng chính sách” để chọn nước đi tiếp theo để chơi và “mạng giá trị” để dự đoán người chiến thắng trò chơi từ mỗi vị trí.
Trong một bài báo được xuất bản trên Nature năm 2017, DeepMind tiết lộ rằng một phiên bản mới của AlphaGo (đặt tên là AlphaGo Zero) đã chọn cờ vây từ đầu mà không nghiên cứu bất kỳ trò chơi nào của con người. AlphaGo Zero chỉ mất ba ngày để đạt được điểm mà nó được đọ sức với một phiên bản cũ của chính nó và thắng 100 ván.
Giờ đây, AlphaGo được cho là không còn gì để học hỏi từ con người. Sự tiến bộ không ngừng của nó chỉ để đấu với chính nó.
Hơn nữa, nhờ được thiết kế mô phỏng hoạt động não người, phần mềm này có thể phân tích bài học từ những sai lầm để đưa ra phương án tốt hơn cho mỗi lần chơi sau.
Qua đó, AlphaGo liên tục cập nhật dữ liệu các trận đấu cờ vây trên khắp thế giới. Ngoài ra, theo nhà đồng sáng lập DeepMind, phần mềm này sẽ học cách để đánh thắng chính nó, bằng cách "phân thân" tư duy độc lập và liên tục tỉ thí, học hỏi.
Trí tuệ nhân tạo AlphaGo đã chiến thắng nhà vô địch thế giới cờ vây Ke Jie năm 2017, được mô tả như “người ngoài hành tinh” hay người đến từ một chiều không gian hay thế.
AlphaGo sử dụng một mạng nơ-ron thay vì hai mạng. Các phiên bản trước của AlphaGo đã sử dụng “mạng chính sách” để chọn nước đi tiếp theo để chơi và “mạng giá trị” để dự đoán người chiến thắng trò chơi từ mỗi vị trí.
Trong một bài báo được xuất bản trên Nature năm 2017, DeepMind tiết lộ rằng một phiên bản mới của AlphaGo (đặt tên là AlphaGo Zero) đã chọn cờ vây từ đầu mà không nghiên cứu bất kỳ trò chơi nào của con người. AlphaGo Zero chỉ mất ba ngày để đạt được điểm mà nó được đọ sức với một phiên bản cũ của chính nó và thắng 100 ván.
Giờ đây, AlphaGo được cho là không còn gì để học hỏi từ con người. Sự tiến bộ không ngừng của nó chỉ để đấu với chính nó.
Alphago viết bằng ngôn ngữ gì?
Tất cả code được thử và viết trên Ubuntu 18.04 sử dụng Python 2.7, Tensorflow v1. 7.0 và được biên dịch bằng NVCC V9. 0.176 (Nvidia Cuda compiler).AlphaZero (phiên bản sau của Alphago) sử dụng thuật toán gì?
Trong trò chơi cờ vây (Go), AlphaGo Zero sử dụng MC Tree Search để xây dựng chính sách cục bộ nhằm lấy mẫu nước đi tiếp theo. MCTS tìm kiếm các bước di chuyển có thể có và ghi lại kết quả trong cây tìm kiếm. Khi nhiều tìm kiếm được thực hiện, cái cây cũng phát triển lớn hơn cũng như thông tin của nó. Để thực hiện một bước trong Alpha-Go Zero, 1.600 tìm kiếm sẽ được tính toán.Hơn nữa, nhờ được thiết kế mô phỏng hoạt động não người, phần mềm này có thể phân tích bài học từ những sai lầm để đưa ra phương án tốt hơn cho mỗi lần chơi sau.
Qua đó, AlphaGo liên tục cập nhật dữ liệu các trận đấu cờ vây trên khắp thế giới. Ngoài ra, theo nhà đồng sáng lập DeepMind, phần mềm này sẽ học cách để đánh thắng chính nó, bằng cách "phân thân" tư duy độc lập và liên tục tỉ thí, học hỏi.