Quản lý AI là quản lý cái gì?

Hoàng Nam · 26/10/2023

Khi tôi nhập câu lệnh yêu cầu ChatGPT giải thích về quản trị trí tuệ nhân tạo bằng một câu đùa ngắn, ChatGPT đã phải nói như sau:
"Quản lý AI: bởi vì ngay cả những thuật toán thông minh nhất đôi khi cũng cần có thời gian chờ!"
Phải thừa nhận rằng phản ứng của ChatGPT rất thông minh. Tuy nhiên, nó cũng có thể gợi ý lý do tại sao các lời kêu gọi quản trị AI đang ngày càng gia tăng và lan rộng trên toàn thế giới. Với sự phát triển nhanh chóng của AI gần đây, liệu chúng ta có thoải mái thời gian chờ không?
Với việc AI - đặc biệt là AI sáng tạo - đang trở thành một phần của xu hướng chủ đạo, đồng thời việc sử dụng và áp dụng nó trong các tổ chức nhanh chóng mở rộng, thì khó có khả năng, nếu không nói là không thể tạm dừng để quản lý bắt kịp. Đã đến lúc quản lý trí tuệ nhân tạo.

Nhưng quản lý AI là quản lý cái gì? Mặc dù nhiều định nghĩa hữu ích về AI đã xuất hiện sau những lời kêu gọi quản lý toàn cầu, các chuyên gia công nghệ có thể đảm bảo rằng AI rất khó định nghĩa. Tương tự, những người làm việc trong lĩnh vực luật và chính sách cũng có thể chứng minh rằng quản trị khó có thể quy gọn thành một định nghĩa rõ ràng. Để tìm hiểu cả "AI" và "lý", tốt hơn là vượt ra ngoài khía cạnh định nghĩa và thay vào đó tham gia vào cơ chế của thuật toán AI để hiểu rủi ro xuất hiện như thế nào, cách áp dụng quản trị và lý do.

Mặt kỹ thuật của AI

Công nghệ AI đã phát triển đáng kể và trong những năm gần đây, chúng ta đã đi một chặng đường dài từ lập trình truyền thống đến AI sáng tạo. Trước đây, các lập trình viên sẽ mã hóa cứng để dạy thuật toán con voi là gì. Với AI tổng quát, máy tính có thể cho bạn biết mọi thứ nó biết về một con voi khi được nhắc làm như vậy.
Để đơn giản, hãy coi AI là một thuật ngữ chung cho các kỹ thuật tính toán bao gồm các thuật toán tự động hóa các khía cạnh của trí tuệ con người. AI hẹp ngày nay đang sao chép về mặt tính toán và không thực sự thể hiện trí thông minh của con người. AI không phải là trí thông minh của con người, nó chỉ bắt chước một số khía cạnh nhất định như suy nghĩ hợp lý, lời nói, ra quyết định, đưa ra dự đoán và tạo ra nội dung – và nó đang hoạt động rất tốt.
Ba kỹ thuật như vậy dành cho AI là học máy, học sâu và AI sáng tạo.
Các thuật toán học máy học từ dữ liệu bằng cách phân tích nó, giống như con người học bằng cách quan sát thế giới xung quanh. Không giống như con người tuân theo quy trình học tập trực quan, các thuật toán học máy sử dụng lý thuyết thống kê và xác suất. Các nhà phát triển bắt đầu quá trình với "tập dữ liệu huấn luyện", là đầu vào. Nếu không có lập trình rõ ràng, thuật toán sẽ tìm hiểu và phân loại các mẫu, cấu trúc và mối quan hệ trong dữ liệu huấn luyện. Nó làm như vậy bằng cách phân tích các thuộc tính thống kê của dữ liệu, chẳng hạn như bằng cách tìm các mẫu hoặc mối tương quan giữa các điểm dữ liệu. Dựa trên những gì nó học được từ tập dữ liệu huấn luyện, thuật toán sẽ tạo ra một "mô hình", bao gồm một loạt các quy tắc ra quyết định. Để đánh giá xem mô hình có hoạt động tốt trong các tình huống thực tế hay không, sau đó, mô hình sẽ được thử nghiệm trên dữ liệu thử nghiệm mà nó không được tiếp xúc trong quá trình đào tạo. Mục đích là khái quát hóa mô hình để hiệu suất của nó chính xác ngay cả đối với dữ liệu mới và chưa được nhìn thấy. Sau khi triển khai, mô hình đưa ra quyết định hoặc dự đoán về dữ liệu mới và không ngừng cải thiện hiệu suất dựa trên những gì nó học được trong môi trường được triển khai.
Học sâu, một lĩnh vực con của học máy, là một kỹ thuật sử dụng mạng lưới thần kinh nhân tạo lấy cảm hứng từ cấu trúc của bộ não con người. Kỹ thuật này xác định các cấu trúc dữ liệu phức tạp thông qua nhiều lớp nơ-ron và mỗi lớp học một khía cạnh khác nhau của dữ liệu. Giả sử chúng ta muốn có một mô hình để phân biệt các loại mèo hoang khác nhau thông qua học tập có giám sát. Chúng tôi cung cấp thuật toán học sâu với tập dữ liệu được gắn nhãn gồm các hình ảnh của tất cả các loại mèo hoang — hổ, sư tử, báo, linh miêu, v.v. Lớp đầu tiên có thể tìm hiểu các màu sắc khác nhau, lớp thứ hai có thể tìm hiểu các đặc điểm như đuôi, mũi, tai hoặc mắt và lớp thứ ba có thể xác định các mẫu phức tạp hơn, chẳng hạn như bờm sư tử hoặc đốm của báo. Việc hủy lớp cuối cùng sẽ giúp thuật toán phân biệt sư tử với báo. Đây là một kỹ thuật phân loại hình ảnh và đại diện cho một mô hình phân biệt đối xử, cho chúng ta biết đâu là sư tử hoặc không phải là sư tử. Giống như học máy, học sâu cũng đưa ra dự đoán về dữ liệu mới.
Generative AI, bản thân nó là một lĩnh vực con của deep learning, cho phép các thuật toán tạo ra nội dung mới như văn bản, video và hình ảnh. Không giống như mô hình phân biệt đã thảo luận ở trên, các mô hình tổng quát không phân loại dữ liệu mới. Đúng hơn, họ tạo ra nội dung mới dựa trên những gì họ học được từ dữ liệu hiện có. Một phương pháp để hiểu AI tổng quát là tìm hiểu cơ chế của một số AI dễ tiếp cận và dễ truy cập nhất - các chatbot như ChatGPT hoặc Bard.
Các chatbot hàng đầu hiện nay là các mô hình ngôn ngữ lớn có thể học và khớp các mẫu trong dữ liệu và duy trì thông tin này trong một tập hợp các giá trị số. Chatbot AI sử dụng kiến trúc mạng thần kinh được gọi là máy biến áp dựa trên cơ chế chú ý được giới thiệu lần đầu tiên trong Chú ý là tất cả những gì bạn cần của Google vào năm 2017. Cơ chế này giúp duy trì mối quan hệ giữa các từ, cho phép chúng tác động đến các từ xung quanh. Điều này giúp mô hình chỉ tập trung vào những phần quan trọng nhất của chuỗi đầu vào.
Theo Google , LLM là "mô hình ngôn ngữ có mục đích chung, lớn, có thể được đào tạo trước và tinh chỉnh cho các mục đích cụ thể". Chúng được gọi là lớn vì chúng được đào tạo trên các tập dữ liệu khổng lồ. Để hình dung mức độ lớn như thế nào, hãy xem xét thu thập thông tin chung , một kho lưu trữ dữ liệu web mở và miễn phí được coi là kho dữ liệu đào tạo chính cho mọi mô hình ngôn ngữ lớn với dữ liệu trang web thô, trích xuất siêu dữ liệu và trích xuất văn bản từ khắp nơi trên internet. Nó có hơn 240 tỷ trang kéo dài 16 năm và 3-5 tỷ trang mới được thêm vào mỗi tháng. Với hàng tỷ trang, bạn chỉ có thể tưởng tượng LLM tiếp xúc với bao nhiêu từ trong quá trình đào tạo. Chúng còn được gọi là lớn vì các thông số khổng lồ của chúng. Chẳng hạn, PaLM của Google có 540 tỷ tham số.
Giai đoạn đào tạo trước phát triển kiến thức chung của mô hình về thế giới của chúng ta trong nhiều lĩnh vực. Đối với chatbot AI, quá trình đào tạo trước có thể được thực hiện thông qua nhiều nguồn dữ liệu văn bản không được gắn nhãn khác nhau, bao gồm cả hoạt động thu thập thông tin thông thường, về nhiều chủ đề khác nhau cho mục đích chung là học ngôn ngữ. Để tạo ra cuộc đối thoại, chẳng hạn như phản hồi cho lời nhắc của người dùng, mô hình sau đó được tinh chỉnh bằng cách sử dụng tập dữ liệu nhỏ hơn, được gắn nhãn cho mục đích cụ thể này.
Nhưng làm sao nó “biết” giao tiếp giống con người? Vì được đào tạo trên một tập hợp dữ liệu văn bản khổng lồ nên mô hình này đã thấy hàng tỷ ví dụ về cách con người sẽ phản ứng với một số lời nhắc nào đó. Và nó thực hiện như vậy từng từ một thông qua phân phối xác suất, tính toán khả năng xảy ra của từ tiếp theo với một số từ trước đó.
Ví dụ: lấy câu "VnReview có trụ sở tại." Những từ tiếp theo sau đây có thể xảy ra:
Hà Nội: 0,9
Cần Thơ: 0,7
Hải Phòng: 0,4
TP.HCM: 0,3
Mô hình có thể sử dụng từ được xếp hạng cao nhất để hoàn thành câu: "VnReview có trụ sở tại Hà Nội”. Nhưng nó không phải lúc nào cũng sử dụng từ có thể xảy ra nhất. Đôi khi, do tham số quy định tính ngẫu nhiên của các phản hồi, nó sẽ chọn ngẫu nhiên một từ ít có khả năng xảy ra hơn. Đây là lý do tại sao chúng ta nhận được phản hồi khác nhau mặc dù đưa ra cùng một lời nhắc. Điều này giúp hệ thống luôn sáng tạo.

Quản lý

Do đó, mục tiêu của quản lý là vòng đời của hệ thống AI. Từ đầu vào, quy trình đến đầu ra, rủi ro có thể xuất hiện từ mỗi thành phần của thuật toán: dữ liệu huấn luyện, mô hình và các tham số của nó cũng như đầu ra. Quản lý AI tập trung vào từng thành phần này và cần được triển khai trong suốt vòng đời của hệ thống.
Vấn đề về hộp đen: Vì các thuật toán AI được đào tạo trên các tập dữ liệu quá lớn để các lập trình viên con người có thể phân tích, nên các mô hình thu được thường là các thuật toán phức tạp. Do đó, không phải lúc nào cũng hoàn toàn rõ ràng dữ liệu nào được sử dụng để phát triển mô hình hoặc để tạo ra mối tương quan nhất định giữa các điểm dữ liệu khác. Đây là vấn đề về hộp đen làm cho hoạt động bên trong của các thuật toán trở nên kém minh bạch hơn. Nghĩa là, việc giải thích hoặc truy tìm cách thức hoặc lý do dự đoán được đưa ra hoặc nội dung mới được tạo ra trở nên khá khó khăn. Thiếu minh bạch cũng có thể là kết quả của các thuật toán được luật sở hữu trí tuệ bảo vệ.
Thẻ mô hình đang nổi lên như một phương pháp hay nhất để làm cho các thuật toán và cơ chế của chúng trở nên dễ giải thích hoặc minh bạch hơn. Những điều này giải thích các khía cạnh khác nhau về một mô hình, chẳng hạn như mục đích sử dụng, thông tin liên quan đến điểm chuẩn hiệu suất trên nhiều số liệu khác nhau như chủng tộc hoặc giới tính và các chi tiết liên quan khác. Thẻ mô hình có thể mang lại lợi ích cho tất cả mọi người tham gia vào việc phát triển, triển khai và sử dụng AI. Ví dụ: chúng có thể giúp các nhà phát triển tìm hiểu thêm về hệ thống và so sánh nó với các mô hình khác, những người thực hành AI có thể tìm hiểu cách hệ thống hoạt động và các nhà hoạch định chính sách có thể đánh giá tác động đến xã hội.
Rủi ro ở giai đoạn đầu vào: Nhưng có vấn đề gì nếu thuật toán có thể giải thích được và minh bạch? Có thể có rủi ro khi để AI đưa ra dự đoán. Sự thiên vị về thuật toán là một trong những rủi ro như vậy, vì nó củng cố những thành kiến
xã hội và có thể dẫn đến những khóa giá trị trong xã hội. Một ví dụ nổi tiếng là thuật toán COMPAS, thuật toán dự đoán bị cáo Da đen có nhiều khả năng tái phạm hơn bị cáo da trắng.
Tuy nhiên, vì thuật toán là sự sao chép tính toán chứ không phải là hiện thân của cách con người suy nghĩ, làm sao thuật toán lại có thể đột nhiên mang tính phân biệt chủng tộc? Không phải vậy. Ít nhất là không có ý thức. Dữ liệu trong thế giới thực mà thuật toán được đào tạo phản ánh sự phân biệt chủng tộc và được củng cố thông qua các dự đoán của mô hình. Dữ liệu không phải lúc nào cũng khách quan, đặc biệt khi con người đã đưa ra những đánh giá trước đó về dữ liệu huấn luyện đó.
Để đảm bảo không có sai lệch ở giai đoạn đầu ra, cần phải quản trị dữ liệu ở cấp đầu vào. Việc quản lý như vậy bắt đầu ở giai đoạn thiết kế trước. Nó liên quan đến việc thu thập dữ liệu theo cách tuân thủ luật bảo vệ dữ liệu, nghĩa là dữ liệu chính xác, mang tính đại diện, được thu thập hợp pháp và số lượng thu thập được giảm thiểu, điều này có thể đặt ra thách thức đối với hiệu quả của AI và quản lý AI.
Rủi ro ở giai đoạn quy trình: Quản trị dữ liệu tiếp tục ở giai đoạn quy trình. Nó bao gồm việc làm sạch dữ liệu, đảm bảo dữ liệu lịch sử không đại diện cho những thành kiến lịch sử và đảm bảo dữ liệu đó không đại diện quá mức hoặc quá thấp cho một số nhóm người nhất định. Trách nhiệm tuân thủ các phương pháp quản trị dữ liệu tốt nhất có thể thuộc về nhiều tác nhân khác nhau tùy thuộc vào giai đoạn vòng đời của hệ thống AI.
Ngoài dữ liệu, bản thân thiết kế hệ thống có thể củng cố những thành kiến
của con người. Trong lập trình truyền thống, lập trình viên con người có thể mã hóa thành kiến của chính họ bằng cách gán điểm rủi ro cao hơn cho một người đàn ông Ả Rập so với một người đàn ông phương Tây. Điều này có thể dễ dàng theo dõi. Khi mô hình được tạo ra bởi AI, các thành kiến sẽ trở nên khó theo dõi hơn do tính phức tạp của mô hình. Các biến mà mô hình được tối ưu hóa cũng có thể dẫn đến kết quả sai lệch. Ví dụ: giả sử một thuật toán đang quyết định xem con bạn có xứng đáng được nhận vào một trường danh tiếng hay không. Một biến số rõ ràng cần loại bỏ là chủng tộc. Mặc dù vậy, có vẻ như thuật toán liên tục từ chối trẻ em thuộc chủng tộc thiểu số. Điều này có thể là do thuật toán tìm kiếm các đại diện chung cho chủng tộc chưa bị loại bỏ khỏi dữ liệu, chẳng hạn như mã bưu chính hoặc thu nhập của cha mẹ. Ở đây, thuật toán không mang tính phân biệt chủng tộc một cách có ý thức hay trực quan. Nó đang thể hiện một lỗi hệ thống, tức là liên tục loại trừ các nhóm người cụ thể hơn các nhóm khác.
Một cách để quản lý những rủi ro như vậy là kiểm tra hệ thống AI. Không giống như kiểm toán tài chính, có thể diễn ra vào cuối năm tài chính, lý tưởng nhất là kiểm toán AI phải được thực hiện trong suốt vòng đời của hệ thống AI và công cụ kiểm toán cụ thể ở mỗi giai đoạn có thể khác nhau. Ví dụ, việc kiểm tra hệ thống trước khi triển khai là phù hợp để đánh giá kết quả đầu ra và hiệu suất của nó. Điều này có thể giúp các nhà phát triển xác định lỗi, sai lệch, tác hại, độ chính xác trong hiệu suất, phù hợp với mục đích sử dụng, rủi ro an ninh mạng, cùng nhiều thứ khác. Nó cũng có thể làm cho các chỉ số hiệu suất khác nhau trở nên dễ hiểu hơn.
Rủi ro ở giai đoạn đầu ra: Ngoài việc đưa ra những kết quả đầu ra mang tính phân biệt đối xử, AI còn làm tăng nguy cơ thông tin sai lệch thông qua các tác phẩm giả mạo sâu. Rủi ro này càng gia tăng bởi AI sáng tạo và là một công cụ mạnh mẽ dành cho những kẻ có mục đích xấu. Nó cũng có thể dẫn đến việc tạo ra nội dung bất hợp pháp trên quy mô lớn, khiến việc kiểm duyệt nội dung trở nên khó khăn hơn.
Hơn nữa, AI tổng quát cũng có thể dẫn đến những vi phạm tiềm ẩn theo luật bản quyền, vì các tác phẩm có bản quyền có thể chiếm một phần của tập dữ liệu đào tạo. AI sáng tạo cũng làm tăng nguy cơ phát tán thông tin sai lệch do " ảo giác ", trong đó phản hồi của AI nghe có vẻ đúng ngữ pháp nhưng thực tế lại không chính xác. Ảo giác gần đây hóa ra lại gây bối rối một cách công khai đối với một luật sư Hoa Kỳ, người đã sử dụng ChatGPT để tìm kiếm tiền lệ và đệ trình các vụ án pháp lý giả do chatbot tạo ra lên tòa án.
Một lần nữa, chatbot chỉ bắt chước trí thông minh của con người. Nó không "biết" mình đã nói dối luật sư, nhưng chatbot được thiết kế để đưa ra kết quả đầu ra, vì vậy nó đã kiểm tra xác suất và đưa ra kết quả. Điều này có thể khiến người dùng có nguy cơ thiên vị tự động hóa. Họ có thể quá tin tưởng hoặc thiên về kết quả đầu ra do hệ thống AI dự đoán hoặc tạo ra. Điều này có thể nguy hiểm trong các tình huống có rủi ro cao chẳng hạn như khi chúng được sử dụng bởi các thẩm phán đưa ra quyết định tái phạm hoặc bởi các tổ chức tài chính ấn định điểm tín dụng.
Với bản chất của những rủi ro như vậy, chúng được quản lý tốt hơn theo luật. Theo nghĩa vụ nhận dạng trong Biện pháp tạm thời của Trung Quốc về quản lý dịch vụ AI tạo ra, các nhà cung cấp được yêu cầu dán nhãn nội dung do AI tạo ra để có thể phân biệt được với nội dung khác. Đối với Đạo luật AI của EU, Nghị viện Châu Âu đã đề xuất các tiết lộ tương tự đối với nội dung do AI tạo ra và yêu cầu các mô hình nền tảng đảm bảo các biện pháp bảo vệ chống lại việc tạo ra nội dung bất hợp pháp. Để bảo vệ bản quyền, Nghị viện Châu Âu cũng đề xuất công khai các bản tóm tắt chi tiết về dữ liệu có bản quyền được sử dụng cho hoạt động đào tạo.

Kết luận

Một quan điểm đang diễn ra trong những năm gần đây là AI mang lại nhiều lợi ích cần được tối đa hóa thông qua việc giảm thiểu rủi ro. Tình cảm đó bắt nguồn từ nhu cầu về các hệ thống đáng tin cậy. Quản lý - quản lý tốt - là đại diện cho niềm tin.
Quản lý không có nghĩa là chỉ tuân thủ luật pháp và chính sách, mặc dù chúng là những bộ phận cực kỳ quan trọng. Vì việc chờ đợi các quy định pháp lý trong khi AI phát triển nhanh chóng và rủi ro lớn có thể không thực tế, nên quản trị cũng có thể bao gồm các chính sách nội bộ như kiểm toán và đánh giá tác động hoặc sự chuẩn bị của tổ chức bởi các chuyên gia đào tạo để thực hiện các mục tiêu quản lý một cách có trách nhiệm.
Trong lĩnh vực đa ngành như vậy, cần có cầu nối giữa các khía cạnh kỹ thuật và pháp lý hoặc chính sách, để ý nghĩa không bị mất khi dịch khi chuyển từ ngành này sang ngành khác và do đó quản lý có thể trở nên gắn bó hơn với sự phát triển và triển khai, thay vì được nhìn nhận một cách riêng biệt.