Cách Thomson Reuters phát triển Open Arena, một sân chơi mô hình ngôn ngữ lớn cấp doanh nghiệp, trong vòng chưa đầy 6 tuần

Thoại Viết Hoàng · 21/08/2023

Bài đăng này được viết bởi Shirsha Ray Chaudhuri, Harpreet Singh Baath, Rashmi B Pawar và Palvika Bansal từ Thomson Reuters.

Cải thiện kết quả ChatGPT của bạn với các tính năng ẩn này

Cách Thomson Reuters phát triển Open Arena, một sân chơi mô hình ngôn ngữ lớn cấp doanh nghiệp, trong vòng chưa đầy 6 tuần

Thomson Reuters (TR), một công ty định hướng công nghệ và nội dung toàn cầu, đã sử dụng trí tuệ nhân tạo (AI) và máy học (ML) trong các sản phẩm thông tin chuyên nghiệp của mình trong nhiều thập kỷ. Thomson Reuters Labs, nhóm đổi mới chuyên dụng của công ty, đã đóng vai trò không thể thiếu trong công việc tiên phong của họ trong lĩnh vực AI và xử lý ngôn ngữ tự nhiên (NLP). Một cột mốc quan trọng là sự ra mắt của Westlaw Is Natural (WIN) vào năm 1992. Công nghệ này là một trong những công nghệ đầu tiên thuộc loại này, sử dụng NLP để nghiên cứu pháp lý tự nhiên và hiệu quả hơn. Chuyển nhanh đến năm 2023 và Thomson Reuters tiếp tục xác định tương lai của các chuyên gia thông qua đổi mới nhanh chóng, giải pháp sáng tạo và công nghệ mạnh mẽ.
Việc giới thiệu AI tổng quát mang đến một cơ hội khác để Thomson Reuters làm việc với khách hàng và một lần nữa nâng cao cách họ thực hiện công việc, giúp các chuyên gia rút ra thông tin chi tiết và tự động hóa quy trình công việc, cho phép họ tập trung thời gian vào những việc quan trọng nhất. Trong khi Thomson Reuters vượt qua ranh giới của những gì trí tuệ nhân tạo và các công nghệ khác có thể làm cho các chuyên gia hiện đại, thì nó sử dụng sức mạnh của công nghệ này cho các nhóm của mình như thế nào?
Thomson Reuters tập trung cao độ vào việc nâng cao nhận thức và hiểu biết về AI giữa các đồng nghiệp trong mọi nhóm và mọi lĩnh vực kinh doanh. Bắt đầu từ các nguyên tắc cơ bản về AI là gì và ML hoạt động như thế nào, nó cung cấp một chương trình cuốn chiếu gồm các phiên nâng cao nhận thức về AI trên toàn công ty, bao gồm hội thảo trên web, tài liệu đào tạo và thảo luận nhóm. Trong các phiên này, các ý tưởng về cách sử dụng AI bắt đầu xuất hiện khi các đồng nghiệp xem xét cách sử dụng các công cụ giúp họ sử dụng AI cho các công việc hàng ngày cũng như phục vụ khách hàng của họ.Trong bài đăng này, chúng tôi thảo luận về cách Thomson Reuters Labs tạo Open Arena, sân chơi mô hình ngôn ngữ lớn (LLM) cho toàn doanh nghiệp của Thomson Reuters được phát triển với sự cộng tác của AWS. Ý tưởng ban đầu xuất phát từ Cuộc thi hackathon AI/ML do Simone Zucchet (Kiến trúc sư giải pháp AWS) và Tim Precious (Người quản lý tài khoản AWS) hỗ trợ và được phát triển thành sản phẩm bằng các dịch vụ AWS trong vòng chưa đầy 6 tuần với sự hỗ trợ từ AWS. Các dịch vụ do AWS quản lý, chẳng hạn như AWS Lambda, Amazon DynamoDB và Amazon SageMaker, cũng như Bộ chứa Hugging Face Deep Learning (DLC) dựng sẵn, đã góp phần thúc đẩy tốc độ đổi mới. Open Arena đã giúp mở khóa thử nghiệm trên toàn công ty với AI tổng quát trong một môi trường an toàn và được kiểm soát.
Tìm hiểu sâu hơn, Đấu trường mở là một sân chơi dựa trên web cho phép người dùng thử nghiệm một bộ công cụ ngày càng tăng được kích hoạt bằng LLM. Điều này cung cấp quyền truy cập không theo chương trình cho nhân viên của Thomson Reuters, những người không có nền tảng về mã hóa nhưng muốn khám phá nghệ thuật của những điều có thể với AI tổng quát tại TR. Open Arena đã được phát triển để nhận câu trả lời nhanh từ một số tập hợp, chẳng hạn như dành cho đại lý hỗ trợ khách hàng, giải pháp nhận câu trả lời nhanh từ trang web, giải pháp tóm tắt và xác minh điểm trong tài liệu, v.v. Các khả năng của Open Arena tiếp tục phát triển khi kinh nghiệm từ các nhân viên trên Thomson Reuters thúc đẩy những ý tưởng mới và khi các xu hướng mới xuất hiện trong lĩnh vực AI tổng quát. Tất cả điều này được hỗ trợ bởi kiến trúc AWS không có máy chủ mô-đun làm nền tảng cho giải pháp.
Hình dung Đấu trường mở
Mục tiêu của Thomson Reuters rất rõ ràng: xây dựng một nền tảng an toàn, bảo mật, thân thiện với người dùng—một “đấu trường mở”—như một sân chơi cho toàn doanh nghiệp. Tại đây, các nhóm nội bộ không chỉ có thể khám phá và thử nghiệm nhiều LLM khác nhau được phát triển nội bộ và những LLM từ cộng đồng nguồn mở, chẳng hạn như với mối quan hệ đối tác AWS và Hugging Face, mà còn khám phá các trường hợp sử dụng độc đáo bằng cách hợp nhất các khả năng của LLM với Thomson Reuters's dữ liệu công ty phong phú. Loại nền tảng này sẽ nâng cao khả năng của các nhóm trong việc tạo ra các giải pháp sáng tạo, cải thiện các sản phẩm và dịch vụ mà Thomson Reuters có thể cung cấp cho khách hàng của mình.

Nền tảng Open Arena được hình dung sẽ phục vụ các nhóm đa dạng trong Thomson Reuters trên toàn cầu, cung cấp cho họ một sân chơi để tự do tương tác với các LLM. Khả năng có sự tương tác này trong một môi trường được kiểm soát sẽ cho phép các nhóm khám phá các ứng dụng và phương pháp mới có thể không rõ ràng khi tương tác ít trực tiếp hơn với các mô hình phức tạp này.
Xây dựng Đấu trường mở
Xây dựng Open Arena là một quá trình nhiều mặt. Chúng tôi mong muốn khai thác khả năng của các dịch vụ ML và serverless của AWS để tạo ra một giải pháp cho phép nhân viên của Thomson Reuters thử nghiệm các LLM mới nhất một cách liền mạch. Chúng tôi nhận thấy tiềm năng của các dịch vụ này không chỉ mang lại khả năng mở rộng và khả năng quản lý mà còn đảm bảo hiệu quả về chi phí.
Tổng quan về giải pháp
Từ việc tạo ra một môi trường mạnh mẽ để triển khai và tinh chỉnh mô hình đến đảm bảo quản lý dữ liệu tỉ mỉ và cung cấp trải nghiệm người dùng liền mạch, TR cần tích hợp từng khía cạnh với một số dịch vụ AWS. Kiến trúc của Open Arena được thiết kế toàn diện nhưng trực quan, cân bằng giữa sự phức tạp và tính dễ sử dụng. Sơ đồ sau minh họa kiến trúc này

SageMaker đóng vai trò là xương sống, tạo điều kiện thuận lợi cho việc triển khai mô hình dưới dạng các điểm cuối SageMaker và cung cấp một môi trường mạnh mẽ để tinh chỉnh các mô hình. Chúng tôi đã tận dụng Hugging Face trên SageMaker DLC do AWS cung cấp để nâng cao quy trình triển khai của chúng tôi. Ngoài ra, chúng tôi đã sử dụng Bộ công cụ suy luận khuôn mặt ôm SageMaker và thư viện Tăng tốc để đẩy nhanh quá trình suy luận và xử lý hiệu quả các yêu cầu chạy các mô hình phức tạp và sử dụng nhiều tài nguyên. Những công cụ toàn diện này là công cụ đảm bảo việc triển khai nhanh chóng và liền mạch các LLM của chúng tôi. Các hàm Lambda, được kích hoạt bởi Amazon API Gateway, quản lý các API, đảm bảo quá trình tiền xử lý và hậu xử lý dữ liệu được tỉ mỉ.
Trong nỗ lực mang lại trải nghiệm người dùng liền mạch, chúng tôi đã sử dụng Cổng API an toàn để kết nối giao diện người dùng được lưu trữ trong Amazon Simple Storage Service (Amazon S3) với chương trình phụ trợ Lambda. Chúng tôi đã triển khai giao diện người dùng dưới dạng trang web tĩnh trên bộ chứa S3, đảm bảo xác thực người dùng với sự trợ giúp của Amazon CloudFront và cơ chế đăng nhập một lần của công ty chúng tôi.
Open Arena đã được thiết kế để tích hợp liền mạch với nhiều LLM thông qua API REST. Điều này đảm bảo rằng nền tảng này đủ linh hoạt để phản ứng và tích hợp nhanh chóng khi các mô hình hiện đại mới được phát triển và phát hành trong không gian AI có nhịp độ nhanh. Ngay từ khi thành lập, Open Arena đã được thiết kế để cung cấp một sân chơi AI/ML an toàn và bảo mật cho doanh nghiệp, vì vậy nhân viên của Thomson Reuters có thể thử nghiệm bất kỳ LLM tiên tiến nào ngay khi chúng được phát hành. Việc sử dụng các mô hình Hugging Face trên SageMaker cho phép nhóm tinh chỉnh các mô hình trong một môi trường an toàn vì tất cả dữ liệu được mã hóa và không rời khỏi đám mây riêng ảo (VPC), đảm bảo rằng dữ liệu vẫn riêng tư và bí mật.
DynamoDB, dịch vụ cơ sở dữ liệu NoSQL đã chọn của chúng tôi, được lưu trữ và quản lý hiệu quả nhiều loại dữ liệu, bao gồm truy vấn người dùng, phản hồi, thời gian phản hồi và dữ liệu người dùng. Để hợp lý hóa quy trình phát triển và triển khai, chúng tôi đã sử dụng AWS CodeBuild và AWS CodePipeline để tích hợp liên tục và phân phối liên tục (CI/CD). Có thể giám sát cơ sở hạ tầng và đảm bảo hoạt động tối ưu của nó với Amazon CloudWatch, cung cấp bảng điều khiển tùy chỉnh và khả năng ghi nhật ký toàn diện.Phát triển và tích hợp mô hình
Trái tim của Open Arena là các loại LLM đa dạng, bao gồm cả các mô hình nguồn mở và phát triển nội bộ. Các mô hình này đã được tinh chỉnh để cung cấp phản hồi theo lời nhắc cụ thể của người dùng.
Chúng tôi đã thử nghiệm các LLM khác nhau cho các trường hợp sử dụng khác nhau trong Đấu trường mở, bao gồm Flan-T5-XL, Trợ lý mở, MPT, Falcon và Flan-T5-XL tinh chỉnh trên các tập dữ liệu nguồn mở có sẵn bằng cách sử dụng tinh chỉnh hiệu quả tham số kỹ thuật. Chúng tôi đã sử dụng tích hợp bitandbytes từ Hugging Face để thử nghiệm các kỹ thuật lượng tử hóa khác nhau. Điều này cho phép chúng tôi tối ưu hóa các LLM của mình để nâng cao hiệu suất và hiệu quả, mở đường cho sự đổi mới lớn hơn nữa. Trong khi chọn một mô hình làm phụ trợ đằng sau các trường hợp sử dụng này, chúng tôi đã xem xét các khía cạnh khác nhau, chẳng hạn như hiệu suất của các mô hình này trông như thế nào đối với các tác vụ NLP có liên quan đến Thomson Reuters. Hơn nữa, chúng tôi cần xem xét các khía cạnh kỹ thuật, chẳng hạn như sau:
Tăng hiệu quả khi xây dựng ứng dụng với LLM – Nhanh chóng tích hợp và triển khai các LLM tiên tiến nhất vào các ứng dụng và khối lượng công việc chạy trên AWS của chúng tôi, sử dụng các biện pháp kiểm soát và tích hợp quen thuộc với chiều sâu và chiều rộng của AWS
Tùy chỉnh an toàn – Đảm bảo rằng tất cả dữ liệu được sử dụng để tinh chỉnh LLM vẫn được mã hóa và không rời khỏi VPC
Tính linh hoạt – Khả năng lựa chọn từ nhiều lựa chọn LLM gốc và nguồn mở của AWS để tìm ra mô hình phù hợp cho các trường hợp sử dụng đa dạng của chúng tôi
Chúng tôi đã đặt ra những câu hỏi như liệu chi phí cao hơn của các mô hình lớn hơn có được biện minh bằng hiệu suất tăng đáng kể không? Những mô hình này có thể xử lý các tài liệu dài không?
Sơ đồ sau đây minh họa kiến trúc mô hình của chúng tôi.
Chúng tôi đã đánh giá các mô hình này trên các khía cạnh trước đó trên bộ dữ liệu pháp lý nguồn mở và bộ dữ liệu nội bộ của Thomson Reuters để đánh giá chúng cho các trường hợp sử dụng cụ thể.
Đối với các trường hợp sử dụng dựa trên nội dung (trải nghiệm yêu cầu câu trả lời từ kho văn bản cụ thể), chúng tôi có sẵn một quy trình tạo tăng cường truy xuất (RAG), sẽ tìm nạp nội dung phù hợp nhất cho truy vấn. Trong các quy trình như vậy, các tài liệu được chia thành nhiều phần và sau đó các phần nhúng được tạo và lưu trữ trong OpenSearch. Để có được các tài liệu hoặc khối phù hợp nhất, chúng tôi sử dụng phương pháp truy xuất/xếp hạng lại dựa trên mô hình bộ mã hóa hai chiều và bộ mã hóa chéo. Kết quả phù hợp nhất được truy xuất sau đó được chuyển làm đầu vào cho LLM cùng với truy vấn để tạo phản hồi tốt nhất.
Việc tích hợp nội dung nội bộ của Thomson Reuters với trải nghiệm LLM là công cụ cho phép người dùng trích xuất các kết quả sâu sắc và phù hợp hơn từ các mô hình này. Quan trọng hơn, nó đã khơi dậy ý tưởng trong mọi nhóm về khả năng áp dụng các giải pháp hỗ trợ AI trong quy trình làm việc kinh doanh của họ.
Ô đấu trường mở: Tạo điều kiện thuận lợi cho tương tác của người dùng
Open Arena áp dụng giao diện thân thiện với người dùng, được thiết kế với các ô kích hoạt được cài đặt sẵn cho từng trải nghiệm, như minh họa trong ảnh chụp màn hình sau. Các ngăn xếp này đóng vai trò là các tương tác được đặt trước phục vụ cho các yêu cầu cụ thể của người dùng.

Ô Hỏi tài liệu của bạn cho phép người dùng tải tài liệu lên và đặt câu hỏi cụ thể liên quan đến nội dung từ LLM. Ngăn xếp Thử nghiệm với Tóm tắt cho phép người dùng chắt lọc khối lượng lớn văn bản thành các bản tóm tắt ngắn gọn, như minh họa trong ảnh chụp màn hình sau đây.

Các ô này đơn giản hóa việc người dùng sử dụng các giải pháp công việc hỗ trợ AI và quy trình điều hướng trong nền tảng, kích thích sự sáng tạo và thúc đẩy việc khám phá các trường hợp sử dụng sáng tạo.
Tác động của Đấu trường mở
Sự ra mắt của Open Arena đã đánh dấu một cột mốc quan trọng trong hành trình của Thomson Reuters hướng tới việc thúc đẩy văn hóa đổi mới và hợp tác. Thành công của nền tảng là không thể phủ nhận, với những lợi ích của nó nhanh chóng trở nên rõ ràng trên toàn công ty.
Thiết kế trực quan, dựa trên trò chuyện của Đấu trường mở không yêu cầu kiến thức kỹ thuật quan trọng, giúp các nhóm khác nhau và các vai trò công việc khác nhau trên toàn cầu có thể tiếp cận được. Tính dễ sử dụng này đã thúc đẩy mức độ tương tác, khuyến khích nhiều người dùng hơn khám phá nền tảng và tiết lộ các trường hợp sử dụng sáng tạo.
Trong vòng chưa đầy một tháng, Đấu trường mở đã phục vụ hơn 1.000 người dùng nội bộ hàng tháng từ dấu ấn toàn cầu của TR, thời gian tương tác trung bình là 5 phút cho mỗi người dùng. Với mục tiêu thúc đẩy thử nghiệm TR LLM nội bộ và tạo nguồn cộng đồng cho các trường hợp sử dụng LLM, việc ra mắt Open Arena đã dẫn đến một loạt các trường hợp sử dụng mới, khai thác hiệu quả sức mạnh của LLM kết hợp với nguồn dữ liệu khổng lồ của Thomson Reuters.
Đây là những gì một số người dùng của chúng tôi đã nói về Đấu trường mở:“Open Arena mang đến cho nhân viên từ tất cả các bộ phận của công ty cơ hội thử nghiệm LLM theo cách thực hành, thực tế. Đọc về các công cụ AI là một chuyện, còn việc tự mình sử dụng chúng là một chuyện khác. Nền tảng này tăng cường nỗ lực học tập AI của chúng tôi trên Thomson Reuters.”
– Abby Pinto, Trưởng nhóm Giải pháp Phát triển Tài năng, People Function
“OA (Open Arena) đã cho phép tôi thử nghiệm các vấn đề dịch thuật tin tức phức tạp cho Dịch vụ tiếng Đức của Reuters mà phần mềm dịch thuật thông thường không thể xử lý và thực hiện điều đó trong một môi trường an toàn, nơi tôi có thể sử dụng các câu chuyện thực tế của mình mà không sợ rò rỉ dữ liệu. Nhóm đằng sau OA đã phản ứng cực kỳ nhạy bén với các đề xuất cho các tính năng mới, đây là loại dịch vụ mà bạn chỉ có thể mơ ước với các phần mềm khác.”
– Scot W. Stevenson, Phóng viên cấp cao về Tin tức nóng hổi của Dịch vụ Ngôn ngữ Đức, Berlin, Đức
“Khi tôi sử dụng Open Arena, tôi có ý tưởng xây dựng một giao diện tương tự cho các nhóm đại lý hỗ trợ khách hàng của chúng tôi. Sân chơi này đã giúp chúng tôi hình dung lại các khả năng với GenAI.”
– Marcel Batista, Gerente de Servicos, Hoạt động Hỗ trợ & Dịch vụ Khách hàng
“Open Arena được cung cấp bởi các dịch vụ phi máy chủ của AWS, Amazon SageMaker và Hugging Face đã giúp chúng tôi nhanh chóng giới thiệu các LLM tiên tiến và công cụ AI sáng tạo cho đồng nghiệp của mình, giúp thúc đẩy sự đổi mới trong toàn doanh nghiệp.”
– Shirsha Ray Chaudhuri, Giám đốc, Nghiên cứu Kỹ thuật, Thomson Reuters Labs
Ở quy mô rộng hơn, việc giới thiệu Đấu trường mở có tác động sâu sắc đến công ty. Nó không chỉ nâng cao nhận thức về AI trong nhân viên mà còn kích thích tinh thần đổi mới và hợp tác. Nền tảng này đã kết nối các nhóm lại với nhau để khám phá, thử nghiệm và tạo ra các ý tưởng, thúc đẩy một môi trường nơi các khái niệm đột phá có thể biến thành hiện thực.
Hơn nữa, Open Arena đã có ảnh hưởng tích cực đến các dịch vụ và sản phẩm AI của Thomson Reuters. Nền tảng này đóng vai trò như một hộp cát cho AI, cho phép các nhóm xác định và tinh chỉnh các ứng dụng AI trước khi kết hợp chúng vào các dịch vụ của chúng tôi. Do đó, điều này đã thúc đẩy sự phát triển và nâng cao các dịch vụ AI của Thomson Reuters, cung cấp cho khách hàng các giải pháp không ngừng phát triển và đi đầu trong tiến bộ công nghệ.
Phần kết luận
Trong thế giới AI phát triển nhanh chóng, điều quan trọng là phải tiếp tục phát triển và Thomson Reuters cam kết thực hiện điều đó. Đội ngũ đằng sau Đấu trường mở không ngừng làm việc để bổ sung thêm nhiều tính năng và nâng cao khả năng của nền tảng, sử dụng các dịch vụ AWS như Amazon Bedrock và Amazon SageMaker Jumpstart, đảm bảo rằng nó vẫn là tài nguyên quý giá cho các nhóm của chúng tôi. Trong quá trình phát triển, chúng tôi đặt mục tiêu bắt kịp bối cảnh phát triển nhanh chóng của AI và LLM tổng quát. AWS cung cấp các dịch vụ cần thiết để TR bắt kịp với lĩnh vực AI tổng quát không ngừng phát triển.

Ngoài sự phát triển liên tục của nền tảng Open Arena, chúng tôi đang tích cực làm việc để sản xuất vô số trường hợp sử dụng do nền tảng này tạo ra. Điều này sẽ cho phép chúng tôi cung cấp cho khách hàng của mình các giải pháp AI tiên tiến và hiệu quả hơn, phù hợp với nhu cầu cụ thể của họ. Hơn nữa, chúng tôi sẽ tiếp tục thúc đẩy văn hóa đổi mới và hợp tác, cho phép các nhóm của chúng tôi khám phá những ý tưởng và ứng dụng mới cho công nghệ AI.

Khi chúng tôi bắt đầu cuộc hành trình thú vị này, chúng tôi tin tưởng rằng Đấu trường mở sẽ đóng một vai trò then chốt trong việc thúc đẩy sự đổi mới và hợp tác trên toàn Thomson Reuters. Bằng cách đi đầu trong các tiến bộ về AI, chúng tôi sẽ đảm bảo rằng các sản phẩm và dịch vụ của mình tiếp tục phát triển và đáp ứng nhu cầu luôn thay đổi của khách hàng.
Tham khảo bài viết gốc tại đây:

Tìm kiếm

Có thể bạn quan tâm

Cách Thomson Reuters phát triển Open Arena, một sân chơi mô hình ngôn ngữ lớn cấp doanh nghiệp, trong vòng chưa đầy 6 tuần

Thoại Viết Hoàng

Writer

Thoại Viết Hoàng

Công ty mẹ TikTok tự phát triển GPU AI để không bị lệ thuộc vào công nghệ Mỹ

Hồ sơ người dùng trên LinkedIn đã bị sử dụng trái phép để đào tạo AI

EA muốn dùng AI tạo sinh để sản xuất trò chơi điện tử, giảm bớt vai trò của con người

Ông lớn Hollywood cho phép công ty AI khai thác dữ liệu, muốn dùng AI tạo sinh sản xuất phim

Học dốt thì làm nghề gì? Những công việc phù hợp với người có học lực kém

Kế hoạch tấn công thị trường xe điện của Sony dần lộ diện

Ốp lưng iPhone 15 có vừa với iPhone 16 không?

Chiếc xe bằng giá Vinfast VF3 vừa trở thành xe bán chạy nhất Trung Quốc

Bước ngoặt cho TikToker nhiều follow nhất thế giới

Nhật Bản đang biến "hòn đảo xe hơi" thành "hòn đảo di động" để thúc đẩy công nghệ pin và chip

DJI Osmo Action 5 Pro trình làng: camera hành động đối đầu GoPro Hero 13, giá từ hơn 9 triệu đồng

Triển Lãm Ô Tô Vietnam Motor Show 2024 hướng tới mục tiêu phù hợp với thực tế thị trường

Cận cảnh Synology NAS DS923+: giải pháp NAS giúp quản lý dữ liệu thuận tiện cho cá nhân, doanh nghiệp vừa và nhỏ

Yamaha LEXi 155 giảm giá "sập sàn", đại lý hạ giá mong kiếm khách

Đánh giá nổi bật