Magentic-One: 'Xử gọn' nhiệm vụ khó bằng AI đa tác nhân
Magentic-One là hệ thống mã nguồn mở, điều phối tác nhân AI để lập kế hoạch, theo dõi tiến độ, xử lý nhiệm vụ phức tạp, khắc phục hạn chế về cập nhật kiến thức và mở rộng khả năng phối hợp với các thành phần khác.
Với sự ra đời của các AI model tân tiến, AI không chỉ được sử dụng như một công cụ hỏi - đáp đơn giản mà đang dần trở thành giải pháp cho những nhiệm vụ phức tạp hơn.
Tuy nhiên, một trong những hạn chế lớn của những hệ thống sử dụng AI là khả năng cập nhật kiến thức, dẫn đến việc xử lý thông tin lỗi thời. Bên cạnh đó, AI thường chỉ tạo nội dung, thiếu khả năng thực thi nhiệm vụ thực tế như thao tác hệ thống hoặc truy xuất dữ liệu. Ngoài ra, việc xử lý đa tác vụ và duy trì ngữ cảnh dài hạn còn kém, khiến hệ thống dễ mất chính xác hoặc gián đoạn.
Một trong những hệ thống nổi bật trong lĩnh vực này là Magentic-One, nơi các tác nhân AI có thể phối hợp, điều phối và tự động hóa quy trình.
Magentic-One là gì?
Magentic-One được phát triển dựa trên nền tảng mã nguồn mở AutoGen, tận dụng tối đa tiềm năng của AI trong việc giải quyết các tác vụ phức tạp. Hệ thống này có khả năng tự động lập kế hoạch, theo dõi tiến độ và điều chỉnh quy trình một cách linh hoạt để hoàn thành các nhiệm vụ đa dạng.
Ví dụ khi hỏi một AI bất kì về những dữ kiện không sẵn có, như "What are the latest posts or updates on atekco.io", ta có thể nhận được kết quả như sau:
Câu trả lời trên chứa thông tin đã lỗi thời do GenAI thiếu khả năng cập nhật hay sử dụng những công cụ khác một cách hiệu quả.
Cùng một câu hỏi, khi sử dụng Magentic-One sẽ được kết quả như sau:
Sử dụng Magentic-One để giải quyết các tác vụ phức tạp
Demo cho thấy Magentic-One gồm hai thành phần chính là Orchestrator và Agent. Orchestrator phân tích yêu cầu, lập kế hoạch, điều phối Agent thực thi nhiệm vụ, đánh giá kết quả và tiếp tục điều phối cho đến khi hoàn thành. Cụ thể trong demo trên, Orchestrator đã lên kế hoạch và yêu cầu WebSurfer Agent duyệt trang web 'atekco.io' để lấy thông tin về latest posts. Cuối cùng, Orchestrator tổng hợp kết quả thành câu trả lời hoàn chỉnh.
Hiện tại, Magentic-One hỗ trợ 4 loại Agent: WebSurfer, FileSurfer, Coder, và Computer Terminal. Bạn có thể cài đặt và sử dụng Magentic-One bằng cách làm theo hướng dẫn tại đây.
Vai trò của Orchestrator và Agent trong Magentic-One
Hệ thống Magentic-One được xây dựng từ hai thành phần chính: Orchestrator và các Agent. Sự phối hợp giữa chúng tạo nên quy trình xử lý nhiệm vụ thông minh và hiệu quả.
Orchestrator
Orchestrator là trung tâm điều hành của hệ thống Magentic-One, chịu trách nhiệm phân tích yêu cầu, lập kế hoạch, điều phối các tác nhân AI để thực hiện nhiệm vụ. Các vai trò chính bao gồm:
- Phân tích yêu cầu: Xác định mục tiêu, trích xuất thông tin, lập kế hoạch chi tiết
- Điều phối tác nhân AI: Lựa chọn tác nhân phù hợp, theo dõi tiến độ, đảm bảo nhiệm vụ hoàn thành hiệu quả
- Đánh giá và điều chỉnh: Theo dõi kết quả từ tác nhân, điều chỉnh kế hoạch khi cần để đảm bảo tính chính xác
Hiện tại, Magentic-One hỗ trợ Round-Robin Orchestrator và Ledger Orchestrator. Trong đó Ledger Orchestrator chuyên xử lý các tác vụ phức tạp theo quy trình sau:
Quy trình xử lý của Magentic-One Ledger Orchestrator
1. Start Task: Orchestrator nhận yêu cầu, phân tích nội dung và trích xuất các thông tin quan trọng như dữ kiện sẵn có, thông tin cần tìm, các dự đoán
2. Create Plan: Lập kế hoạch chi tiết gồm các bước hành động, tác nhân tham gia, cách theo dõi tiến độ
3. Share Plan: Truyền tải kế hoạch dưới dạng thông điệp để các tác nhân AI thực hiện
4. Receive Responses & Update Ledger: Thu thập phản hồi, đánh giá kết quả và cập nhật trạng thái nhiệm vụ trong ledger
5. Evaluate Progress & Replan (nếu cần): Quyết định bước tiếp theo hoặc điều chỉnh kế hoạch khi gặp vấn đề
6. Finalize Task: Tổng hợp kết quả từ các tác nhân thành câu trả lời hoàn chỉnh
Orchestrator nổi bật nhờ khả năng thích ứng linh hoạt, quy trình minh bạch dựa trên ledger, có mức độ tự động hóa cao, giúp tối ưu hóa hiệu suất thực thi.
Agent
Các Agent trong hệ thống Magentic-One là những chuyên gia độc lập, thực hiện nhiệm vụ do Orchestrator giao phó. Agent trong Magentic-One hoạt động độc lập và dễ dàng mở rộng nhờ cơ chế message queue, thích nghi linh hoạt với các nhiệm vụ mới thông qua giao thức chuẩn. Với khả năng triển khai phân tán trên nhiều môi trường, hỗ trợ scale-out cũng như xử lý song song, hệ thống không chỉ tăng hiệu suất mà còn đáp ứng hiệu quả các yêu cầu phức tạp.
Quy trình hoạt động của Magentic-One Agent diễn ra như sau:
Quy trình hoạt động của Magentic-One Agent
1. Nhận nhiệm vụ từ message queue:
- Broadcast Message: Truyền đạt kế hoạch và bối cảnh
- RequestReply Message: Yêu cầu thực thi nhiệm vụ và gửi phản hồi
- Reset Message: Đặt lại trạng thái và xóa dữ liệu ngữ cảnh
- Deactivate Message: Dừng hoạt động và rời khỏi quy trình
2. Xử lý nhiệm vụ:
- Handle Broadcast: Cập nhật trạng thái với kế hoạch nhận được
- Perform Assigned Task: Thực thi nhiệm vụ cụ thể và gửi phản hồi
- Reset Internal State: Xóa sạch ngữ cảnh và bắt đầu nhiệm vụ mới
- Deactivate Agent: Ngừng hoạt động khi có yêu cầu
3. Quản lý trạng thái: Agent duy trì lịch sử hội thoại và thông tin ngữ cảnh để theo dõi tiến độ và tối ưu hóa xử lý
4. Gửi phản hồi: Sau khi hoàn thành nhiệm vụ, Agent gửi kết quả hoặc trạng thái về Orchestrator để đánh giá và tiếp tục điều phối
Prompt
Trong Magentic-One, AI và các prompt là thành phần cốt lõi để tác nhân AI thực hiện nhiệm vụ một cách chính xác. Mỗi prompt được thiết kế để phục vụ một giai đoạn cụ thể:
Magentic-One Prompts
Các Prompt chính
- ClosedBookPrompt: Phân tích yêu cầu từ người dùng, trích xuất các dữ kiện quan trọng, bao gồm thông tin đã cho, cần tìm kiếm hoặc cần suy luận. Kết quả là một bản tóm tắt chi tiết, làm cơ sở để lập kế hoạch.
- PlanPrompt: Xây dựng kế hoạch hành động, bao gồm các bước thực hiện, danh sách tác nhân tham gia và vai trò cụ thể. Đảm bảo quy trình được tổ chức rõ ràng và hiệu quả.
- SynthesizePrompt: Tổng hợp nhiệm vụ, kế hoạch, dữ kiện, tạo một message gửi đến các tác nhân AI, đảm bảo chúng hiểu rõ mục tiêu và nhiệm vụ.
- LedgerPrompt: Đánh giá tiến độ nhiệm vụ bằng cách phân tích phản hồi từ tác nhân. Kết quả là một báo cáo dạng JSON, giúp Orchestrator đưa ra quyết định tiếp theo.
{
"is_request_satisfied": {
"reason": "We have not yet provided a detailed overview of 'atekco.io' beyond the initial search results summary.",
"answer": false
},
"is_in_loop": {
"reason": "We have only conducted an initial search and are not repeating the same actions.",
"answer": false
},
"is_progress_being_made": {
"reason": "We have obtained a preliminary result but need more specific information to fully satisfy the query.",
"answer": true
},
"next_speaker": {
"reason": "WebSurfer should gather more detailed information from the website.",
"answer": "WebSurfer"
},
"instruction_or_question": {
"reason": "Access the website 'atekco.io' for more specific details on its purpose and offerings.",
"answer": "Please visit the website 'atekco.io' and summarize the main purpose, services, and any relevant background information presented there."
}
}
- UpdateFactsPrompt: Làm mới dữ kiện, bổ sung thông tin mới hoặc xác thực dự đoán đã đề ra. Đảm bảo kế hoạch tiếp theo dựa trên dữ liệu chính xác.
- UpdatePlanPrompt: Sửa đổi kế hoạch khi gặp bế tắc, tập trung giải quyết khó khăn và tránh lặp lại lỗi trước đó. Kết quả là một kế hoạch tối ưu hóa.
- FinalAnswerPrompt: Tổng hợp kết quả từ các tác nhân, tạo ra câu trả lời hoàn chỉnh và dễ hiểu cho người dùng.
Mỗi prompt đảm bảo rằng hệ thống vận hành hiệu quả, đồng bộ và đáp ứng yêu cầu phức tạp một cách mượt mà.
Đánh giá chung
Khác với CrewAI hay LangGraph, Magentic-One có khả năng điều phối động khi sử dụng một Orchestrator để quản lý tác vụ theo thời gian thực, tự động điều chỉnh khi gặp lỗi hoặc thay đổi yêu cầu. Đây được xem là điểm mạnh của Magentic-One vì có thể giải quyết vấn đề thường gặp trong các hệ thống sử dụng AI.
Khi sử dụng Agent chuyên biệt, hệ thống có thể thiết kế tác nhân riêng cho từng lĩnh vực, giúp giải quyết bài toán một cách hiệu quả. Một điểm vượt trội khác nữa đó là Magentic-One hỗ trợ theo dõi tiến trình và xử lý lỗi trong khi thực thi.
Việc thiết lập Orchestrator và các Agent chuyên biệt đòi hỏi nhiều công sức hơn so với các framework khác. Ngoài ra hệ thống cũng cần được kiểm soát chặt chẽ để tránh những sai sót khi tác nhân thực hiện nhiệm vụ.
Có thể nói Magentic-One phù hợp nhất với các bài toán phức tạp, yêu cầu tính tự động hóa cao và xử lý đa miền. Trong khi đó, các framework như LangGraph phù hợp hơn cho quy trình cần sự ổn định hoặc CrewAI cho tác vụ cộng tác đơn giản.