Giới thiệu
Mạng không dây đang trải qua một sự chuyển đổi chưa từng có. Do nhu cầu không ngừng của 5G, các yêu cầu dự kiến của 6G, sự bùng nổ của các thiết bị Internet of Things (IoT), và sự đa dạng hóa các dịch vụ với yêu cầu nghiêm ngặt về độ trễ và độ tin cậy, các phương pháp quản lý mạng truyền thống đang dần trở nên lỗi thời.1 Các mô hình điều khiển tập trung gặp khó khăn với tắc nghẽn băng thông, hạn chế về độ trễ và việc sử dụng tài nguyên không hiệu quả khi đối mặt với sự phức tạp ngày càng tăng này.1 Để đối phó, ngành công nghiệp viễn thông đang chuyển hướng sang một kiến trúc mang tính cách mạng: Mạng Truy cập Vô tuyến Tích hợp Trí tuệ Nhân tạo (AI-RAN). Sự thay đổi mô hình này liên quan đến việc nhúng trí tuệ nhân tạo không chỉ như một lớp phủ mà còn là một thành phần nền tảng, không thể thiếu của chính cơ sở hạ tầng mạng.2 AI-RAN hứa hẹn mang lại những lợi ích đột phá về hiệu suất mạng, hiệu quả hoạt động, sử dụng phổ tần và cho phép các dịch vụ hoàn toàn mới dựa trên AI.3
Trọng tâm của việc kích hoạt sự phát triển mạng thông minh này là Học Tăng cường Đa Tác nhân (MARL). MARL là một nhánh con tinh vi của AI, nơi nhiều tác nhân thông minh học hỏi đồng thời thông qua thử và sai, tương tác trong một môi trường chung để đạt được các mục tiêu cụ thể, dù là hợp tác hay cạnh tranh.6 Không giống như các hệ thống đơn tác nhân, MARL tập trung vào các động lực phức tạp phát sinh khi nhiều người ra quyết định học hỏi và thích ứng đồng thời.
MARL đang nổi lên như một công nghệ hỗ trợ quan trọng để hiện thực hóa toàn bộ tiềm năng của AI-RAN. Khả năng xử lý các hệ thống phân tán vốn có, tạo điều kiện phối hợp giữa các thực thể tự trị và thích ứng với các điều kiện động làm cho nó đặc biệt phù hợp để quản lý sự phức tạp của các mạng không dây thế hệ tiếp theo. Báo cáo này đi sâu vào các nguyên tắc cơ bản của MARL, khám phá tầm nhìn và kiến trúc của AI-RAN, xem xét mối quan hệ cộng sinh giữa hai công nghệ mạnh mẽ này, và thảo luận về những lợi ích đáng kể, những thách thức cố hữu và triển vọng tương lai cho AI-RAN thông minh và có khả năng mở rộng được hỗ trợ bởi MARL.
Giải mã Học Tăng cường Đa Tác nhân (MARL)
Vượt ra ngoài Người chơi Đơn lẻ: Điều gì làm MARL trở nên độc đáo?
Học Tăng cường (RL) truyền thống thường liên quan đến một tác nhân duy nhất học cách đưa ra quyết định tối ưu trong một môi trường tĩnh hoặc thay đổi dựa trên các yếu tố bên ngoài hoặc hành động của chính tác nhân đó.10 Học Tăng cường Đa Tác nhân (MARL) thay đổi cơ bản mô hình này bằng cách giới thiệu nhiều tác nhân tự trị học hỏi và hành động đồng thời trong một môi trường chung.7
Đặc điểm xác định – và là nguồn gốc chính của sự phức tạp – trong MARL là sự phụ thuộc lẫn nhau của các quá trình học tập của các tác nhân. Hành động của mỗi tác nhân không chỉ ảnh hưởng đến trạng thái tương lai và phần thưởng tiềm năng của chính nó mà còn làm thay đổi động môi trường cho tất cả các tác nhân khác.6 Điều này tạo ra một bối cảnh không ngừng phát triển, nơi chiến lược tối ưu cho một tác nhân phụ thuộc vào các chiến lược hiện tại và thường xuyên thay đổi của những tác nhân khác. Hãy xem xét sự khác biệt giữa một người học cách điều hướng mê cung so với một nhóm cố gắng thực hiện cùng một nhiệm vụ, nơi một tác nhân mở cửa có thể vô tình chặn đường đi của người khác.10 Sự tương tác động này đòi hỏi các cơ chế phối hợp và thích ứng phức tạp vượt xa những gì được yêu cầu trong các cài đặt đơn tác nhân.
Các vấn đề MARL có thể được phân loại dựa trên mục tiêu và tương tác của các tác nhân 8:
- Hoàn toàn Hợp tác: Tất cả các tác nhân chia sẻ một mục tiêu và cấu trúc phần thưởng chung, cố gắng tối đa hóa kết quả tập thể. Sự phối hợp và giao tiếp hiệu quả là tối quan trọng. Điều này rất phù hợp để tối ưu hóa tài nguyên mạng được chia sẻ.11
- Hoàn toàn Cạnh tranh: Các tác nhân có mục tiêu đối lập, thường được mô hình hóa như một trò chơi có tổng bằng không, nơi lợi ích của một tác nhân là tổn thất của người khác. Việc điều động chiến lược và dự đoán hành động của đối thủ là chìa khóa.11
- Hợp tác-Cạnh tranh Hỗn hợp: Các kịch bản liên quan đến cả yếu tố hợp tác và cạnh tranh, nơi các tác nhân có thể hợp tác về một số khía cạnh trong khi cạnh tranh về những khía cạnh khác, hoặc thành lập liên minh.8
Cách các Tác nhân MARL Học hỏi: Chu kỳ Hành động, Trạng thái và Phần thưởng
Về cốt lõi, MARL mở rộng vòng lặp RL cơ bản cho nhiều tác nhân. Mỗi tác nhân lặp đi lặp lại các bước sau 6:
- Quan sát: Tác nhân nhận thức trạng thái hiện tại của môi trường (hoặc một phần quan sát của nó).
- Hành động: Dựa trên chính sách hiện tại của mình (chiến lược hoặc chức năng ra quyết định), tác nhân chọn một hành động.
- Phần thưởng: Tác nhân nhận được tín hiệu phần thưởng hoặc hình phạt từ môi trường dựa trên hành động của mình và quá trình chuyển đổi trạng thái kết quả.
- Học hỏi: Tác nhân cập nhật chính sách của mình bằng thuật toán học, nhằm mục đích tối đa hóa phần thưởng tích lũy dự kiến trong tương lai (thường được gọi là ‘lợi nhuận’).
Việc học này xảy ra thông qua tương tác thử và sai với môi trường động.7 Các tác nhân khám phá các hành động khác nhau để khám phá xem hành động nào dẫn đến kết quả dài hạn tốt hơn.6
Một họ thuật toán phổ biến được sử dụng trong MARL là Q-learning.6 Trong phương pháp dựa trên giá trị này, các tác nhân học một hàm Q (hoặc giá trị Q) ước tính ‘chất lượng’ hoặc phần thưởng tương lai dự kiến khi thực hiện một hành động cụ thể (a) trong một trạng thái nhất định (s). Về cơ bản, mỗi tác nhân xây dựng một “bảng gian lận” – được biểu diễn dưới dạng bảng (trong các trường hợp đơn giản hơn) hoặc được xấp xỉ bởi một mạng nơ-ron (trong MARL sâu) – hướng dẫn nó đến các hành động hứa hẹn nhất trong các tình huống khác nhau.6 Quy tắc cập nhật thường bao gồm giá trị Q hiện tại, phần thưởng nhận được (r), tốc độ học (α), hệ số chiết khấu (γ cho phần thưởng trong tương lai) và giá trị Q tương lai ước tính tối đa từ trạng thái tiếp theo (s′).6
Quan trọng là, chính quá trình học tập lại đưa ra những thách thức cơ bản chỉ có ở MARL. Bởi vì nhiều tác nhân đang học và thay đổi chính sách của chúng đồng thời, môi trường trở nên không ổn định (non-stationary) theo quan điểm của bất kỳ tác nhân đơn lẻ nào.6 Những gì trước đây là một hành động tốt có thể trở nên không tối ưu khi các tác nhân khác điều chỉnh hành vi của chúng. Tính không ổn định cố hữu này làm cho việc phối hợp trở nên cực kỳ khó khăn.11 Các nỗ lực cải thiện sự phối hợp thường liên quan đến giao tiếp giữa các tác nhân 6, nhưng điều này lại gây ra chi phí giao tiếp, ảnh hưởng đến khả năng mở rộng của hệ thống.11 Hơn nữa, các tác nhân thường hoạt động chỉ với khả năng quan sát cục bộ (partial observability) về môi trường 11, nghĩa là chúng thiếu thông tin đầy đủ. Góc nhìn hạn chế này có thể làm cho môi trường có vẻ không ổn định ngay cả khi chính sách của các tác nhân khác được cố định, càng làm phức tạp thêm việc phối hợp. Do đó, bản chất của việc học phân tán, đồng thời tạo ra một mạng lưới các thách thức liên kết với nhau – tính không ổn định, sự phức tạp trong phối hợp, sự đánh đổi về khả năng mở rộng và khả năng quan sát cục bộ – cần phải được giải quyết để triển khai MARL thành công.
Giao tiếp: Chìa khóa (và Thách thức) cho Sự phối hợp
Trong nhiều kịch bản MARL, đặc biệt là các kịch bản hợp tác, các tác nhân không thể đạt được hiệu suất tập thể tối ưu bằng cách hành động hoàn toàn độc lập. Giao tiếp nổi lên như một cơ chế quan trọng để phối hợp, cho phép các tác nhân chia sẻ thông tin và điều chỉnh hành động của họ hướng tới các mục tiêu chung.6 Các tác nhân có thể trao đổi nhiều loại thông tin khác nhau, chẳng hạn như:
- Quan sát trực tiếp về môi trường.13
- Các chính sách hoặc hàm giá trị đã học được.13
- Ý định hoặc các hành động dự định trong tương lai.18
Tuy nhiên, việc cho phép giao tiếp hiệu quả trong các hệ thống MARL không hề đơn giản. Mặc dù cần thiết để giải quyết các nhiệm vụ phức tạp trong môi trường có khả năng quan sát cục bộ như AI-RAN, giao tiếp lại mang đến những thách thức đáng kể của riêng nó.13 Thiết kế các giao thức giao tiếp hiệu quả – quyết định chia sẻ thông tin gì, khi nào chia sẻ và với ai – rất phức tạp.17 Các kênh giao tiếp trong các hệ thống thực tế như mạng không dây thường bị nhiễu, chịu sự chậm trễ và có khả năng bị tấn công, đòi hỏi các chiến lược giao tiếp mạnh mẽ.15 Bản thân hành động giao tiếp tiêu tốn tài nguyên (ví dụ: băng thông, tính toán), tạo ra chi phí có thể cản trở khả năng mở rộng, đặc biệt khi số lượng tác nhân tăng lên.11 Hơn nữa, việc học các chiến lược giao tiếp hiệu quả trở nên đặc biệt khó khăn khi các tác nhân là những người học độc lập không có tham số chung, vì các cơ chế phản hồi trực tiếp ít rõ ràng hơn.19 Điều này tạo ra một sự đánh đổi quan trọng: lợi ích tiềm năng trong việc phối hợp thông qua giao tiếp phải được cân bằng cẩn thận với sự phức tạp, chi phí và tính mong manh được thêm vào hệ thống.
Giải thích về AI-RAN: Nhúng Trí tuệ vào Mạng Không dây
AI-RAN nổi lên như một sự phát triển cần thiết để giải quyết những thách thức của mạng truyền thống. Nó biểu thị một sự thay đổi cơ bản từ việc sử dụng AI như một công cụ bên ngoài để phân tích hoặc tối ưu hóa mạng sang việc nhúng sâu các khả năng AI vào cấu trúc mạng, biến trí tuệ thành một thuộc tính gốc của RAN.2
AI-RAN là gì và Tại sao lại cần thiết?
AI-RAN (Artificial Intelligence – Radio Access Network) là viết tắt của Mạng Truy cập Vô tuyến Tích hợp Trí tuệ Nhân tạo. Đây là một công nghệ mang tính cách mạng, tích hợp sâu AI vào cả phần cứng và phần mềm của mạng truy cập vô tuyến (RAN).4 Mục tiêu chính của AI-RAN là:
- Nâng cao hiệu suất mạng: Cải thiện đáng kể hiệu quả sử dụng phổ tần, dung lượng, vùng phủ sóng và hiệu suất tổng thể của mạng RAN.4
- Tăng hiệu quả vận hành: Tự động hóa và tối ưu hóa các hoạt động mạng, giảm chi phí vận hành.4
- Cho phép các dịch vụ AI mới: Biến cơ sở hạ tầng RAN thành một nền tảng để chạy các ứng dụng AI, tạo ra cơ hội doanh thu mới ngoài việc cung cấp kết nối cơ bản.4
Sự khác biệt chính so với RAN truyền thống:
Điểm cốt lõi của AI-RAN là sự thay đổi về kiến trúc cơ sở hạ tầng 2:
- Thay vì phần cứng chuyên dụng: Các mạng RAN truyền thống thường sử dụng phần cứng được thiết kế riêng cho các chức năng mạng (như ASIC).3
- Sử dụng nền tảng tính toán hợp nhất: AI-RAN xây dựng trên một nền tảng phần cứng đồng nhất, đa dụng, được tăng tốc (thường bao gồm CPU, GPU, DPU).2 Nền tảng này đủ mạnh mẽ và linh hoạt để chạy đồng thời cả các tác vụ xử lý tín hiệu RAN phức tạp và các khối lượng công việc AI (như đào tạo và suy luận mô hình AI).2
Nguyên tắc hoạt động:
AI-RAN hoạt động dựa trên các nguyên tắc phần mềm hiện đại 4:
- Định nghĩa bằng phần mềm (Software-Defined): Toàn bộ hệ thống được điều khiển và cấu hình bằng phần mềm, mang lại sự linh hoạt cao.4
- Đám mây gốc (Cloud-Native): Áp dụng các nguyên tắc như container hóa (đóng gói ứng dụng), đa người thuê (nhiều ứng dụng/dịch vụ chạy chung hạ tầng), và tự động co giãn (tự động điều chỉnh tài nguyên theo nhu cầu).4
- AI-Native: AI được tích hợp sâu vào mọi lớp của mạng, từ lớp vật lý (PHY) đến các lớp cao hơn, cho phép tối ưu hóa toàn diện.2
Tóm lại, AI-RAN là một bước tiến lớn, biến đổi RAN từ một hạ tầng chỉ phục vụ mục đích kết nối thành một nền tảng điện toán đám mây phân tán, linh hoạt và thông minh, có khả năng tăng tốc cả mạng di động thế hệ tiếp theo (5G/6G) và các ứng dụng AI đa dạng.4
Các Trụ cột Nền tảng của AI-RAN
Khái niệm Mạng RAN AI-Native được xây dựng dựa trên một số nguyên tắc kiến trúc chính, cùng nhau tạo ra một khuôn khổ cho các mạng không dây thông minh, thích ứng và hiệu quả 2:
- Cơ sở hạ tầng Tính toán Hợp nhất: Một nền tảng phần cứng đồng nhất, chung tích hợp CPU, GPU và các bộ tăng tốc chuyên dụng như Bộ xử lý Dữ liệu (DPU). Cách tiếp cận hợp nhất này cho phép xử lý linh hoạt và hiệu quả cả các tác vụ xử lý tín hiệu RAN đòi hỏi khắt khe và khối lượng công việc AI/ML phức tạp trên cùng một cơ sở hạ tầng.2
- Tích hợp AI-Native trên các Lớp Giao thức: Nhúng các mô hình và thuật toán AI trực tiếp vào ngăn xếp giao thức RAN (các lớp PHY, MAC, RRC). Điều này cho phép tối ưu hóa đa lớp và cho phép AI ảnh hưởng đến các quyết định từ xử lý tín hiệu cấp thấp đến quản lý tài nguyên cấp cao.2
- Điều phối Đa người thuê Động: Một lớp điều phối thông minh quản lý việc phân bổ tài nguyên tính toán và mạng một cách linh hoạt giữa các chức năng RAN và ứng dụng AI, đảm bảo QoS và tối đa hóa việc sử dụng dựa trên phân tích và dự đoán thời gian thực.2
- Phân bổ Tài nguyên Linh hoạt và Có khả năng mở rộng: Sử dụng các nguyên tắc đám mây gốc để mở rộng theo chiều ngang. Khả năng tự động thay đổi quy mô cho phép hệ thống điều chỉnh việc phân bổ tài nguyên (cho cả RAN và AI) trong thời gian thực dựa trên nhu cầu, đảm bảo hiệu suất và hiệu quả.2
- Bản sao Số Mạng lưới (NDT) cho Huấn luyện AI: Tạo ra một bản sao ảo tinh vi của môi trường mạng trực tiếp. Điều này cho phép đào tạo, thử nghiệm và xác thực rộng rãi các mô hình AI và cấu hình mạng mới một cách an toàn mà không ảnh hưởng đến các dịch vụ đang hoạt động.2
- Vòng lặp Tối ưu hóa Dựa trên Dữ liệu Thời gian thực: Thực hiện các vòng phản hồi khép kín nơi dữ liệu hiệu suất mạng thời gian thực được thu thập liên tục và sử dụng để đào tạo, tinh chỉnh và tự động triển khai các mô hình AI được cập nhật, cho phép tự tối ưu hóa và thích ứng.2
- Quản lý Vòng đời Mô hình AI Liên tục: Quy trình làm việc tự động để đào tạo, xác thực, triển khai, giám sát và loại bỏ các mô hình AI, đảm bảo các mô hình vẫn hiệu quả và đáng tin cậy trong suốt vòng đời của chúng.2
- Bảo mật và Quyền riêng tư theo Thiết kế: Tích hợp các biện pháp bảo mật mạnh mẽ (như kiến trúc zero-trust) và các kỹ thuật bảo vệ quyền riêng tư ở mọi lớp của kiến trúc.2
Cùng nhau, những trụ cột này xác định một cơ sở hạ tầng RAN linh hoạt, được định nghĩa bằng phần mềm và dựa trên đám mây, có khả năng lưu trữ và tận dụng AI ngay tại cốt lõi của nó, mở đường cho các mạng thông minh thế hệ tiếp theo.4
Các hình thức Tích hợp AI: AI-cho, AI-trên, AI-và-RAN
Việc tích hợp AI trong khuôn khổ RAN thể hiện theo ba cách chính, được công nhận bởi các sáng kiến như Liên minh AI-RAN 4:
- AI-cho-RAN (AI-for-RAN): Dùng AI để cải thiện trực tiếp chức năng của RAN (ví dụ: tối ưu hóa búp sóng, quản lý nhiễu).4
- AI-trên-RAN (AI-on-RAN): Chạy các ứng dụng AI trên hạ tầng RAN (thường ở biên mạng) để cung cấp dịch vụ mới.4
- AI-và-RAN (AI-and-RAN): Chạy song song cả tác vụ RAN và tác vụ AI trên cùng một phần cứng để tối ưu hóa việc sử dụng tài nguyên.4
Mối quan hệ Cộng sinh: Tại sao AI-RAN cần MARL
Chế ngự Sự phức tạp: MARL cho Điều khiển Mạng Phân tán
Bản chất cố hữu của AI-RAN, đặc biệt là trong các triển khai 6G trong tương lai, liên quan đến các hệ thống phân tán cao bao gồm nhiều trạm gốc (gNB), điểm truy cập, máy chủ biên và các thiết bị được kết nối.1 Quản lý hiệu quả các hệ thống phức tạp như vậy đòi hỏi phải thoát khỏi sự kiểm soát tập trung truyền thống, vốn chắc chắn sẽ trở thành nút thắt cổ chai về hiệu suất.1 MARL cung cấp một mô hình tự nhiên cho trí tuệ phân tán, cho phép các thành phần tự trị (tác nhân) học các hành vi phối hợp và đưa ra quyết định cục bộ.1
Hơn nữa, môi trường AI-RAN rất năng động. Mô hình lưu lượng truy cập biến động, người dùng di chuyển, điều kiện kênh thay đổi và mô hình nhiễu phát triển liên tục. Các tác nhân MARL, thông qua tương tác và học hỏi liên tục, có thể điều chỉnh chiến lược của chúng trong thời gian thực với những điều kiện thay đổi này, mang lại mức độ năng động và khả năng thích ứng mà các thuật toán được lập trình sẵn khó có thể sánh được.1 Bằng cách cho phép các tác nhân chia sẻ thông tin (khi có lợi và khả thi) và học các chiến lược hợp tác, MARL cung cấp một cơ chế mạnh mẽ để đạt được hoạt động hiệu quả và linh hoạt trong các mạng phân tán phức tạp, quy mô lớn.
MARL trong Thực tế: Tối ưu hóa Hiệu suất AI-RAN
Khả năng ứng dụng của MARL trải rộng trên nhiều nhiệm vụ tối ưu hóa quan trọng trong khuôn khổ AI-RAN. Các tác nhân, thường đại diện cho các phần tử mạng như trạm gốc hoặc bộ điều khiển, có thể học các chính sách phức tạp để cải thiện các Chỉ số Hiệu suất Chính (KPI) khác nhau:
- Phân bổ Tài nguyên Động: Các tác nhân MARL có thể học các chiến lược hợp tác để phân bổ tài nguyên vô tuyến (khối phổ tần, khe thời gian, mức công suất) và tài nguyên tính toán một cách linh hoạt giữa người dùng và các lát mạng, nhằm tối đa hóa thông lượng tổng thể, giảm thiểu độ trễ hoặc đáp ứng các yêu cầu Chất lượng Dịch vụ (QoS) đa dạng.8
- Quản lý và Phối hợp Nhiễu: Trong các triển khai mạng dày đặc, nhiễu là một yếu tố hạn chế chính. Các tác nhân MARL điều khiển các trạm gốc lân cận có thể học cách phối hợp việc truyền dẫn của chúng (ví dụ: điều chỉnh mức công suất, chọn búp sóng, lập lịch người dùng) để giảm thiểu nhiễu lẫn nhau và nâng cao dung lượng mạng tổng thể.24
- Tối ưu hóa Tạo búp sóng: Đối với các hệ thống có nhiều ăng-ten (MIMO) hoặc nhiều điểm truy cập phối hợp, các tác nhân MARL có thể học cách định hình và hướng các búp sóng vô tuyến một cách linh hoạt để phục vụ người dùng hiệu quả hơn, cải thiện chất lượng tín hiệu và tái sử dụng phổ tần theo không gian.3
- Quản lý Phân chia Mạng: MARL có khả năng được áp dụng để quản lý và phân bổ tài nguyên động trên các lát mạng khác nhau, đảm bảo rằng mỗi lát đáp ứng các đảm bảo hiệu suất cụ thể của nó ngay cả trong điều kiện tải thay đổi.21
- Tối ưu hóa Chuyển giao: Các tác nhân liên kết với các trạm gốc có thể học cách đưa ra quyết định chuyển giao thông minh hơn cho người dùng di động, xem xét các yếu tố như cường độ tín hiệu, tải ô, quỹ đạo người dùng và yêu cầu QoS để đảm bảo kết nối liền mạch.
- Hiệu quả Năng lượng: Các tác nhân MARL có thể tối ưu hóa mức tiêu thụ năng lượng của các phần tử mạng, ví dụ, bằng cách học khi nào nên đặt các trạm gốc vào chế độ ngủ năng lượng thấp dựa trên các mô hình lưu lượng được dự đoán, góp phần vào hoạt động mạng xanh hơn.8
Một yếu tố kiến trúc đặc biệt hứa hẹn để tạo điều kiện cho MARL trong AI-RAN liên quan đến việc sử dụng Mạng Nơ-ron Đồ thị (GNN). Mạng không dây vốn có cấu trúc đồ thị, với các nút đại diện cho trạm gốc, người dùng hoặc máy chủ biên và các cạnh đại diện cho các liên kết truyền thông hoặc mối quan hệ nhiễu.25 GNN vượt trội trong việc xử lý dữ liệu có cấu trúc đồ thị như vậy. Bằng cách sử dụng GNN, các tác nhân MARL có thể tổng hợp thông tin hiệu quả từ vùng lân cận cục bộ của chúng trong đồ thị mạng.25 Điều này cung cấp cho các tác nhân các quan sát cục bộ phong phú, theo ngữ cảnh, nắm bắt được cấu trúc liên kết và trạng thái mạng có liên quan, cho phép đưa ra quyết định sáng suốt hơn và phối hợp tốt hơn mà không cần truy cập vào trạng thái mạng toàn cầu, có thể rất lớn.11 Cách tiếp cận này giải quyết trực tiếp các thách thức liên quan đến khả năng quan sát cục bộ và khả năng mở rộng trong các mạng lớn.

Bảng 1: Ứng dụng MARL trong AI-RAN
Lĩnh vực Ứng dụng | Ví dụ Nhiệm vụ Cụ thể | Lợi ích Tiềm năng | Nguồn Tham khảo |
Phân bổ Tài nguyên | Chia sẻ phổ tần động | Cải thiện hiệu quả phổ tần, Dung lượng cao hơn | 8 |
Phân bổ Tài nguyên | Lập lịch nhận biết QoS | Đáp ứng yêu cầu người dùng, Giảm độ trễ | 22 |
Quản lý Nhiễu | Kiểm soát công suất phối hợp | Giảm nhiễu, Cải thiện SINR | 24 |
Quản lý Nhiễu | Tạo búp sóng phối hợp | Tái sử dụng không gian cao hơn, Tốc độ ở rìa ô tăng | 4 |
Tối ưu hóa Tạo búp sóng | Phối hợp búp sóng đa AP | Vùng phủ sóng nâng cao, Thông lượng người dùng cao hơn | 3 |
Tiết kiệm Năng lượng | Tối ưu hóa chế độ ngủ trạm gốc | Chi phí vận hành thấp hơn, Giảm dấu chân carbon | 8 |
Phân chia Mạng | Quản lý tài nguyên động giữa các lát | Đảm bảo hiệu suất lát, Sử dụng hiệu quả | 21 |
Quản lý Di động | Quyết định chuyển giao thông minh | Kết nối liền mạch, Giảm lỗi chuyển giao | – |
Khai phá Tiềm năng: Lợi ích Chính của MARL cho AI-RAN
Việc tích hợp MARL vào khuôn khổ AI-RAN mang lại một số lợi thế hấp dẫn cho các mạng không dây trong tương lai:
Tăng cường Trí tuệ và Khả năng Thích ứng Mạng
MARL trao quyền cho các phần tử mạng vượt ra ngoài các quy tắc hoạt động tĩnh, được xác định trước. Các tác nhân có thể tự động học các hành vi phức tạp, mới nổi và điều chỉnh chiến lược của chúng trong thời gian thực để đối phó với tính năng động vốn có của môi trường không dây – tải lưu lượng biến động, tính di động của người dùng, điều kiện kênh thay đổi và nhiễu không thể đoán trước.1 Khả năng học hỏi này là nền tảng để đạt được tầm nhìn về các mạng tự tối ưu hóa, tự phục hồi và có khả năng phục hồi cao được dự đoán cho 6G.2
Đạt được Khả năng Mở rộng Thực sự trong Hệ thống Phân tán
Khi mạng trở nên dày đặc hơn và bao gồm hàng tỷ thiết bị được kết nối tiềm năng, việc kiểm soát và tối ưu hóa tập trung trở nên không khả thi về mặt tính toán và gây ra độ trễ đáng kể. MARL, đặc biệt khi kết hợp với các mô hình như Huấn luyện Tập trung, Thực thi Phân tán (CTDE), cung cấp một con đường khả thi hướng tới quản lý mạng có khả năng mở rộng.1 Trong CTDE, các tác nhân tận dụng thông tin toàn cầu trong giai đoạn huấn luyện ngoại tuyến nhưng thực thi các chính sách đã học trực tuyến chỉ bằng thông tin cục bộ, cho phép hệ thống mở rộng quy mô một cách linh hoạt khi số lượng tác nhân tăng lên.11 Điều này hoàn toàn phù hợp với các mục tiêu kiến trúc của AI-RAN về khả năng mở rộng theo chiều ngang và quản lý hiệu quả các triển khai dày đặc.2
Hơn nữa, cơ sở hạ tầng điện toán tiên tiến được hình dung cho AI-RAN đóng một vai trò quan trọng ở đây. Sự sẵn có của các nền tảng điện toán hợp nhất, mạnh mẽ được trang bị các bộ tăng tốc như GPU và DPU trong kiến trúc AI-RAN không chỉ có lợi mà còn được cho là cần thiết để triển khai hiệu quả các thuật toán MARL phức tạp ở quy mô lớn.2 Các nền tảng này có thể xử lý các giai đoạn huấn luyện đòi hỏi nhiều tính toán (đặc biệt đối với CTDE) và suy luận thời gian thực cần thiết bởi nhiều tác nhân trong quá trình thực thi phân tán. Đặc biệt, DPU có thể giảm tải các tác vụ giao tiếp, giảm thiểu các nút thắt cổ chai tiềm ẩn.4 Mối quan hệ cộng sinh này có nghĩa là những tiến bộ trong phần cứng AI-RAN trực tiếp cho phép các ứng dụng MARL mạnh mẽ và có khả năng mở rộng hơn, giúp khắc phục một số thách thức tính toán cố hữu mà MARL phải đối mặt.
Cho phép Tối ưu hóa Tự động, Thời gian thực
MARL tạo điều kiện cho việc ra quyết định nhanh chóng, cục bộ. Các tác nhân có thể phản ứng nhanh chóng với những thay đổi trong môi trường cục bộ của chúng dựa trên các chính sách đã học, cho phép loại vòng lặp tối ưu hóa thời gian thực là nền tảng của kiến trúc AI-RAN.2 Điều này hoàn toàn trái ngược với các phương pháp tối ưu hóa tập trung truyền thống, thường liên quan đến các chu trình thu thập, xử lý và kiểm soát dữ liệu chậm hơn, khiến chúng kém phù hợp hơn với các điều kiện mạng có tính động cao.
Vượt qua Rào cản: Thách thức trong việc Triển khai MARL trong AI-RAN
Bất chấp tiềm năng to lớn của nó, việc áp dụng thực tế MARL trong lĩnh vực phức tạp của AI-RAN phải đối mặt với những thách thức đáng kể về nghiên cứu và triển khai.1 Nhiều nghiên cứu hiện tại vẫn dựa vào các giả định đơn giản hóa có thể không đúng trong các triển khai mạng thực tế.12 Các rào cản chính bao gồm:
Mục tiêu Di động: Đối phó với Tính không ổn định
Như đã đề cập trước đây, thách thức cốt lõi của tính không ổn định (non-stationarity) phát sinh bởi vì quá trình học của mỗi tác nhân làm thay đổi động lực môi trường cho tất cả các tác nhân khác.6 Từ góc độ của một tác nhân đơn lẻ, chính sách tối ưu liên tục thay đổi khi các tác nhân đồng cấp điều chỉnh. Điều này vi phạm giả định về tính ổn định quan trọng đối với sự đảm bảo hội tụ của nhiều thuật toán RL tiêu chuẩn, dẫn đến việc học không ổn định và kết quả có thể không tối ưu.11 Giải quyết hiệu quả tính không ổn định đòi hỏi các kỹ thuật cho phép các tác nhân thích ứng hoặc tính đến các chính sách đang thay đổi của những người khác. Các chiến lược giảm thiểu tiềm năng bao gồm sử dụng bộ đệm phát lại kinh nghiệm lưu trữ các chuyển đổi trong quá khứ, sử dụng tốc độ học thích ứng, mô hình hóa rõ ràng các chiến lược của đối thủ hoặc tận dụng khung CTDE nơi một nhà phê bình tập trung có quyền truy cập vào chính sách của tất cả các tác nhân trong quá trình đào tạo.11
Mở rộng quy mô: Chi phí Tính toán và Giao tiếp
Sự phức tạp của các hệ thống MARL tăng nhanh chóng theo số lượng tác nhân và sự phức tạp của môi trường. Điều này dẫn đến “lời nguyền về chiều” (curse of dimensionality), nơi không gian trạng thái-hành động trở nên lớn đến mức không thể quản lý được, khiến việc học trở nên cực kỳ kém hiệu quả.11 Việc đào tạo các mô hình MARL sâu, thường liên quan đến các mạng nơ-ron lớn cho mỗi tác nhân, đòi hỏi tài nguyên tính toán đáng kể, đặc biệt là trong giai đoạn học tập nặng về khám phá.11 Mặc dù phần cứng tăng tốc của AI-RAN giúp ích 4, chi phí tính toán vẫn là một mối quan tâm.
Hơn nữa, giao tiếp rộng rãi cần thiết cho sự phối hợp có thể gây ra chi phí đáng kể, tiêu tốn băng thông mạng có giá trị và có khả năng gây ra độ trễ, điều này có thể phủ nhận lợi ích của sự phối hợp nếu không được quản lý cẩn thận.11 Các chiến lược để chống lại các vấn đề về khả năng mở rộng bao gồm chia sẻ tham số giữa các tác nhân (mặc dù điều này giả định tính đồng nhất và có thể không thực tế trong mọi tình huống 19), phát triển các giao thức giao tiếp hiệu quả hơn chỉ truyền thông tin cần thiết 17, sử dụng GNN để tổng hợp thông tin cục bộ 11 và dựa vào các kiến trúc thực thi phân tán như CTDE.11
Nhìn thấy Toàn cảnh: Khả năng Quan sát Cục bộ và Phối hợp
Trong các triển khai AI-RAN thực tế, các tác nhân riêng lẻ (ví dụ: trạm gốc) thường chỉ có quyền truy cập vào thông tin cục bộ – trạng thái của chính chúng, trạng thái của người dùng được kết nối và có lẽ là thông tin từ các hàng xóm ngay lập tức. Chúng thiếu một cái nhìn toàn diện về trạng thái mạng toàn bộ.11 Khả năng quan sát cục bộ (partial observability) này làm cho việc ra quyết định tối ưu trở nên khó khăn vốn có, vì các tác nhân phải hành động dựa trên thông tin không đầy đủ. Nó làm phức tạp đáng kể việc phối hợp, vì các tác nhân có thể thiếu bối cảnh chung cần thiết để điều chỉnh hành động của họ một cách hiệu quả. Nó cũng làm trầm trọng thêm vấn đề gán tín nhiệm (credit assignment): nếu một kết quả nhóm tích cực xảy ra, làm thế nào một tác nhân biết được liệu hành động của chính nó có đóng góp hay không, hay là do một hành động không nhìn thấy của một tác nhân ở xa?.11 Các kỹ thuật để giải quyết khả năng quan sát cục bộ bao gồm mô hình hóa vấn đề dưới dạng Quy trình Quyết định Markov Quan sát được một phần (POMDP) 11, sử dụng mạng nơ-ron hồi quy (như LSTM) trong chính sách của tác nhân để duy trì bộ nhớ về các quan sát trong quá khứ 30, tạo điều kiện giao tiếp để chia sẻ các quan sát liên quan 13 và sử dụng GNN để giúp các tác nhân suy ra một biểu diễn trạng thái toàn diện hơn từ vùng lân cận đồ thị cục bộ của chúng.25
Các Thách thức Chính Khác
Ngoài những vấn đề cốt lõi này, một số thách thức khác phải được giải quyết:
- Gán Tín nhiệm: Xác định sự đóng góp của các tác nhân riêng lẻ vào một kết quả tập thể, đặc biệt khi phần thưởng thưa thớt, bị trì hoãn hoặc chỉ dựa trên hiệu suất của nhóm, là cực kỳ khó khăn.29 Phần thưởng nhóm đơn giản có thể dẫn đến vấn đề “tác nhân lười biếng”, nơi một số tác nhân học cách đóng góp ít trong khi vẫn được hưởng lợi từ nỗ lực của những người khác.29 Các kỹ thuật như phần thưởng phản thực tế (counterfactual rewards), ước tính đóng góp cụ thể của một tác nhân, đang được khám phá.29
- Tính Mạnh mẽ (Robustness): Các chính sách MARL được đào tạo trong mô phỏng phải đủ mạnh mẽ để hoạt động đáng tin cậy trong thế giới thực, đối mặt với các yếu tố như nhiễu giao tiếp, mất gói tin, biến động độ trễ và các nhiễu loạn tiềm ẩn từ đối thủ.15 Các phương pháp đào tạo cần tính đến những điểm không hoàn hảo này.
- Lựa chọn Điểm cân bằng (Equilibrium Selection): Trong các kịch bản tồn tại nhiều chiến lược ổn định (điểm cân bằng), việc đảm bảo rằng các tác nhân hội tụ đến một điểm cân bằng hiệu quả và cùng có lợi, thay vì bị mắc kẹt ở một điểm cân bằng không tối ưu, là một thách thức.14
- Khả năng Khái quát hóa (Generalizability): Việc đào tạo các tác nhân MARL có thể khái quát hóa các chính sách đã học của chúng để hoạt động hiệu quả với các tác nhân chưa từng thấy trước đây hoặc thích ứng với các biến thể trong cấu trúc liên kết mạng hoặc điều kiện lưu lượng truy cập vẫn là một lĩnh vực nghiên cứu tích cực.14
Bảng 2: Các Thách thức Chính của MARL trong AI-RAN & Phương pháp Giảm thiểu
Thách thức | Mô tả trong Bối cảnh AI-RAN | Chiến lược Giảm thiểu Tiềm năng | Nguồn Tham khảo |
Tính không ổn định | Động lực mạng thay đổi khi các trạm gốc điều chỉnh chính sách | CTDE, Mô hình hóa Đối thủ, Phát lại Kinh nghiệm, Tốc độ Học Thích ứng | 6 |
Khả năng mở rộng (Tính toán/Giao tiếp) | Cần nhiều tài nguyên tính toán/băng thông cho nhiều tác nhân (BS, UE) | Phần cứng tăng tốc (GPU/DPU), Giao thức Giao tiếp Hiệu quả, GNN, Chia sẻ Tham số, CTDE (Thực thi Phân tán) | 4 |
Khả năng Quan sát Cục bộ | Trạm gốc chỉ thấy điều kiện cục bộ (người dùng, hàng xóm) | POMDP, Mạng Hồi quy (RNN/LSTM), Giao tiếp, GNN | 11 |
Phức tạp trong Phối hợp | Khó khăn trong việc điều chỉnh hành động giữa các ô/búp sóng/lát | Giao thức Giao tiếp, CTDE, GNN, Định hình Phần thưởng, RL Phân cấp | 11 |
Gán Tín nhiệm | Khó thưởng cho BS riêng lẻ vì lợi ích hiệu suất mạng tổng thể | Phần thưởng Phản thực tế, Phần thưởng Khác biệt, Định hình Phần thưởng | 29 |
Tính Mạnh mẽ | Suy giảm hiệu suất do nhiễu kênh, độ trễ, tấn công | Kỹ thuật Huấn luyện Mạnh mẽ (ví dụ: huấn luyện đối kháng), Mô hình hóa Nhiễu trong Mô phỏng, Giao thức Linh hoạt | 15 |
Khả năng Khái quát hóa | Hiệu suất kém với các tác nhân hoặc điều kiện mạng chưa từng thấy | Ngẫu nhiên hóa Miền, Học Meta, Kịch bản Huấn luyện Đa dạng | 14 |
Lựa chọn Điểm cân bằng | Hội tụ đến các điểm vận hành mạng không tối ưu | Kỹ thuật Tinh chỉnh Điểm cân bằng, Thiết kế Phần thưởng Cẩn thận | 14 |
Vạch ra Lộ trình: Tương lai của MARL và AI-RAN
Sự hội tụ của MARL và AI-RAN là một lĩnh vực năng động và phát triển nhanh chóng. Các nỗ lực nghiên cứu đang diễn ra tập trung mạnh mẽ vào việc khắc phục những thách thức đã nêu ở trên. Các hướng đi chính bao gồm phát triển các thuật toán MARL có khả năng mở rộng và hiệu quả về mẫu hơn, thiết kế các chiến lược giao tiếp mạnh mẽ và hiệu quả phù hợp với các kênh không dây nhiễu, cải thiện khả năng khái quát hóa và đảm bảo tính an toàn và độ tin cậy của các chính sách đã học.12
Các cơ quan tiêu chuẩn hóa như Liên minh O-RAN và Liên minh AI-RAN đóng vai trò quan trọng trong việc xác định các kiến trúc, giao diện và mô hình dữ liệu cần thiết cho các giải pháp RAN dựa trên AI có khả năng tương tác.4 Những nỗ lực này sẽ rất quan trọng để thúc đẩy một hệ sinh thái nơi các ứng dụng dựa trên MARL có thể được phát triển và triển khai dễ dàng hơn.
Khái niệm Bản sao Số Mạng lưới (NDT), một trụ cột cốt lõi của AI-RAN, sẽ không thể thiếu.2 NDT cung cấp các môi trường mô phỏng có độ trung thực cao cần thiết để đào tạo, thử nghiệm và xác thực an toàn các tác nhân MARL phức tạp trước khi triển khai chúng trong các mạng trực tiếp. Chúng cho phép thử nghiệm rộng rãi với các thuật toán, cấu trúc phần thưởng và cơ chế phối hợp khác nhau trong các kịch bản thực tế.
Nhìn về phía trước, trong khi mục tiêu cuối cùng thường là tự chủ mạng hoàn toàn, việc triển khai thực tế MARL trong AI-RAN ban đầu có thể liên quan đến các hệ thống lai giữa người và tác nhân.8 Sự phức tạp và tính chất quan trọng của cơ sở hạ tầng viễn thông đòi hỏi sự tin cậy và xác minh. Nghiên cứu về các tác nhân MARL có khả năng học hỏi từ các minh chứng của con người, chấp nhận hướng dẫn của nhà điều hành hoặc cung cấp các giải thích dễ hiểu cho các quyết định của chúng có thể rất quan trọng cho việc áp dụng. Khả năng NDT của AI-RAN cung cấp một nền tảng lý tưởng để phát triển và đánh giá các phương pháp tiếp cận có sự tham gia của con người, có khả năng thu hẹp khoảng cách giữa nghiên cứu và chấp nhận vận hành trong thế giới thực.2
Cuối cùng, MARL sẵn sàng trở thành một công nghệ nền tảng cho phép chuyển đổi sang các mạng thực sự thông minh, tự trị và hiệu quả cao cần thiết để hiện thực hóa tầm nhìn đầy tham vọng của 6G và hơn thế nữa.1
Kết luận: MARL – Nền tảng cho Mạng Thông minh Tương lai
Sự phát triển hướng tới AI-RAN đại diện cho một sự chuyển đổi cơ bản trong cách các mạng không dây được thiết kế, vận hành và tối ưu hóa. Đối mặt với sự phức tạp và nhu cầu chưa từng có, việc tích hợp trí tuệ nhân tạo như một thành phần gốc không còn là tùy chọn mà là điều cần thiết. Học Tăng cường Đa Tác nhân nổi bật như một mô hình AI mạnh mẽ độc đáo có khả năng giải quyết các thách thức cốt lõi của việc quản lý các hệ thống phân tán, phức tạp này.
MARL cung cấp khuôn khổ lý thuyết và các công cụ thuật toán để cho phép nhiều phần tử mạng học hỏi, thích ứng và phối hợp tự động trong môi trường động. Các ứng dụng tiềm năng của nó trong AI-RAN, từ phân bổ tài nguyên động và quản lý nhiễu đến tiết kiệm năng lượng và tối ưu hóa tạo búp sóng, hứa hẹn những lợi ích đáng kể về hiệu suất, hiệu quả và khả năng thích ứng của mạng.
Tuy nhiên, con đường dẫn đến việc triển khai rộng rãi không phải không có trở ngại. Những thách thức đáng kể liên quan đến tính không ổn định, khả năng mở rộng, khả năng quan sát cục bộ, sự phức tạp trong phối hợp và tính mạnh mẽ phải được khắc phục thông qua nghiên cứu và đổi mới liên tục. Đáng khích lệ là những tiến bộ về kiến trúc vốn có trong AI-RAN, đặc biệt là việc cung cấp cơ sở hạ tầng tính toán hợp nhất, mạnh mẽ và Bản sao Số Mạng lưới tinh vi, tạo ra một môi trường cộng sinh nơi các giải pháp MARL có thể được phát triển, thử nghiệm và có khả năng triển khai hiệu quả hơn. Sức mạnh tổng hợp giữa khả năng thuật toán của MARL và sự hỗ trợ về cơ sở hạ tầng của AI-RAN sẽ là chìa khóa cho sự tiến bộ.
Khi ngành công nghiệp viễn thông vạch ra lộ trình hướng tới 6G, MARL được định vị không chỉ là một lĩnh vực nghiên cứu đầy hứa hẹn mà còn là một công nghệ hỗ trợ quan trọng. Khả năng khai phá trí tuệ phân tán và tối ưu hóa tự động ở quy mô lớn sẽ là nền tảng để hiện thực hóa tầm nhìn về các mạng siêu kết nối, thông minh và tự vận hành sẽ định hình tương lai của chúng ta. Việc tiếp tục khám phá và hoàn thiện các kỹ thuật MARL trong bối cảnh AI-RAN chắc chắn sẽ là nền tảng của việc xây dựng cơ sở hạ tầng truyền thông thông minh trong tương lai.
Works cited
- Multi-Agent Reinforcement Learning in Wireless Distributed Networks for 6G – arXiv, accessed April 24, 2025, https://arxiv.org/html/2502.05812v1
- The Eight Pillars of AI-Native RAN Architecture: A Technical Deep …, accessed April 24, 2025, https://www.vamsitalkstech.com/ai/the-eight-pillars-of-ai-native-ran-architecture-a-technical-deep-dive/
- AI-RAN: Transforming RAN with AI-driven Computing Infrastructure – arXiv, accessed April 24, 2025, https://arxiv.org/pdf/2501.09007
- docs.nvidia.com, accessed April 24, 2025, https://docs.nvidia.com/aerial-resources/2025_AI-RAN_FAQ.pdf
- O-RAN Native AI Architecture Description, accessed April 24, 2025, https://mediastorage.o-ran.org/ngrg-rr/nGRG-RR-2023-02-Native%20AI%20Architecture%20Description-v1.2.pdf
- Multi-Agent Reinforcement Learning (MARL) – Synaptic Labs Blog, accessed April 24, 2025, https://blog.synapticlabs.ai/multi-agent-reinforcement-learning-marl
- Multi Agent Reinforcement Learning Marl – Lark, accessed April 24, 2025, https://www.larksuite.com/en_us/topics/ai-glossary/multi-agent-reinforcement-learning-marl
- Cases for Applying Multi-Agent Reinforcement Learning – Silo AI, accessed April 24, 2025, https://www.silo.ai/blog/applying-multi-agent-reinforcement-learning
- An Introduction to Multi-Agent Reinforcement Learning – MATLAB – MathWorks, accessed April 24, 2025, https://www.mathworks.com/videos/an-introduction-to-multi-agent-reinforcement-learning-1657699091457.html
- From A* to MARL (Part 5- Multi-Agent Reinforcement Learning) | Kaduri’s blog, accessed April 24, 2025, https://omrikaduri.github.io/2021/08/07/Part-5-MARL.html
- A Review of Multi-Agent Reinforcement Learning Algorithms – MDPI, accessed April 24, 2025, https://www.mdpi.com/2079-9292/14/4/820
- Deep multiagent reinforcement learning: challenges and directions – ResearchGate, accessed April 24, 2025, https://www.researchgate.net/publication/364382892_Deep_multiagent_reinforcement_learning_challenges_and_directions
- Multi-Agent Reinforcement Learning: Independent vs. Cooperative Agents – MIT Media Lab, accessed April 24, 2025, https://web.media.mit.edu/~cynthiab/Readings/tan-MAS-reinfLearn.pdf
- What is the current state of the art in multi agent reinforcement learning? – Reddit, accessed April 24, 2025, https://www.reddit.com/r/reinforcementlearning/comments/1cgobyl/what_is_the_current_state_of_the_art_in_multi/
- MA3C: Enhancing communication robustness in multi-agent learning through adaptable auxiliary multi-agent adversary generation | EurekAlert!, accessed April 24, 2025, https://www.eurekalert.org/news-releases/1069825
- Effective Communications: A Joint Learning and Communication Framework for Multi-Agent Reinforcement Learning over Noisy Channel – Imperial College London, accessed April 24, 2025, https://www.imperial.ac.uk/media/imperial-college/research-centres-and-groups/ipc-lab/Effective_Communications__A_Joint_Learning_and_Communication_Framework_for_Multi_Agent_Reinforcement_Learning_over_Noisy_Channels__double_column_.pdf
- Scalable Communication for Multi-Agent Reinforcement Learning via Transformer-Based Email Mechanism | IJCAI, accessed April 24, 2025, https://www.ijcai.org/proceedings/2023/15
- COMMUNICATION IN MULTI-AGENT REINFORCEMENT LEARNING: INTENTION SHARING – OpenReview, accessed April 24, 2025, https://openreview.net/pdf?id=qpsl2dR9twy
- [2401.15059] Fully Independent Communication in Multi-Agent Reinforcement Learning, accessed April 24, 2025, https://arxiv.org/abs/2401.15059
- Fully Independent Communication in Multi-Agent Reinforcement Learning – IFAAMAS, accessed April 24, 2025, https://www.ifaamas.org/Proceedings/aamas2024/pdfs/p2423.pdf
- AI-native RAN Architecture Overview | Download Scientific Diagram – ResearchGate, accessed April 24, 2025, https://www.researchgate.net/figure/AI-native-RAN-Architecture-Overview_fig1_368411384
- The multi-agent architecture in the reinforcement learning system. – ResearchGate, accessed April 24, 2025, https://www.researchgate.net/figure/The-multi-agent-architecture-in-the-reinforcement-learning-system_fig2_371664333
- Simplified RL multi-agent diagram. – ResearchGate, accessed April 24, 2025, https://www.researchgate.net/figure/Simplified-RL-multi-agent-diagram_fig2_358209339
- Deep MARL diagram, where the agents receive local observations from… – ResearchGate, accessed April 24, 2025, https://www.researchgate.net/figure/Deep-MARL-diagram-where-the-agents-receive-local-observations-from-their-associated-UEs_fig1_348639691
- Graph Neural Network-based Multi-agent Reinforcement Learning for Resilient Distributed Coordination of Multi-Robot Systems – arXiv, accessed April 24, 2025, https://arxiv.org/pdf/2403.13093
- Scalable Multi-Agent Reinforcement Learning through Intelligent Information Aggregation, accessed April 24, 2025, https://proceedings.mlr.press/v202/nayak23a/nayak23a.pdf
- jw3il/graph-marl: Multi-Agent Reinforcement Learning in Graphs – GitHub, accessed April 24, 2025, https://github.com/jw3il/graph-marl
- Multi-Agent Reinforcement Learning: A Review of Challenges and Applications – MDPI, accessed April 24, 2025, https://www.mdpi.com/2076-3417/11/11/4948
- Key challenges in MARL: (a)Non-Stationarity — Agents learn in an… – ResearchGate, accessed April 24, 2025, https://www.researchgate.net/figure/Key-challenges-in-MARL-aNon-Stationarity-Agents-learn-in-an-ever-changing_fig1_363192430
- Multi Agent Reinforcement Learning A2C with LSTM, CNN, FC Layers, Graph Attention Networks – PyTorch Forums, accessed April 24, 2025, https://discuss.pytorch.org/t/multi-agent-reinforcement-learning-a2c-with-lstm-cnn-fc-layers-graph-attention-networks/210009
- Multi Agent Reinforcement Learning A2C with LSTM, CNN, FC Layers, Graph Attention Networks : r/reinforcementlearning – Reddit, accessed April 24, 2025, https://www.reddit.com/r/reinforcementlearning/comments/1fofr68/multi_agent_reinforcement_learning_a2c_with_lstm/