Reinforcement Learning
Reinforcement Learning là gì
Reinforcement Learning (RL) là một lĩnh vực của trí tuệ nhân tạo mà trong đó một “agent” học cách tương tác với một “environment” để đạt được mục tiêu thông qua việc thực hiện “actions”. Agent học từ các phản hồi gọi là “rewards” từ environment và dần dần điều chỉnh hành vi để tối đa hóa tổng số rewards.
Các thuật ngữ thông dụng
Trong reinforcement learning có rất nhiều các thuật ngữ khác nhau. Sau đây chúng ta cùng liệt kê các thuật ngữ thông dụng và tìm hiểu ý nghĩa của từng thuật ngữ
Agent: Là thực thể thực hiện các hành động trong môi trường để đạt được mục tiêu.
Environment: Là môi trường mà agent tương tác và học từ đó. Nó bao gồm tất cả các yếu tố ảnh hưởng đến agent và có thể thay đổi dựa trên hành động của agent.
Action: Là các hành động mà agent thực hiện trong môi trường để thay đổi trạng thái hiện tại của nó.
Observation: Là thông tin mà agent thu thập từ môi trường sau khi thực hiện một hành động.
State: Là biểu diễn trạng thái hiện tại của môi trường. Nó chứa thông tin cần thiết để quyết định tương lai của agent.
Policy: Là chiến lược hoặc kế hoạch mà agent sử dụng để chọn hành động dựa trên trạng thái hiện tại.
Reward: Là phản hồi từ môi trường sau mỗi hành động. Reward định rõ giá trị của hành động và giúp agent học cách tối đa hóa tổng số reward theo thời gian.
Khai thác và khám phá (exploit or explore): Là quá trình cân bằng giữa việc sử dụng kiến thức hiện có để đạt được reward ngay lập tức (khai thác) và việc thử nghiệm các hành động mới để tìm hiểu thêm về môi trường (khám phá).
So sánh Reinforcement Learning (RL), Unsupervised Learning, and Supervised Learning
Học tăng cường (RL), Học không giám sát và Học có giám sát là ba mô hình cơ bản trong học máy, mỗi mô hình phục vụ các mục đích khác nhau và giải quyết các loại vấn đề riêng biệt. Dưới đây là so sánh ba cách tiếp cận này:
Học tăng cường (RL):
- Mục tiêu: Học cách đưa ra quyết định để tối đa hóa phần thưởng tích lũy trong một môi trường.
- Bản chất: Liên quan đến việc tác nhân tương tác với môi trường bằng cách thực hiện hành động và nhận phần thưởng dựa trên hành động của tác nhân đó.
- Dữ liệu đào tạo: RL học hỏi từ các tương tác và phản hồi thay vì dữ liệu được gắn nhãn.
- Ví dụ: Chơi trò chơi, điều khiển robot, hệ thống đề xuất.
- Thách thức: Đánh đổi giữa thăm dò và khai thác, phần thưởng bị trì hoãn, cân bằng giữa thăm dò và khai thác.
Học không giám sát:
- Mục tiêu: Tìm các mẫu hoặc cấu trúc trong dữ liệu chưa được gắn nhãn.
- Bản chất: Không có mục tiêu hoặc kết quả cụ thể để dự đoán. Mục tiêu là khám phá các mối quan hệ hoặc cụm ẩn trong dữ liệu.
- Dữ liệu huấn luyện: Học từ dữ liệu đầu vào mà không có nhãn đầu ra rõ ràng.
- Ví dụ: Phân cụm, giảm kích thước, tạo mô hình tổng quát (ví dụ: GAN).
- Thách thức: Xác định số lượng cụm thích hợp, xử lý dữ liệu nhiều chiều.
Học tập có giám sát:
- Mục tiêu: Học cách ánh xạ từ đầu vào đến đầu ra dựa trên dữ liệu huấn luyện được gắn nhãn.
- Bản chất: Yêu cầu tập dữ liệu được gắn nhãn trong đó mô hình học cách dự đoán kết quả đầu ra chính xác từ các đầu vào nhất định.
- Dữ liệu huấn luyện: Sử dụng các cặp đầu vào-đầu ra để huấn luyện.
- Ví dụ: Phân loại, hồi quy.
- Thách thức: Quá phù hợp, sai lệch, khái quát hóa đối với dữ liệu không nhìn thấy được.
Sự khác biệt chính: - RL tập trung vào việc học các hành động tối ưu để tối đa hóa phần thưởng, trong khi việc học có giám sát và không giám sát tập trung vào các mô hình học tập hoặc các mối quan hệ trong dữ liệu. - Học không giám sát thiếu dữ liệu được dán nhãn, trong khi học có giám sát yêu cầu dữ liệu được dán nhãn. - Học có giám sát phù hợp với các nhiệm vụ đã biết đầu ra mong muốn, trong khi RL phù hợp với các nhiệm vụ liên quan đến việc ra quyết định tuần tự. - RL thường liên quan đến việc khám phá và đánh đổi giữa phần thưởng trước mắt và lâu dài, trong khi học tập có giám sát và không giám sát là tìm kiếm các mô hình hoặc đưa ra dự đoán.