Phương pháp qui nạp ngược (Backward Induction) là gì? Ví dụ về phương pháp qui nạp ngược

Hình minh họa (Nguồn: i.ytimg.com)

Phương pháp qui nạp ngược (Backward Induction)

Khái niệm

Phương pháp qui nạp ngược trong tiếng Anh là Backward Induction.

Phương pháp qui nạp ngược trong lí thuyết trò chơi là một quá trình lặp đi lặp lại của lí luận ngược thời gian từ khi kết thúc một vấn đề hoặc tình huống để giải quyết các khuôn mẫu phổ thông hữu hạn và những trò chơi tuần tự để đưa ra một chuỗi các hành động tối ưu.

Nguồn gốc của phương pháp qui nạp ngược

Phương pháp qui nạp ngược từng được sử dụng để giải quyết các trò chơi kể từ khi John von Neumann và Oskar Morgenstern thiết lập lí thuyết trò chơi như một chủ đề học thuật khi họ xuất bản cuốn sách “Lí thuyết về trò chơi và hành vi kinh tế” năm 1944.

Ở mỗi giai đoạn của trò chơi, phương pháp qui nạp ngược quyết định chiến lược tối ưu của người chơi thực hiện bước cuối cùng trong trò chơi. Sau đó, hành động tối ưu của người chơi tiếp theo được xác định, thực hiện hành động của người chơi cuối cùng như đã đưa ra.

Quá trình này tiếp tục về phía sau cho đến khi hành động tốt nhất cho mọi thời điểm đã được xác định. Thực tế, người ta xác định trạng thái cân bằng Nash của mỗi trò chơi con trong trò chơi gốc.

Tham khảo: Hội Cảng – Đường thủy – Thềm lục địa Việt Nam là gì?

Tuy nhiên, kết quả suy ra từ phương pháp qui nạp ngược thường không dự đoán được lối chơi thực tế của con người. Các nghiên cứu thực nghiệm đã chỉ ra rằng hành vi “hợp lí” (theo dự đoán của lí thuyết trò chơi) hiếm khi được thể hiện trong cuộc sống thực. Người chơi phi lí thực sự có thể kết thúc việc nhận thưởng phạt cao hơn so với dự đoán của phương pháp qui nạp ngược, như minh họa trong Trò chơi con rết.

Ví dụ về phương pháp qui nạp ngược

Ví dụ, giả sử người chơi A đi trước và phải quyết định xem anh ta có nên “lấy” hay “bỏ qua” thứ được cất giấu, số tiền hiện tại là 2 đô la. Nếu anh ta lấy, thì A và B nhận được 1 đô la cho mỗi người, nhưng nếu A bỏ qua, quyết định lấy hay bỏ qua bây giờ được đưa ra bởi người chơi B.

Nếu B lấy, cô ấy nhận được 3 đô la (nghĩa là, trước đó là 2 đô la + 1 đô la) và A được 0 đô la. Nhưng nếu B bỏ qua, A sẽ quyết định lấy hay bỏ qua, và cứ thế. Nếu cả hai người chơi luôn chọn bỏ qua thì mỗi người sẽ nhận được số tiền thưởng là 100 đô la vào cuối trò chơi.

Điểm hay của trò chơi là nếu cả A và B cùng hợp tác và tiếp tục bỏ qua cho đến khi kết thúc trò chơi thì họ sẽ nhận được khoản tiền thưởng tối đa 100 đô la mỗi người. Nhưng nếu họ không tin tưởng nhau và mong họ chọn “lấy” ngay tại cơ hội đầu tiên thì trạng thái cân bằng Nash dự đoán người chơi sẽ nhận được món tiền thấp nhất có thể (1 đô la trong trường hợp này).

Tham khảo: Mục tiêu mức giá chung (Price Level Targeting) là gì? Đặc điểm Mục tiêu mức giá chung

Điểm cân bằng Nash trong trò chơi này là nơi không có người chơi nào có động cơ đi chệch khỏi chiến lược đã chọn của mình sau khi xem xét lựa chọn của đối thủ, cho thấy người chơi đầu tiên sẽ tham gia vào vòng đầu tiên của trò chơi. Tuy nhiên, trong thực tế, tương đối ít người chơi làm như vậy. Kết quả là, họ nhận được lượng tiền cao hơn lượng tiền dự đoán theo phân tích cân bằng.

(Tài liệu tham khảo: investopedia.com)