|
Cây quyết định trong tiếng Anh là
Decision Tree hoặc Logic Tree.
Trong lý thuyết quyết định (chẳng hạn quản lí rủi ro), một cây quyết định là một
đồ thị của các quyết định và các hậu quả có thể của nó (bao gồm rủi ro và hao
phí tài nguyên). Cây quyết định được sử dụng để xây dựng một kế hoạch nhằm đạt
được mục tiêu mong muốn. Các cây quyết định được dùng để hỗ trợ quá trình ra
quyết định. Cây quyết định là một dạng đặc biệt của cấu trúc cây.
Học bằng cây quyết định cũng là một phương pháp thông dụng trong khai phá dữ
liệu. Khi đó, cây quyết định mô tả một cấu trúc cây, trong đó, các lá đại diện
cho các phân loại còn cành đại diện cho các kết hợp của các thuộc tính dẫn tới
phân loại đó. Một cây quyết định có thể được học bằng cách chia tập hợp nguồn
thành các tập con dựa theo một kiểm tra giá trị thuộc tính. Quá trình này được
lặp lại một cách đệ qui cho mỗi tập con dẫn xuất.
Cây quyết định là một phương tiện hỗ trợ cho việc ra quyết định trong điều kiện bất định. Nó chỉ ra nhiều đường lối hàng động khác nhau và hậu quả kinh tế của mỗi đường lối. Thông thường, mỗi đường lối hành động được gắn với một xác suất chủ quan về khả năng phát sinh các sự kiện trong tương lai.
Ví dụ về cây quyết định thứ 1
Một người nghĩ đến việc mở một cửa hàng bán lẻ (mà thành công của nó phụ thuộc
vào chi tiêu của người tiêu dùng và bởi vậy phụ thuộc vào thực trạng của nền
kinh tế) sẽ có cây quyết định như hình dưới đây:
Căn cứ vào Cây quyết định trên, người bán lẻ có hai phương án hành động là mở
cửa hàng và không mở cửa hàng. Anh ta phải cân nhắc hai trạng thái tự nhiên, tức
hai sự kiện có thể xảy ra: nền kinh tế phát triển mạnh hoặc suy thoái.
Người bán lẻ phải đánh giá khả năng xuất hiện mỗi sự kiện và trong tình huống
này, anh ta dựa trên kinh nghiệm và hiểu biết để nhận định rằng khả năng xuất
hiện mỗi sự kiện bằng 50%. Cuối cùng, người bán lẻ ước tính hậu quả tài chính là
nếu mở cửa hàng sẽ có lãi 40.000 đồng khi kinh tế phát triển mạnh và lỗ 30.000
đồng nếu có suy thoái.
Để ra quyết định, người bán lẻ cần một tiêu chuẩn ra quyết định cho phép anh ta
lựa chọn phương án hành động tốt nhất trong các phương án có thể có. Vì sự lựa
chọn này gắn với yếu tố rủi ro, nên chúng ta cần biết thái độ của người bán lẻ
đối với rủi ro.
Nếu người bán lẻ không chú ý đến rủi ro, chúng ta có thể tính toán tính xác định
tương đương với hành vi "mở cửa hàng" bằng cách căn cứ vào hậu quả tài chính của
mỗi kết cục và gia quyền nó theo xác suất xuất hiện của nó.
Ví dụ:
Kết cục này chắc chắn lớn hơn 0 trong trường hợp không mở cửa hàng và nó biện
minh cho việc tiếp tục thực hiện dự án này.
Song nếu người bán lẻ là người ghét rủi ro, tiêu chuẩn giá trị bằng tiền có thể
không phải là tiêu chuẩn thích hợp, vì anh ta cần nhận được phần thưởng cho sự
rủi ro để chấp nhận hành động. Việc tận dụng tiêu chuẩn cẩn thận hơn tiêu chuẩn
tương đương với tính xác định sẽ làm giảm tiêu chuẩn tương đương với tính xác
định của nhánh "mở cửa hàng" và điều này cũng dẫn đến quyết định tiếp tục mở cửa
hàng.
Ví dụ về cây quyết định thứ 2:
David là quản lý của một câu lạc bộ đánh golf nổi tiếng. Anh ta đang có rắc rối
chuyện các thành viên đến hay không đến. Có ngày ai cũng muốn chơi golf nhưng số
nhân viên câu lạc bộ lại không đủ phục vụ. Có hôm, không hiểu vì lý do gì mà
chẳng ai đến chơi, và câu lạc bộ lại thừa nhân viên.
Mục tiêu của David là tối ưu hóa số nhân viên phục vụ mỗi ngày bằng cách dựa
theo thông tin dự báo thời tiết để đoán xem khi nào người ta sẽ đến chơi golf.
Để thực hiện điều đó, anh cần hiểu được tại sao khách hàng quyết định chơi và
tìm hiểu xem có cách giải thích nào cho việc đó hay không.
Vậy là trong hai tuần, anh ta thu thập thông tin về:
Trời (outlook) (nắng (sunny), nhiều mây (clouded) hoặc mưa (raining)). Nhiệt độ
(temperature) bằng độ F. Độ ẩm (humidity). Có gió mạnh (windy) hay không.
Và tất nhiên là số người đến chơi golf vào hôm đó. David thu được một bộ dữ liệu
gồm 14 dòng và 5 cột như hình:
Sau đó, để giải quyết bài toán của David, người ta đã đưa ra một mô hình cây
quyết định.
Cây quyết định là một mô hình dữ liệu mã hóa phân bố của nhãn lớp (cũng là y)
theo các thuộc tính dùng để dự đoán. Đây là một đồ thị có hướng phi chu trình
dưới dạng một cây. Nút gốc (nút nằm trên đỉnh) đại diện cho toàn bộ dữ liệu.
Thuật toán cây phân loại phát hiện ra rằng cách tốt nhất để giải thích biến phụ
thuộc, play (chơi), là sử dụng biến Outlook. Phân loại theo các giá trị của biến
Outlook, ta có ba nhóm khác nhau: Nhóm người chơi golf khi trời nắng, nhóm chơi
khi trời nhiều mây, và nhóm chơi khi trời mưa.
Kết luận thứ nhất: nếu trời nhiều mây, người ta luôn luôn chơi golf. Và có một
số người ham mê đến mức chơi golf cả khi trời mưa.
Tiếp theo, ta lại chia nhóm trời nắng thành hai nhóm con. Ta thấy rằng khách
hàng không muốn chơi golf nếu độ ẩm lên quá 70%.
Cuối cùng, ta chia nhóm trời mưa thành hai và thấy rằng khách hàng sẽ không chơi
golf nếu trời nhiều gió.
Và đây là lời giải ngắn gọn cho bài toán mô tả bởi cây phân loại. David cho phần
lớn nhân viên nghỉ vào những ngày trời nắng và ẩm, hoặc những ngày mưa gió. Vì
hầu như sẽ chẳng có ai chơi golf trong những ngày đó. Vào những hôm khác, khi
nhiều người sẽ đến chơi golf, anh ta có thể thuê thêm nhân viên thời vụ để phụ
giúp công việc.
Kết luận là cây quyết định giúp ta biến một biểu diễn dữ liệu phức tạp thành một
cấu trúc đơn giản hơn rất nhiều.
Viện Đào Tạo Kỹ Năng
Quản Lý & Lãnh Đạo MASTERSKILLS
Công ty CP Giáo Dục TINH NGHỆ .MST: 0309177901 .Ngày cấp: 02/07/2009 .Nơi
cấp: Sở Kế Hoạch Và Đầu Tư Thành Phố Hồ Chí Minh
Bản quyền © 2009 - 2024 Masterskills.org