یادگیری درخت تصمیم یک مجموعه از الگوریتمهای یادگیری ماشین است که به طور عمده در طبقه بندی آماری استفاده میشوند. این الگوریتمها در دسته بندی داده ها بر اساس ویژگی های آماری و اطلاعاتی عمل میکنند. درخت های تصمیم معمولاً با استفاده از معیارهایی مانند آنتروپی ساخته میشوند تا دقت و کارایی در تصمیم گیری بهبود یابد.
مقدمه
در یک مسئله یادگیری با دو جنبه متفاوت مواجه هستیم:
– نحوه نمایش فرضیهها.
– روشی که برای یادگیری انتخاب میکنیم.
در این فصل، ما برای نمایش فرضیهها از ساختار درخت تصمیم استفاده میکنیم و برای آموزش این درخت، از روش ID3 بهره میبریم.
درخت تصمیم
در دنیای هوش مصنوعی و یادگیری ماشین، از درختها به عنوان ابزاری معمول برای نمایش و تفسیر مفاهیم متنوعی استفاده میشود. این درختها میتوانند ساختارهای مختلفی را نمایش دهند، از جمله ساختار جملات، معادلات، حالات بازی، و موارد مشابه. یکی از کاربردهای مهم این درختها، یادگیری توابع هدف با مقادیر گسسته است.
این روش از نوعی الگوریتم یادگیری است که در مقابل نویزهای داده مقاوم عمل میکند و میتواند الگوهای پیچیده و ترکیبهای مختلفی از گزارههای عطفی را یاد بگیرد. به عبارت دیگر، این روش از جمله مشهورترین الگوریتمهای یادگیری استقرائی است که با موفقیت در مختلف حوزهها و کاربردها به کار گرفته شده است.
نمایش درخت تصمیم
نمایش درخت تصمیم به عنوان یک ساختار مهم در زمینه تصمیم گیری و دسته بندی داده ها شناخته میشود. این درخت به نمونهها کمک میکند تا به نحوی دسته بندی شوند که از ریشه به سمت پایین رشد میکنند و در نهایت به گرههای برگ میرسند. در این درخت، هر گره داخلی با یک ویژگی خاص مشخص میشود و این ویژگی سوالی را در مورد نمونه ورودی مطرح میکند. در هر گره داخلی، شاخههای مختلفی وجود دارد که هر کدام به تعداد ممکن از پاسخها مرتبط با آن سوال منتسب میشوند.
برگهای این درخت نمایانگر یک کلاس یا دستهای از پاسخها میشوند. دلیل نامگذاری این درخت به عنوان “درخت تصمیم” این است که این درخت به عنوان یک فرآیند تصمیمگیری برای تعیین دستهبندی یک نمونه ورودی عمل میکند. در واقع، این درخت به تصمیمگیری و دستهبندی دادهها کمک میکند و فرآیند تصمیمگیری را به صورت سلسله مراتبی نمایش میدهد.
کاربردها
در مسائلی که پاسخ به صورت دستهای یا کلاسی ارائه میدهند، استفاده از درخت تصمیم به عنوان یک ابزار کارآمد واقعاً مناسب است. این درختها به تصمیمگیری بر اساس ویژگیها و مقادیر گسسته کمک میکنند و معمولاً در مسائلی مورد استفاده قرار میگیرند که پاسخ نهایی به صورت “بله” یا “خیر” یا دستهبندی به شکلهای مشابه ارائه میشود.
برای مثال، میتوان از یک درخت تصمیم برای پاسخ به سوالاتی مانند “بیماری مریض کدام است؟” یا “آیا مریض به هپاتیت مبتلاست؟” استفاده کرد. این درختها با توجه به ویژگیهای مختلف از بیماران و مقادیر گسسته مانند “بله” و “خیر” به تصمیمگیری میپردازند و به پاسخهای دقیق و مشخصی دست میدهند.
در مورد مسائلی که مثالهای آموزشی با زوجهای مقدار-ویژگی مشخص شده دارند، استفاده از درخت تصمیم به عنوان یک توصیف گر فصلی (disjunctive) نیز مناسب است. این درختها به تقسیم دادهها به صورت تصمیمگیریهای مبتنی بر ویژگیها و مقادیر آنها کمک میکنند تا دستههای مختلفی ایجاد شوند و دستهبندیهای دقیقی به دست آید.
ویژگی های درخت تصمیم
از درخت تصمیم در کاربردهای تصمیمگیری برای تقسیم توابع گسسته استفاده میشود. این ابزار توانایی مقاومت نسبت به نویز دادههای ورودی را داراست و برای پردازش دادههای حجیم، به خصوص در Data Mining، بسیار کارآمد است. یکی از مزایای آن این است که میتوان درخت تصمیم را به شکل قوانین if-then نمایش داد که برای استفاده و تفسیر توسط انسانها قابل فهم هستند. همچنین، این درختها امکان ترکیب عطفی و فصلی فرضیهها را فراهم میکنند و در مواردی که مثالهای آموزشی به ویژگیهای مختلف نسبت به هم ناقص هستند نیز قابل استفاده هستند.
نحوه نمایش درخت تصمیم
بین درختهای تصمیم و نمایش توابع منطقی ارتباط مستقیمی وجود دارد. به عبارت دقیقتر، هر درخت تصمیم ترکیب فصلی از گزارههای عطفی است. این درختها از ریشه به برگ، مسیرهای مختلفی از ویژگیها را مشخص میکنند و خود درخت ترکیب فصلی این ترکیبات را ایجاد میکند.
الگوریتم یادگیری درخت تصمیم
در بسیاری از موارد، الگوریتمهای یادگیری درخت تصمیم بر اساس یک رویکرد جستجوی حریصانه از بالا به پایین در فضای درخت های موجود عمل میکنند. این رویکرد اصلی به عنوان “سیستم یادگیری مفهوم” (CLS) در دهه 1950 معرفی شد و توسط راس کویلان در سال 1986 به صورت کامل تر تحت عنوان “ساخت درخت تصمیم” (ID3) معرفی شد. بعداً الگوریتم “C4.5” نیز ارائه شد که برخی از نقایص ID3 را برطرف کرد و به شکل کامل تری عمل می کند.
فهرست مطالب
مقدمه
درخت تصمیم
مثالی از یک درخت تصمیم
کاربردها
ویژگی های درخت تصمیم
نحوه نمایش درخت تصمیم
الگوریتم یادگیری درخت تصمیم
ایده اصلی ID3
بایاس درخت تصمیم
الگوریتم ID3
نحوه ساختن درخت
معیار کمی اندازه گیری یک ویژگی کدام است؟
آنتروپی
آنتروپی برای دسته بندی های غیر بولی
بهره اطلاعات
دلایل بروز Overfitting
پرهیز از Overfitting
هرس کردن درخت به روش Reduced Error Pruning
سایر معیارهای انتخاب ویژگی برای درخت
معیار نسبت بهره یا gain ratio
ویژگی هائی با هزینه متفاوت
Decision tree learning
Decision Tree Introduction with example
Decision Tree Classification Algorithm
Decision Tree Algorithm, Explained