فناوری رایانه ای - هوش مصنوعی

یادگیری ماشین تحت نظارت (Supervised Machine Learning) چیست؟

یادگیری نظارت‌شده نوعی یادگیری ماشینی است که در آن یک مدل از داده‌های برچسب‌گذاری‌شده یاد می‌گیرد - به این معنی که هر ورودی یک خروجی صحیح متناظر دارد. مدل پیش‌بینی‌هایی انجام می‌دهد و آنها را با خروجی‌های واقعی مقایسه می‌کند و خود را برای کاهش خطاها و بهبود دقت در طول زمان تنظیم می‌کند. هدف، پیش‌بینی‌های دقیق روی داده‌های جدید و دیده نشده است. به عنوان مثال، مدلی که روی تصاویر ارقام دست‌نویس آموزش دیده است، می‌تواند ارقام جدیدی را که قبلاً ندیده است، تشخیص دهد.

یادگیری نظارت‌شده نوعی یادگیری ماشینی است که در آن یک مدل از داده‌های برچسب‌گذاری‌شده یاد می‌گیرد - به این معنی که هر ورودی یک خروجی صحیح متناظر دارد. مدل پیش‌بینی‌هایی انجام می‌دهد و آنها را با خروجی‌های واقعی مقایسه می‌کند و خود را برای کاهش خطاها و بهبود دقت در طول زمان تنظیم می‌کند. هدف، پیش‌بینی‌های دقیق روی داده‌های جدید و دیده نشده است. به عنوان مثال، مدلی که روی تصاویر ارقام دست‌نویس آموزش دیده است، می‌تواند ارقام جدیدی را که قبلاً ندیده است، تشخیص دهد.



انواع یادگیری نظارت‌شده در یادگیری ماشین

اکنون، یادگیری نظارت‌شده را می‌توان برای دو نوع اصلی از مسائل به کار برد:

  • دسته‌بندی: جایی که خروجی یک متغیر دسته‌بندی‌شده است (مثلاً ایمیل‌های اسپم در مقابل ایمیل‌های غیراسپم، بله در مقابل خیر).
  • رگرسیون: جایی که خروجی یک متغیر پیوسته است (مثلاً پیش‌بینی قیمت خانه، قیمت سهام).



هنگام آموزش مدل، داده‌ها معمولاً به نسبت ۸۰:۲۰ تقسیم می‌شوند، یعنی ۸۰٪ به عنوان داده‌های آموزشی و بقیه به عنوان داده‌های آزمایشی. در داده‌های آموزشی، ما ورودی و خروجی را برای ۸۰٪ از داده‌ها ارائه می‌دهیم. مدل فقط از داده‌های آموزشی یاد می‌گیرد. ما از الگوریتم‌های یادگیری نظارت‌شده مختلف (که در بخش بعدی به تفصیل در مورد آنها بحث خواهیم کرد) برای ساخت مدل خود استفاده می‌کنیم. ابتدا بیایید داده‌های طبقه‌بندی و رگرسیون را از طریق جدول زیر درک کنیم:


هر دو شکل بالا مجموعه داده‌های برچسب‌گذاری شده به شرح زیر دارند:
شکل الف: این یک مجموعه داده از یک فروشگاه خرید است که در پیش‌بینی اینکه آیا مشتری محصول مورد نظر را بر اساس جنسیت، سن و حقوق خود خریداری خواهد کرد یا خیر، مفید است.
ورودی: جنسیت، سن، حقوق
خروجی: خریداری شده یعنی ۰ یا ۱؛ ۱ به این معنی است که مشتری آن را خریداری خواهد کرد و ۰ به این معنی است که مشتری آن را خریداری نخواهد کرد.
شکل ب: این یک مجموعه داده هواشناسی است که هدف آن پیش‌بینی سرعت باد بر اساس پارامترهای مختلف است.
ورودی: نقطه شبنم، دما، فشار، رطوبت نسبی، جهت باد
خروجی: سرعت باد

کارکرد یادگیری ماشین تحت نظارت

کارکرد یادگیری ماشین تحت نظارت از این مراحل کلیدی پیروی می‌کند:
۱. جمع‌آوری داده‌های برچسب‌گذاری شده
یک مجموعه داده جمع‌آوری کنید که در آن هر ورودی یک خروجی صحیح شناخته شده (برچسب) داشته باشد.
مثال: تصاویر ارقام دست‌نویس با شماره واقعی آنها به عنوان برچسب. 
۲. تقسیم مجموعه داده‌ها
داده‌ها را به داده‌های آموزشی (حدود ۸۰٪) و داده‌های آزمایشی (حدود ۲۰٪) تقسیم کنید.
مدل از داده‌های آموزشی یاد می‌گیرد و روی داده‌های آزمایشی ارزیابی می‌شود.
۳. مدل را آموزش دهید
داده‌های آموزشی (ورودی‌ها و برچسب‌های آنها) را به یک الگوریتم یادگیری نظارت‌شده مناسب (مانند درخت‌های تصمیم‌گیری، SVM یا رگرسیون خطی) بدهید.
مدل سعی می‌کند الگوهایی را پیدا کند که ورودی‌ها را برای تصحیح خروجی‌ها نگاشت می‌کنند.
۴. اعتبارسنجی و آزمایش مدل
مدل را با استفاده از داده‌های آزمایشی که قبلاً ندیده است، ارزیابی کنید.
مدل خروجی‌ها را پیش‌بینی می‌کند و این پیش‌بینی‌ها با برچسب‌های واقعی مقایسه می‌شوند تا دقت یا خطا محاسبه شود.
۵. استقرار و پیش‌بینی روی داده‌های جدید
هنگامی که مدل به خوبی عمل کرد، می‌توان از آن برای پیش‌بینی خروجی‌ها برای داده‌های کاملاً جدید و دیده نشده استفاده کرد.

الگوریتم‌های یادگیری ماشین نظارت‌شده

یادگیری نظارت‌شده را می‌توان به چندین نوع مختلف تقسیم کرد که هر کدام ویژگی‌ها و کاربردهای منحصر به فرد خود را دارند. در اینجا برخی از رایج‌ترین انواع الگوریتم‌های یادگیری نظارت‌شده آورده شده است:

  • رگرسیون خطی: رگرسیون خطی نوعی الگوریتم رگرسیون یادگیری نظارت‌شده است که برای پیش‌بینی یک مقدار خروجی پیوسته استفاده می‌شود. این یکی از ساده‌ترین و پرکاربردترین الگوریتم‌ها در یادگیری نظارت‌شده است.
  • رگرسیون لجستیک: رگرسیون لجستیک نوعی الگوریتم طبقه‌بندی یادگیری نظارت‌شده است که برای پیش‌بینی یک متغیر خروجی دودویی استفاده می‌شود.
  • درخت‌های تصمیم‌گیری: درخت تصمیم‌گیری ساختاری شبیه درخت است که برای مدل‌سازی تصمیمات و پیامدهای احتمالی آنها استفاده می‌شود. هر گره داخلی در درخت نشان دهنده یک تصمیم است، در حالی که هر گره برگ نشان دهنده یک نتیجه احتمالی است.
  • جنگل‌های تصادفی: جنگل‌های تصادفی نیز از چندین درخت تصمیم‌گیری تشکیل شده‌اند که برای پیش‌بینی با هم کار می‌کنند. هر درخت در جنگل بر روی زیرمجموعه متفاوتی از ویژگی‌ها و داده‌های ورودی آموزش داده می‌شود. پیش‌بینی نهایی با تجمیع پیش‌بینی‌های همه درختان در جنگل انجام می‌شود.
  • ماشین بردار پشتیبان (SVM): الگوریتم SVM یک ابرصفحه ایجاد می‌کند تا فضای n بعدی را به کلاس‌ها تفکیک کند و دسته صحیح نقاط داده جدید را شناسایی کند. موارد حدی که به ایجاد ابرصفحه کمک می‌کنند، بردارهای پشتیبان نامیده می‌شوند، از این رو نام آن ماشین بردار پشتیبان است.
  • K-نزدیک‌ترین همسایه‌ها: KNN با یافتن k نمونه آموزشی نزدیک به یک ورودی داده شده کار می‌کند و سپس کلاس یا مقدار را بر اساس کلاس اکثریت یا مقدار میانگین این همسایه‌ها پیش‌بینی می‌کند. عملکرد KNN می‌تواند تحت تأثیر انتخاب k و معیار فاصله مورد استفاده برای اندازه‌گیری نزدیکی قرار گیرد.
  • تقویت گرادیان: تقویت گرادیان، یادگیرنده‌های ضعیف، مانند درخت‌های تصمیم‌گیری، را برای ایجاد یک مدل قوی ترکیب می‌کند. این الگوریتم به صورت تکراری مدل‌های جدیدی می‌سازد که خطاهای مدل‌های قبلی را اصلاح می‌کنند.
  • الگوریتم بیز ساده: الگوریتم بیز ساده یک الگوریتم یادگیری ماشین تحت نظارت است که مبتنی بر اعمال قضیه بیز با فرض "ساده" است که ویژگی‌ها با توجه به برچسب کلاس، مستقل از یکدیگر هستند.

نمونه‌های عملی یادگیری نظارت‌شده

چند نمونه عملی از یادگیری ماشین نظارت‌شده در صنایع مختلف:
تشخیص تقلب در بانکداری: از الگوریتم‌های یادگیری نظارت‌شده بر روی داده‌های تراکنش‌های تاریخی استفاده می‌کند و مدل‌هایی را با مجموعه داده‌های برچسب‌گذاری‌شده از تراکنش‌های قانونی و جعلی آموزش می‌دهد تا الگوهای کلاهبرداری را به طور دقیق پیش‌بینی کند.
پیش‌بینی بیماری پارکینسون: بیماری پارکینسون یک اختلال پیشرونده است که سیستم عصبی و قسمت‌هایی از بدن که توسط اعصاب کنترل می‌شوند را تحت تأثیر قرار می‌دهد.
پیش‌بینی ریزش مشتری: از تکنیک‌های یادگیری نظارت‌شده برای تجزیه و تحلیل داده‌های تاریخی مشتری استفاده می‌کند و ویژگی‌های مرتبط با نرخ ریزش را برای پیش‌بینی مؤثر حفظ مشتری شناسایی می‌کند.
طبقه‌بندی سلول‌های سرطانی: یادگیری نظارت‌شده را برای سلول‌های سرطانی بر اساس ویژگی‌های آنها پیاده‌سازی می‌کند و آنها را از نظر «بدخیم» یا «خوش‌خیم» بودن شناسایی می‌کند.
پیش‌بینی قیمت سهام: یادگیری نظارت‌شده را برای پیش‌بینی سیگنالی اعمال می‌کند که نشان می‌دهد خرید یک سهام خاص مفید خواهد بود یا خیر.

مزایا

در اینجا برخی از مزایای یادگیری نظارت‌شده ذکر شده است:
سادگی و وضوح: درک و پیاده‌سازی آن آسان است زیرا از نمونه‌های برچسب‌گذاری‌شده یاد می‌گیرد. دقت بالا: وقتی داده‌های برچسب‌گذاری‌شده کافی در دسترس باشند، مدل‌ها به عملکرد پیش‌بینی‌کننده قوی دست می‌یابند.
چندمنظوره بودن: برای طبقه‌بندی مانند تشخیص هرزنامه، پیش‌بینی بیماری و رگرسیون مانند پیش‌بینی قیمت کار می‌کند.
تعمیم‌پذیری: با داده‌های متنوع کافی و آموزش مناسب، مدل‌ها می‌توانند به خوبی به ورودی‌های دیده نشده تعمیم دهند.
کاربرد گسترده: در تشخیص گفتار، تشخیص پزشکی، تحلیل احساسات، تشخیص کلاهبرداری و موارد دیگر استفاده می‌شود.

معایب

نیاز به داده‌های برچسب‌گذاری‌شده: آماده‌سازی مقادیر زیادی از مجموعه داده‌های برچسب‌گذاری‌شده پرهزینه و زمان‌بر است.
سوگیری از داده‌ها: اگر داده‌های آموزشی سوگیری‌شده یا نامتعادل باشند، مدل ممکن است این سوگیری‌ها را یاد بگیرد و تقویت کند.
خطر بیش‌برازش: مدل ممکن است به جای یادگیری الگوهای کلی، داده‌های آموزشی را به خاطر بسپارد، به خصوص با مجموعه داده‌های کوچک.
سازگاری محدود: عملکرد هنگام اعمال بر روی توزیع‌های داده بسیار متفاوت از داده‌های آموزشی به طور قابل توجهی کاهش می‌یابد.
برای برخی از مشکلات مقیاس‌پذیر نیست: در کارهایی با میلیون‌ها برچسب ممکن مانند زبان طبیعی، برچسب‌گذاری نظارت‌شده غیرعملی می‌شود.

 

0 دیدگاه

دیدگاه خود را بیان کنید