پایان نامه ارشد رایگان درباره شبکه عصبی، درخت تصمیم، دانشجویان، رگرسیون

بازخوانی به احتمال تشخیص صحیح دانشجویی که در طبقه افت تحصیلی قرار گرفته است، اشاره دارد.
دقت از تقسیم تعداد افرادی که مشمول افت بودهاند و به درستی طبقه بندی شده‌اند (ndd) بر مجموع تعداد افراد به درستی طبقهبندی شده در طبقه مشمول افت (ndd) و تعداد افرادی که ادامه تحصیل دادهاند اما مدل، آن‌ها را به غلط در طبقه افت تحصیلی قرار داده است (ncd)، محاسبه می‌شود.
بازخوانی از تقسیم تعداد افرادی که مشمول افت بودهاند و به درستی طبقهبندی شده‌اند (ndd) بر مجموع تعداد افراد به درستی طبقهبندی شده در طبقه مشمول افت (ndd) و تعداد افرادی مشمول افت بودهاند اما مدل به اشتباه آن‌ها را در طبقه موفق، قرار داده است (ndc)، محاسبه میشود
اندازه F مقداری است که از طریق فرمول ۱ محاسبه میشود و از صفر تا ۱ متغیر است. مدلی که بیشترین قدرت پیشبین را دارد، اندازه F آن به یک نزدیکتر است.
فرمول ۱: اندازه F
* متوسط قدر مطلق خطا
صحت طبقهبندی، بازخوانی و دقت پیشبینی، شاخصهایی هستند که برای مقایسه کارآیی الگوریتمهای طبقهبندی بهکار میروند. برای پیشبینی مسائل از نوع رگرسیونی شاخصهای مختلفی مطرح است که مهم‌ترینِ آن‌ها عبارتند از: متوسط قدر مطلق خطا، جذر میانگین مربعات خطا، نسبت قدر مطلق خطا و جذر نسبت مربعات خطا. این شاخصها به نقل از کُتسیانتیس و پینتالاس۲۵۴ (۲۰۰۴) در جدول ‏۲-۳ گزارش شده است. از میان این شاخصها، متوسط قدر مطلق خطا، یکی از مهم‌ترین شاخصهای بهکار رفته برای بررسی کارآیی الگوریتمها است.
جدول ‏۲-۳: شاخص های مقایسه ای رگرسیون
در ادامه، پژوهشهایی گزارش میشود که از مدلهای هوشمند برای پیشبینی وضعیت تحصیلی دانشجویان بهره بردهاند. از آنجا که تعداد پژوهشهای گزارش شده در حوزه یادگیری الکترونیکی اندک بودهاند، لذا در این بخش پژوهشها محدود به یادگیری الکترونیکی نشده و پژوهشهای حوزه آموزش حضوری نیز به ترتیب زمانی گزارش شده است.
– لوون۲۵۵(۲۰۰۲) برای پیشبینی انتقال یا عدم انتقال دانشجویان، داده‌های ۳۲ هزار دانشجو را در دو دانشگاه آمریکا بررسی کرده است. این پژوهش برای پیشبینی از مدل شبکه عصبی، درخت تصمیمگیری C5.0 و CART استفاده کرده است. متغیرهای پیشبین شامل ۵۲ متغیر دموگرافیک، تحصیلی، اقتصادی و … بودند و برونداد نیز انتقال یا عدم انتقال دانشجو است.
ساختار مدل شبکه عصبی مصنوعی ۵۲ نورون ورودی، هفت نورون پنهان و یک نورون خروجی داشته است. درصد صحت طبقه بندی سه مدل پیشبینی در جدول ‏۲-۴ خلاصه شده است.
جدول ‏۲-۴: نتایج مقایسه الگوریتم ها در پژوهش لوون
شبکه عصبی
C5.0
CART
دانشجویان انتقالی
%۷۷.۵
%۷۰.۰
%۸۲.۸
دانشجویان عدم انتقالی
%۷۸.۷
%۹۲.۰
%۸۲.۱
همان‌گونه که مشاهده می‌شود شبکه عصبی مصنوعی نتایج پیش بینی متوازنی دارد. به این معنا که توانسته است در هر دو طبقه، قدرت پیشبینی متعادلی ارائه دهد؛ اما CART علاوه بر قدرت پیشبینی متوازن، نسبت به شبکه عصبی از قدرت پیشبینی بیشتری نیز برخوردار است. مضاف اینکه درخت تصمیمگیری قواعد تصمیم را در اختیار کاربر قرار می‌دهد، حال اینکه شبکه عصبی حکم جعبه سیاه را دارد. بنابراین در این پژوهش درخت تصمیمگیری CART بهترین مدل شناسایی شده است.
– کُتسیانتیس و همکارانش۲۵۶ (۲۰۰۳) در یکی از دانشگاههای باز یونان، با استفاده از الگوریتم‌های c4.5،۳NN، RIPPER، Naive Bayes و WINNOW وضعیت تحصیلی دانشجویان را پیشبینی کردند. متغیرهای پیشبین (مشخصهها) عبارتند از : ۱) جنسیت (خانم/آقا)؛ ۲) سن (کمتر از ۳۲/ بزرگ‌تر از ۳۲)؛ ۳) وضعیت ازدواج (چهار طبقه)؛ ۴) تعداد فرزندان؛ ۵) وضعیت اشتغال؛ ۶) سواد رایانهای (بله/خیر)، ۷) ارتباط شغل با رایانه (بله/خیر). این هفت مشخصه همگی در دست? دموگرافیک قرار میگرفتند. از آنجا که دوره مذکور چهار تمرین نوشتاری و چهار جلسه حضوری نیز داشته، این هشت مشخصه به عنوان متغیرهای عملکرد تحصیلی وارد مدل شدند. پژوهشگران در یک گام با مجموع ۱۵ مشخصه مدل خود را آزموده است و سپس با استفاده از روش متوسط بهره اطلاعاتی مهم‌ترین ویژگیها را شناسایی کرده و با مهم‌ترین مشخصه عملکرد، مدلها را مقایسه کردهاند. نتایج در جدول ‏۲-۵ خلاصه شده است:
جدول ‏۲-۵: نتایج مقایسه الگوریتم ها در پژوهش کُتسیانتیس و همکارانش
Naive Bayes
۳-NN
RIPPER
C4.5
WINNOW
قبل از اعمال انتخاب ویژگی
۷۳.۸۳%
۷۲.۳۴%
۷۳.۴۴%
۷۲.۱۵%
۶۷.۲۹%
بعد از اعمال انتخاب ویژگی
۷۴.۷۰%
۷۴.۲۳%
۷۳.۹۳%
۷۳.۵۷%
۶۸.۵۲%
نتایج مقایسهای این پژوهش نشان می‌دهد، از نظر صحت طبقهبندی با مشخصههای اسمی و رتبهای، الگوریتم Naive Bayes قدرت پیشبینی بیشتری را داشته است. از طرفی با کاهش مشخصهها و انتخاب مهم‌ترین ویژگیها کارآیی همه مدلها بیشتر شده است. از محاسن دیگر الگوریتم Naive Bayes نیاز به زمان محاسباتی کم و کارآیی بالا حتی با داده‌های اندک است.
مهم‌ترین ویژگیهای شناسایی شده در این پژوهش، مشخصههای مربوط به عملکرد تحصیلی بودهاند و اغلب متغیرهای دموگرافیک از بهره اطلاعاتی کمی برخوردار بودهاند. پژوهشگران بر پایه الگوریتم Naive Bayes ماژولی ساختهاند که وضعیت تحصیلی (موفقیت/ عدم موفقیت) دانشجو را پیشبینی میکند.
– کُتسیانتیس و پینتالس (۲۰۰۴) با استفاده از جاوا نرم افزاری ساختهاند که مدرس برای پیشبینی موفقیت و عدم موفقیت دانشجو در آموزش از راه دور استفاده کند. این محققان بر این نظرند که یک روش یا الگوریتم بهینه برای پیش بینی وجود ندارد، لذا در نرمافزار خود چندین الگوریتم یادگیری ماشینی را در اختیار استاد قرار می‌دهند؛ به گونه ای که استاد حق انتخاب نوع الگوریتم را دارد. مدلهای به کار رفته در این نرمافزار عبارتند از: درخت تصمیم گیری، شبکه عصبی، نیو بیز، استنتاج قانون۲۵۷، الگوریتم یادگیری مبتنی بر مثال۲۵۸و SVM.
این برنامه از اجزاء زیر تشکیل شده است:
ماژول یادگیری ماشینی: در این بخش از نرم افزار مدرس جهت پیش بینی موفقیت یا افت دانشجو از میان الگوریتم‌های مختلف، یکی را انتخاب میکند.
جزء استنتاج قوانین ارتباطی۲۵۹: در این جزء، استاد میتواند رابطه متغیرهای مختلف را با یکدیگر شناسایی کند.
ماژول انتخاب ویژگی۲۶۰: در این جزء مدرس می‌تواند با استفاده از روش‌های مختلف دادهکاوی، مهم‌ترین ویژگیهایی (متغیرهایی) که با موفقیت و عدم موفقیت دانشجو مرتبط هستند را شناسایی کند.
ماژول بالانس کننده داده‌ها۲۶۱: از آنجا که الگوریتمهای مختلف نسبت به بالانس بودن داده‌ها حساس هستند، این جزء به استاد اجازه میدهد قبل از انتخاب الگوریتم پیشبینی داده‌های خود را بالانس کند.
ماژول خروجی HTML: این جزء استاد را قادر می‌سازد تا یک صفحه دینامیک از گزارش پیشبینی را مشاهده نماید. این جزء به منظور پشتیبانی تعامل از جاوا اسکریپت استفاده کرده است.
متغیرهای پیشبین به کار رفته در این برنامه متغیرهای دموگرافیک و عملکرد تحصیلی دانشجو بوده و گزارشی مبنی بر تعداد دادها و مقایسه عملکرد این الگوریتمها ارائه نشده است.
– کُتسیانتیس و پینتالاس (۲۰۰۴) برای پیشبین نمره نهایی دانشجویان در یک دوره آموزش تلفیقی از چند روش یادگیری ماشینی استفاده کردهاند. متغیرهای پیشبین در این پژوهش به دو دسته تقسیم شدهاند، متغیرهای مربوط به زمان ثبتنام دانشجو و متغیرهای مربوط به گزارش استاد. متغیرهای دسته اول هفت مورد بوده که شامل جنس، سن، وضعیت ازدواج، وضعیت اشتغال، سواد کامپیوتری و مرتبط بودن شغل فرد با رایانه میشود. متغیرهای مربوط به گزارش استاد هشت مورد است که چهار مورد آن به حضور یا عدم حضور دانشجو در چهار جلسه حضوری دوره مربوط است و چهار مورد دیگر به نمره استاد در چهار تکلیف دانشجو بر میگردد. متغیر ملاک یا برونداد نمره پایانی دانشجو در پایان دوره بر اساس مقیاس ۰ تا ۱۰ است. از آنجا که متغیر ملاک در این پژوهش از نوع دو ارزشی نبوده، پژوهشگران از چند روش رگرسیونی استفاده کرده‌اند: ۱) ModelTrees؛ ۲) شبکه عصبی؛ ۳) رگرسیون خطی؛ ۴) رگرسیون خطی وزن داده شده محلی۲۶۲؛ ۵) SVM.
توضیح بیشتر در مورد، ModelTree اینکه، این مدل معادل درخت تصمیمگیری برای حل مسائل رگرسیونی است. نتیجه مقایسه الگوریتمها بر حسب میانگین خطای مطلق۲۶۳ نشان داد، الگوریتم M5rules با میانگین خطای مطلق ۱.۲۱، علاوه بر اینکه از دقت پیشبینی بیشتری برخوردار است، نتایج قابل فهمتری نیز برای کاربر فراهم میکند؛ زیرا این الگوریتم قواعدی از نوع “اگر-آنگاه” در اختیار کاربر قرار میدهد. پژوهشگران بر اساس الگوریتم انتخاب شده، ابزاری پیشبین طراحی کردهاند که نمره نهایی دانشجو را در این دوره الکترونیکی پیشبینی میکند.
-هرزوگ۲۶۴(۲۰۰۶)، کارآیی رگرسیون، درخت تصمیمگیری و شبکه عصبی مصنوعی را مقایسه کرده است. در این پژوهش، محقق کارآیی این روشها را در پیشبینی ماندگاری دانشجو و طول زمان تحصیل، بررسی کرده است. در بررسی اول از ۴۰ متغیر و داده‌های هشت هزار و ۱۸ دانشجو برای پیشبینی ماندگاری و عدم ماندگاری دانشجو استفاده شده است. نتایج نشان داد: درخت تصمیم گیری (C.5.0) بیشترین میزان صحت طبقهبندی، حدود ۸۵% را دارد.
در بررسی دیگری این پژوهشگر از ۷۹ متغیر و داده‌های پانزده هزار و ۴۵۷ دانشجو، برای پیشبینی زمان دانشآموختگی دانشجویان بهره برد. نتایج مقایسه نشان داد درخت تصمیمگیری (C.5.0) بیشترین میزان صحت طبقهبندی حدود ۹۳% را دارد. از پژوهش هرزوگ (۲۰۰۶) مشخص میشود، کارآیی مدلها بر حسب پیچیدگی متغیرهای پیشبین و متغیر ملاک متفاوت است. به عنوان مثال در این پژوهش با تغییر نوع متغیر ملاک و افزایش متغیرهای پیشبین کارآیی مدلها افزایش یافته است.
– هامالاینِن و وینی۲۶۵(۲۰۰۶) در فنلاند برای پیشبینی عملکرد تحصیلی دانشجویان درسی که به روش الکترونیکی ارائه شده است از روش‌هایی یادگیری ماشینی استفاده کردهاند. هدف پژوهشگران، انتخاب بهترین الگوریتم یادگیری ماشینی با تعداد داده است. این پژوهشگران نیاز به داده زیاد را یکی از مشکلات اغلب روش‌هایی یادگیری ماشینی می‌دانند. حال اینکه اغلب داده‌های اندک آموزشی – به عنوان نمونه داده‌های یک کلاس درس- کم بوده و از ۱۰۰ دانشجو تجاوز نمیکند؛ لذا الگوریتمهایی چون نزدیک‌ترین همسایه۲۶۶، شبکه عصبی و درخت تصمیمگیری را برای هدف خود مناسب نمی‌دانند.
مجموعه داده‌های این پژوهش، ۸۸ دانشجو با هشت متغیر پیشبین بوده است. متغیرهای پیشبین نمرات دانشجو در چند تکلیف درسی بوده و متغیر ملاک نیز گذراندن یا عدم گذراندن درس (دو کلاسه) است. از آنجا که یکی دیگر از اهداف این پژوهش، شناسایی بهترین الگوریتم برای ورودیهای واقعی (به عنوان مثال نمره واقعی دانشجو در تمرینهای طول ترم)

این مطلب مشابه را هم بخوانید :   دانلود پایان نامه ارشد درموردشخصیت حقوقی، شرکت های تجاری، قانون مدنی، طلاق

دیدگاهتان را بنویسید