پاورپوینت آشنایی کامل با وب کاوی

پاورپوینت آشنایی کامل با وب کاوی

فرمت فایل : power point  (قابل ویرایش) تعداد اسلاید  : 27 اسلاید

 

 

 

 

 

 

 

 

 

فهرست مطالب

§ مقدمه§ مشکلات کاربران در استفاده از وب§وب کاوی ، مراحل وب کاوی ،انواع  وب کاوی§تفاوت وب کاوی و داده کاوی§چالش های وب کاوی§ وب کاوی و زمینه های تحقیقاتی مرتبط§انواع الگوریتم های وب کاوی§کاربردهای وب کاوی§ نتیجه گیری    مقدمه :

 

در حال حاضر وب،یکی از مهمترین پایگاههای اطلاعاتی است که تعداد صفحات موجود در آن از مرز 4 میلیارد هم گذشته است.

استخراج داده مفید و مناسب از وب، برای کاربران یک چالش واقعی است، بنابراین نیاز به تکنیک ها و روشهایی برای دستیابی کارا به داده مورد نیاز می باشد.



خرید و دانلود پاورپوینت آشنایی کامل با وب کاوی


پروژه روش های دسته بندی جریان داده

پروژه روش های دسته بندی جریان داده

پروژه روش های دسته بندی جریان داده پژوهش کامل در حوزه کامپیوتر و IT میباشد و در 4 فصل تنظیم شده است. این پروژه با معرفی داده کاوی و خوشه بندی به روش های دسته بندی جریان داده پرداخته است. شما میتوانید فهرست مطالب پروژه را در ادامه مشاهده نمایید.

پروژه بصورت فایل قابل ویرایش ورد(WORD) در 68 صفحه برای رشته کامپیوتر و IT در پایین همین صفحه قابل دانلود میباشد. شایسته یادآوری است که پروژه از ابتدا تا پایان ویرایش وتنظیم , سکشن بندی (section) ، نوشتن پاورقی (Footnote) و فهرست گذاری اتوماتیک کامل شده وآماده تحویل یا کپی برداری از مطالب مفید آن است.

چکیده

حجم بزرگ داده ها به تنهایی به مدیران سازمان ها در تصمیم سازی و تصمیم گیری هیچ کمکی نمی کند، بلکه باعث سردرگمی مدیران سازمان ها نیز می شود.بنابراین مدیریت داده های خام و تبدیل داده های خارجی و داخلی سازمان به اطلاعات و دانش با استفاده از تکنیک های گوناگون،نقش اساسی و محوری دارد.از تکنیک های معروف در این زمینه داده کاوی است،که می تواند بر روی بانک اطلاعاتی انجام شود و دانش مورد نیاز را بدست آورد.در فصل اول به بررسی این مفهوم پرداختیم. کاوش خوشه ها نیز یکی از تکنیک های حائز اهمیت در زمینه رو به رشد،معروف به داده کاوی اکتشافی می باشد که در رشته های گوناگون مهندسی و علمی از قبیل زیست شناسی،روان شناسی،پزشکی،بازاریابی،کامپیوتر و نقشه برداری ماهواره ای به کار گرفته شده است. این مفهوم در فصل های سوم و چهارم دنبال شده است.در فصل سوم به یکی از الگوریتم های خوشه بندی به نام CStree پرداخته شده و نقاط ضعف این الگوریتم نیز مطرح شده است .تحلیل خوشه ها،اطلاعات را بوسیله یک ساختار اساسی مختصر بدو شکل گروه بندی تنها یا گروه بندی سلسله مراتبی سازماندهی می نماید.خوشه بندی ،ابزاری برای اکتشاف ساختارهایی از درون داده هاست که نیاز به هیچ فرضی از آنها نیست.این روش در هوش مصنوعی و شناسایی الگو،یادگیری بدون ناظر نامیده می شود.الگوریتم های خوشه بندی گوناگونی برای استخراج دانش از درون مجموعه اطلاعات مختلف وجود دارد.اما عموما این الگوریتم ها حساس به داده های مورد آزمایش و برخی پارامترهای اولیه می باشند،لذا نتایج حاصل از آنها وابسته به ساختار داده ها می باشد.تاکنون الگوریتمی ارائه نشده است که بتواند هر گونه ساختار داده ای را استخراج نماید. یکی دیگر از پدیده های نوظهور در دنیای اطلاعات،داده های جریانی می باشند.این پدیده که در فصل چهارم مطرح شده است،اشاره به حجم وسیعی از اطلاعات انباشته شده دارد که محدودیت های فراوانی برای پردازش ایجاد کرده اند.اندازه این داده ها بیش از حافظه اصلی،یکی از این موانع می باشد.لذا می بایست الگوریتم های جدیدی برای برخورد با این گونه داده ها توسعه یابند.

واژه های کلیدی: داده کاوی، دسته بندی، خوشه بندی، جریان داده

فهرست مطالب

فصل اول  مقدمه ای بر داده کاوی

1-1 مقدمه. 2

2-1عامل مسبب پیدایش داده کاوی.. 2

3-1داده کاوی و مفهوم اکتشاف دانش.... 3

3-1-1 تعریف داده کاوی.. 4

3-2-1 فرایند داده‌کاوی.. 5

3-3-1 قابلیتهای داده کاوی.. 5

3-4-1 چه نوع داده‌هایی مورد کاوش قرار می گیرند. 5

انبارهای داده ها:6

4-1 وظایف داده کاوی.. 7

4-1-1 کلاس بندی.. 7

4-2-1 مراحل یک الگوریتم کلاس‌بندی.. 8

4-3-1 انواع روش‌های کلاس‌بندی.. 8

4-3-1-1 درخت تصمیم.. 8

4-3-1-1-1 کشف تقسیمات.. 9

4-3-1-2-1 دسته بندی با درخت تصمیم.. 10

4-3-1-3-1 انواع درخت‌های تصمیم.. 11

4-3-1-4-1 نحوه‌ی هرس کردن درخت... 11

4-3-2-1 بیزی.. 12

4-3-2-1-1 تئوری بیز. 13

4-4-1 ارزیابی روش‌های کلاس‌بندی.. 14

5-4-1 پیش بینی.. 15

6-4-1 انواع روش‌های پیش بینی.. 15

6-4-1-1 رگرسیون.. 15

6-4-1-1-1 رگرسیون خطی.. 15

6-4-1-1-2 رگرسیون منطقی.. 16

7-4-1 تخمین.. 17

فصل دوم  خوشه بندی

2-1-تعریف فرایند خوشه‌بندی.. 19

2-2 روش ها و الگوریتم‌های خوشه‌بندی.. 20

2-3 روش و الگوریتم سلسله مراتبی.. 20

2-3-1-روش های سلسله‌مراتبی.. 20

2-3-2-الگوریتم های سلسله مراتبی.. 21

2-3-3- الگوریتم خوشه بندی.. 21

2-3-4-الگوریتم‌های تفکیک... 25

2-3-5روش‌های متکی برچگالی.. 25

2-3-6 روش‌های متکی بر گرید. 25

2-3-7 روش‌‌های متکی بر مدل.. 26

منابع.. 27

فصل سوم  خوشه بندی CS tree

3-1مقدمه. 29

3-2 مروری بر روش های خوشه بندی جریان داده. 29

3-3 خوشه بندی توری جریان داده. 31

3-3-1 مروری بر روش خوشه بندی توری CS tree. 32

3-3-2 بررسی نقاط ضعف الگوریتم CS tree. 33

3-4 الگوریتم پیشنهادی.. 36

3-4-1 بازتعریف مفهوم همسایگی و رفع مشکل تقسیم بی معنی خوشه ها37

3-5 اصلاح روند بروز رسانی خوشه ها39

3-6 اصلاح ساختار نمایش خوشه ها39

منابع.. 41

فصل چهارم  جریان داده و مدل های ان

4-1 مقدمه. 43

4-2 کاربردهای داده های جریانی.. 44

4-2-1 شبکه های حسگر. 44

4-2-2 تحلیل ترافیک شبکه. 44

4-2-3 محرک های مالی.. 45

4-2-4 تحلیل تراکنش ها45

4-3 مدل داده های جریانی.. 45

4-4 زیربنای نظری.. 46

4-4-1 تکنیک های مبتنی بر داده. 46

4-4-1-1 نمونه برداری.. 47

4-4-1-2 پراکنده ساختن بار. 47

4-4-1-3 طراحی اولیه. 47

4-4-1-4 ساختمان داده خلاصه. 47

4-4-1-5 انبوه سازی.. 48

4-4-2 تکنیک های مبتنی بر وظیفه. 48

4-4-2-1 الگوریتم های تخمین.. 48

4-4-2-2 الگوریتم های مبتنی بر پنجره. 48

4-4-2-3 الگوریتم های دانه دانه سازی نتایج.. 49

4-5 خوشه بندی داده های جریانی.. 49

4-5-1 بهبود روش های سنتی.. 49

4-5-1-1 الگوریتم CLARANS. 50

4-5-1-2 الگوریتم BIRCH.. 51

4-5-2 ظهور تکنیک های جدید. 53

4-5-2-1 الگوریتم مبتنی بر چگالی DBSCAN.. 53

4-5-2-2 الگوریتم مبتنی بر گریدSTING.. 55

4-6 بحث در مورد الگوریتم ها56

4-6-1 ایا توسعه روش های سنتی درست است... 56

4-6-2 روش های جدید چه پیشنهاداتی دارند. 57

منابع.. 59

فهرست شکل ها

شکل1-1 فرایند داده کاوی.. 5

شکل1-2 نمونه یک درخت تصمیم.. 8

شکل 1-3 یک تقسیم بندی خوب ، درجه خلوص را برای فرزندان افزایش می دهد. 9

شکل2-1- مسافت شهرها22

شکل2-2- MDTO.. 23

شکل2-3- خوشه ی BA/NA/RM... 24

شکل2-4- خوشه ی BA/FI/NA/RM... 24

شکل2-5- خوشه ی نهایی.. 25

شکل 3-1 تقسیم خوشه های با معنی به زیر خوشه های بی معنی.. 34

شکل3-2 خطاهای روش Cs tree در ترکیب خوشه های یک بعدی و ایجاد خوشه های چند بعدی.. 35

شکل3-3روی هم افتادگی خوشه ها در بروز رسانی به روش Cs tree. 35

شکل3-4 ذخیره سازی اطلاعات سلول ها با ساختار B+tree. 36

شکل3-5 ساختار ذخیره سازی خوشه ها در فضای چند بعدی.. 38

شکل3-6 نحوه نمایش یک خوشه. 40

شکل4-1 مدل پردازش داده های جریانی.. 46

شکل 4-2 الگوریتم خوشه بندی CLARA.. 50

شکل 4-3 الگوریتم خوشه بندی CLARANS. 51

شکل 4-4 الگوریتم خوشه بندی BIRCH.. 52

شکل4-5 الگوریتم خوشه بندی DBSCAN.. 54

شکل 4-6 الگوریتم خوشه بندیSTING.. 56



خرید و دانلود پروژه روش های دسته بندی جریان داده


پروژه کامل و جامع بررسی مفصل داده کاوی پویا با استفاده از عامل

پروژه  کامل و جامع بررسی مفصل داده کاوی پویا با استفاده از عامل

فرمت فایل : word (قابل ویرایش) تعداد صفحات : 190 صفحه

 

 

 

 

 

 

 

 

 

 

چکیده

امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهره­گیری از روشهایی همچون داده­کاوی برای استخراج دانش و اطلاعات نهفته در داده­ها، امری غیرقابل اجتناب می­باشد. بدلیل حجم بسیار بالای داده­ها در بسیاری از کاربردها و اهمیت بیشتر داده­های جدید، ذخیره­سازی این داده­ها امری مقرون به صرفه نیست، لذا داده­هایی که باید مورد پردازش قرار گیرند، همواره بصوت پویا در حال تغییر و تحول هستند. مساله دیگری که امروزه در بحث داده­کاوی وجود دارد، بحث توزیع شدگی ذاتی داده­ها است. معمولا پایگاههایی که این داده­ها را ایجاد یا دریافت می­کنند، متعلق به افراد حقیقی یا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود می­باشند و حاضر نیستند دانش خود را بطور رایگان در اختیار دیگران قرار دهند.

با توجه به قابلیتهای عامل و سیستمهای چندعامله و مناسب بودن آنها برای محیطهای پویا و توزیع شده بنظر می­رسد که بتوان از قابلیتهای آنها برای داده­کاوی در محیطهای پویا و محیطهای توزیع شده بهره برد. اکثر کارهایی که تاکنون در زمینه بهره­گیری از عامل و سیستمهای چندعامله انجام شده است خصوصیتهایی همانند خودآغازی و بخصوص متحرک بودن عاملها را مورد بررسی قرار داده است و در آنها مواردی همچون هوشمندی، یادگیری، قابلیت استدلال، هدفگرایی و قابلیتهای اجتماعی عاملها مورد بررسی قرار نگرفته است. در این تحقیق ما قصد داریم تا ضمن بررسی کارهای موجود در زمینه کاربرد عامل و سیستمهای چندعامله در داده­کاوی، بحث طبقه­بندی جریان داده­ها را در یک محیط پویا مورد بررسی قرار دهیم. ما مساله خود را در دو فاز مورد بررسی قرار خواهیم داد. در فاز اول خصوصیتهای یک عامل تنها مورد بررسی قرار خواهد گرفت و در فاز دوم قابلیتهای اجتماعی عاملها مانند مذاکره، دستیابی به توافق و ... برای داده­کاوی در یک محیط پویا و توزیع­شده رقابتی مورد استفاده قرار خواهد گرفت. بطور کلی دستاوردهای اصلی این تحقیق عبارتند از 1) ارائه یک رویکرد مبتنی بر عامل برای مساله طبقه­بندی جریان داده­های دارای تغییر مفهوم و پویا با استفاده از قابلیتهای هدفگرایی، هوشمندی، یادگیری و استدلال 2) ارائه یک رویکرد مبتنی بر سیستمهای چندعامله برای طبقه­بندی جریان داده­های توزیع­شده در یک محیط رقابتی با استفاده از قابلیتهای اجتماعی عاملها و دستیابی به توافق. نتایج حاصل از آزمایشات انجام شده در این پایان­نامه نشان­دهنده برتری استفاده از عاملها و سیستمهای چندعامله برای بحث طبقه­بندی و داده­کاوی در محیطهای پویا و توزیع شده می­باشد.

 

کلمات کلیدی:

داده­کاوی[1]، طبقه­بندی[2]، جریان داده[3]، عامل[4].

 

 

فهرست مطالب

 

فصل اول - معرفی و آشنایی با مفاهیم اولیه. 1

1-1- مقدمه­ای بر داده­کاوی.. 2

1-1-1- خوشه­بندی.. 3

1-1-2- کشف قواعد وابستگی.. 4

1-1-3- طبقه­بندی.. 4

1-1-3-1- طبقه­بندی مبتنی بر قواعد. 5

1-2- داده­کاوی توزیع­شده 7

1-3- عاملها و سیستمهای چندعامله. 8

1-3-1- عامل.. 8

1-3-1-1- مقایسه عامل با شی.. 9

1-3-1-2- معماری عاملها 11

1-3-1-3- معماری BDI 12

1-3-2- سیستم­های چندعامله. 14

1-3-2-1- مذاکره 17

1-4- بهره­گیری از عامل برای داده­کاوی.. 19

1-4-1- سیستم­های چندعامله، بستری برای داده­کاوی توزیع شده 19

1-5- جمع­بندی.. 22

فصل دوم - داده­کاوی پویا 23

2-1- مقدمه­ای بر داده­کاوی پویا 24

2-2- جریان داده 25

2-3- طبقه­بندی جریان داده 26

2-3-1- موضوعات پژوهشی.. 27

2-4- جمع­بندی.. 31

فصل سوم - مروری بر کارهای انجام شده 33

3-1- مقدمه. 34

3-2- داده­کاوی توزیع­شده ایستا 35

3-2-1- روشهای غیرمتمرکز. 36

3-2-2- روشهای مبتنی بر توزیع ذاتی داده­ها 37

3-3- کارهای مهم انجام شده در زمینه داده­کاوی با استفاده از عامل.. 38

3-4- کارهای انجام شده در زمینه طبقه­بندی جریان داده­ها 41

3-4-1- روشهای طبقه­بندی Ensemble-based. 41

3-4-2- درختهای تصمیم بسیار سریع. 43

3-4-3- طبقه­بندی On-Demand. 46

3-4-4- OLIN.. 48

3-4-5- الگوریتمهای LWClass. 49

3-4-6- الگوریتم ANNCAD.. 51

3-4-7- الگوریتم SCALLOP. 51

3-4-8- طبقه­بندی جریان داده­ها با استفاده از یک روش Rule-based. 53

3-5- جمع­بندی.. 54

فصل چهارم - تعریف مساله. 55

4-1- مقدمه. 56

4-2- تعریف مساله برای فاز اول. 56

4-2-1- جریان داده 57

4-2-2- مفهوم یا مدل موجود در جریان داده 57

4-2-3- مساله طبقه­بندی جریان داده­های دارای تغییر مفهوم. 57

4-3- تعریف مساله برای فاز دوم. 59

فصل پنجم - رویکردهای پیشنهادی.. 62

5-1- مقدمه. 63

5-2- رویکرد پیشنهادی برای فاز اول پروژه 63

5-2-1- عامل و ویژگیهای آن در این مساله. 64

5-2-2- عملکرد کلی عامل.. 65

5-2-3- معماری عامل.. 66

5-2-3-1- حسگرها 67

5-2-3-2- پایگاه دانش عامل.. 68

5-2-3-3- تابع ارزیابی محیط.. 70

5-2-3-3-1- نحوه تشخیص اطلاعات و نگهداری الگوهای recur در جریان داده 70

5-2-3-3-2- نحوه استخراج الگوهای recur 70

5-2-3-3-3- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur 73

5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع یک الگوی خاص... 74

5-2-3-4- تابع سودمندی.. 75

5-2-3-5- بخش تصمیم­گیری و Planning. 79

5-2-3-5-1- بخش تصمیم­گیری.. 79

5-2-3-5-2- Planning. 83

5-2-3-6- بخش Action. 86

5-3- رویکرد پیشنهادی برای فاز دوم مساله. 87

5-3-1- عاملهای مشتری.. 88

5-3-2- عامل صفحه زرد. 90

5-3-3- عاملهای داده­کاو 91

5-3-3-1- معماری عاملهای داده­کاو 92

5-3-3-1-1- تابع BRF. 94

5-3-3-1-2- تابع Generate Options. 95

5-3-3-1-3- تابع فیلتر. 95

5-3-3-1-4- بخش Actions. 96

5-3-3-1-5- Plan های عامل.. 97

5-3-3-1-5- 1- Plan مربوط به طبقه­بندی.. 97

5-3-3-1-5-2- Plan مربوط به تطبیق طبقه­بند 98

5-3-3-1-5-3- Plan مربوط به خرید و فروش قواعد با استفاده از مذاکره 101

5-4- جمع­بندی.. 111

فصل ششم - آزمایشات و نتایج. 113

6-1- مقدمه. 114

6-2- محیط عملیاتی.. 114

6-3- مجموعه داده­های مورد استفاده 116

6-3-1- مجموعه داده­های استاندارد. 116

6-3-2- مجموعه داده­های واقعی.. 117

6-4- معیارهای ارزیابی و روشهای مورد استفاده برای مقایسه. 117

6-5- آزمایشات انجام شده 118

6-5-1- آزمایشات مربوط به فاز اول. 119

6-5-2- آزمایشات مربوط به فاز دوم. 128

6-6- جمع­بندی.. 130

فصل هفتم- جمع­بندی و نتیجه­گیری.. 132

 فهرست مراجع. 136

 

فهرست اشکال

 

شکل 1-1- معماری BDI در عامل.. 15شکل 3-1- درخت تحقیق مربوط به طبقه­بندی در مبحث داده­کاوی.. 34شکل 3-2- طبقه­بندی مبتنی بر Ensemble. .44 شکل 3-3- چارچوب روش On-Demand. 47شکل 3-4- نمایی از سیستم OLIN.. 49شکل 3-5- پروسه SCALLOP. 53شکل 5-1- نمودار ترتیب عملکرد عامل پیشنهادی.. 66شکل 5-2- معماری عامل پیشنهادی.. 67شکل 5-3- پنجره نظاره بر روی جریان داده­ها 68شکل 5-4- گراف ایجاد شده از روی رشته مفهوم­ها 71شکل 5-5- محل تجمع الگوهای استخراج شده از رشته مفهوم­ها 73شکل 5-6- میزان محاسبه شده احتمالها به ازای مقادیر مختلف K.. 81شکل 5-7- شبه کد Plan کلی عامل.. 83شکل 5-8- نسبت واریانس به حاصلضرب 50 متغیر دارای مجموع ثابت.. 85شکل 5-9- وزن دهی چند داده مختلف.. 86شکل 5-10- نمایی کلی از سیستم چندعامله ایجاد شده 88شکل 5-11- معماری BDI عامل داده­کاو 93شکل 5-12- بخشی از جریان داده و قواعد استخراج شده از آن. 99شکل 5-13- بخشی از جریان داده و قواعد استخراج شده از آن. 101شکل 6-1- کد نمونه برای استفاده از بسته نرم افزاری weka. 115 شکل 6-2- زمان لازم بر حسب میلی ثانیه برای داده­های Stagger 120 شکل 6-3- زمان مصرف شده برای تطبیق طبقه­بند. 120 شکل 6-4- نمودار مربوط به زمان پردازش روشهای مختلف برای داده­های HyperPlan 121شکل 6-5- زمان مصرف شده برای تطبیق طبقه­بند 121شکل 6-6- نمودار مربوط به زمان پردازش روشهای مختلف برای داده­های Nursery 122شکل 6-7- زمان مصرف شده برای تطبیق طبقه­بند برای داده­های Nursery 122شکل 6-8- عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan 124شکل 6-9- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 124شکل 6-10- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 125شکل 6-11- زمان مصرف شده برای تطبیق طبقه­بند برای داده­های HyperPlan 125شکل 6-12- عملکرد روشهای مختلف بر روی مجموعه داده Stagger 126شکل 6-13- زمان مصرف شده برای تطبیق طبقه­بند برای داده­های Stagger 126شکل 6-14- عملکرد روشهای مختلف بر روی مجموعه داده Nursery 127شکل 6-15- زمان مصرف شده برای تطبیق طبقه­بند برای داده­های Nursery 127شکل 6-16- نمودار نتایج حاصل از طبقه­بندی توزیع ­شده مجموعه داده Nursery 130

 

فهرست جدولها

 

جدول 1-1- ویژگیهای یک عامل 11جدول 3-1- ماتریس حاصل از روش LWClass. 51جدول 3-2- مقایسه تکنیکهای ذکر شده 54جدول 5-1- ساختار اطلاعاتی ذخیره شده برای هر مفهوم و الگو. 69جدول 5-2- ساختار اطلاعاتی مربوط به وقوع الگوی "CFDA". 75جدول 5-3- نمونه ای از خروجی تابع سودمندی عامل.. 81جدول 5-4- اطلاعات مورد استفاده برای تخمین سودمندی یک قاعده 105جدول 6-1- دقت طبقه­بندی روشهای مختلف.. 128جدول 6-2- نتایج حاصل از طبقه­بندی توزیع شده مجموعه داده Nursery در سه مفهوم مختلف.. 130

 

 

فصل اول

 

معرفی و آشنایی با مفاهیم اولیه

 

1-1- مقدمه­ای بر داده­کاوی

داده­کاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه داده­های[5] موجود می­باشد[38]. داده­کاوی از مدلهای تحلیلی ، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با استفاده از ابزارهای مربوطه بهره می گیرد. می­توان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین داده­های فعلی و پیش­بینی موارد نامعلوم و یا مشاهده نشده عمل می­کند. برای انجام عملیات داده­کاوی لازم است قبلا روی داده­های موجود پیش­پردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصه­سازی و کلی­سازی داده­ها تشکیل شده است. کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از داده­های اولیه، که تحت عملیات داده­کاوی نتایج تقریبا یکسانی با نتایج داده­کاوی روی اطلاعات اولیه به دست دهد[38]. پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصه­سازی و کلی­سازی داده­ها می رسد. داده­های موجود در بانک­های اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصه­سازی مجموعه بزرگی از داده­ها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد. کلی­سازی اطلاعات، فرآیندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید. خود روشهای داده­کاوی به سه دسته کلی تقسیم می­شوند که عبارتند از خوشه­بندی، طبقه­بندی و کشف قواعد وابستگی. در ادامه هر یک از این روشها را بطور کلی معرفی می­نماییم.

 

1-1-1- خوشه­بندی

فرآیند خوشه­بندی سعی دارد که یک مجموعه داده را به چندین خوشه­ تقسیم نماید بطوریکه داده­های قرار گرفته در یک خوشه با یکدیگر شبیه بوده و با داده­های خوشه­های دیگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشه­بندی داده­ها وجود دارد که بر اساس نوع داده­ها، شکل خوشه­ها، فاصله داده­ها و غیره عمل خوشه­بندی را انجام می­دهند. مهمترین روشهای خوشه­بندی در زیر معرفی شده­اند:

روشهای تقسیم­بندی : روشهای خوشه­بندی که بروش تقسیم بندی عمل می­کنند، داده­های موجود در یک مجموعه داده را به k خوشه تقسیم می­کنند، بطوریکه هر خوشه دو خصوصیت زیر را داراست :هر خوشه یا گروه حداقل شامل یک داده می­باشد. هر داده موجود در مجموعه داده دقیقا به یک گروه یا خوشه تعلق دارد.

معیار اصلی در چنین مجموعه داده­هایی میزان شباهت داده­های قرار گرفته در هر خوشه می­باشد. در حالیکه داده­های قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار k که بعنوان پارامتر استفاده می­گردد، هم می­تواند بصورت پویا تعیین گردد و هم اینکه قبل از شروع الگوریتم خوشه­بندی مقدار آن مشخص گردد.

 

روشهای سلسله مراتبی : روشهای سلسله مراتبی به دو دسته کلی روشهای bottom-up و روشهای top-down تقسیم می­گردند. روشهای سلسله مراتبی bottom-up به این صورت عمل می­کنند که در شروع هر کدام از داده­ها را در یک خوشه جداگانه قرار می­دهد و در طول اجرا سعی می­کند تا خوشه­هایی نزدیک به یکدیگر را با هم ادغام نماید. این عمل ادغام تا زمانی که یا تنها یک خوشه داشته باشیم و یا اینکه شرط خاتمه برقرار گردد، ادامه می­یابد. روشهای top-down دقیقا بطریقه عکس عمل می­کنند، به این طریق که ابتدا تمام داده­ها را در یک خوشه­ قرار می­دهد و در هر تکرار از الگوریتم، هر خوشه به خوشه­های کوچکتر شکسته می­شود و اینکار تا زمانی ادامه می­یابد که یا هر کدام از خوشه­ها تنها شامل یک داده باشند و یا شرط خاتمه الگوریتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر یا خوشه می­باشد.

 

روشهای مبتنی بر چگالی : اکثر روشهای خوشه­بندی که بروش تقسیم­بندی عمل می­کنند معمولا از تابع فاصله بعنوان تابع معیار خود بهره می­برند. استفاده از چنین معیاری باعث می­گردد که الگوریتم خوشه­بندی تنها قادر به ایجاد خوشه­هایی با اشکال منظم باشد. در صورتیکه اگر خوشه­های واقعی در داده­ها دارای اشکال غیرمنظمی باشند، این الگوریتم­ها در خوشه­بندی آنها با مشکل مواجه می­گردند. برای حل اینگونه مشکلات یکسری از روشها برای خوشه­بندی پیشنهاد گردیده­اند که عمل خوشه­بندی را بر مبنای چگالی داده­ها انجام می­دهند. ایده اصلی در این روشها بر این اساس است که خوشه­ها تا زمانی که داده­های قرار گرفته همسایگی خوشه­ها از حد معینی بیشتر باشد، رشد می­کنند و بزرگ می­شوند. چنین روشهایی قادرند خوشه­هایی با شکلهای نامنظم نیز ایجاد نمایند.

البته دسته دیگری از روشهای خوشه­بندی مانند روشهای مبتنی بر گرید، روشهای مبتنی بر مدل و ... وجود دارند که می­توانید آنها را در ]38[ مطالعه نمایید.

 

1-1-2- کشف قواعد وابستگی

بحث قواعد وابستگی به مقوله کشف عناصری یا المان­هایی در یک مجموعه داده می­پردازد که معمولا با یکدیگر اتفاق می­افتند و بعبارتی رخداد آنها بنوعی با یکدیگر ارتباط دارد. بطور کلی هر قاعده یا rule که از این مجموعه داده­ بدست می­­آید، دارای شکل کلی بصورت  می­باشد که نشان می­دهد چنانچه الگوی X اتفاق بیفتد، با احتمال بالایی الگوی Y نیز اتفاق خواهد افتاد. برای مطالعه بیشتر در مورد مقوله کشف قواعد وابستگی می­توانید به ]38[ مراجعه نمایید.

 

1-1-3- طبقه­بندی

فرایند طبقه­بندی در واقع نوعی یادگیری با ناظر می­باشد که در طی دو مرحله انجام می­گردد. در مرحله اول مجموعه­ای از داده­ها که در آن هر داده شامل تعدادی خصوصیت دارای مقدار و یک خصوصیت بنام خصوصیت کلاس می­باشد، برای ایجاد یک مدل داده بکار می­روند که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه داده­هایی است که این مدل از روی آنها ایجاد شده است. مرحله دوم فرآیند طبقه­بندی اعمال یا بکارگیری مدل داده ایجاد شده بر روی داده­هایی است که شامل تمام خصوصیات داده­هایی که برای ایجاد مدل داده بکار گرفته­ شده­اند، می­باشد، بجز خصوصیت کلاس این مقادیر که هدف از عمل طبقه­بندی نیز تخمین مقدار این خصوصیت می­باشد.

الگوریتم­ها و روشهای مختلفی برای طبقه­بندی تاکنون پیشنهاد شده­اند که برای مثال می­توان از روشهای طبقه­بندی با استفاده از درخت تصمیم، طبقه­بندی بیزین، SVM ، طبقه­بندی با استفاده از شبکه­های عصبی، طبقه­بندی مبتنی بر قواعد و ... ]56[ نام برد. در اینجا ما قصد نداریم وارد مباحث مربوط به الگوریتم­ها و روشهای طبقه­بندی شویم و تنها روش طبقه­بندی مبتنی بر قواعد را بدلیل استفاده از آن در فاز دوم پروژه در اینجا معرفی خواهیم نمود. در صورت نیاز به مطالعه بیشتر می­توانید به فصل ششم مرجع ]38[ مراجعه نمایید.

 

1-1-3-1- طبقه­بندی مبتنی بر قواعد

در این قسمت قصد داریم نگاهی به بحث طبقه­بندی مبتنی بر قواعد داشته باشیم. دراین روش مدل ایجاد شده از روی داده­ها بصورت مجموعه­ای از قواعد می­باشد. می­توان گفت که هر قاعده بصورت یک قاعده IF P THEN C می­باشد که در آن P مجموعه­ای از شرایط بوده و C نیز مشخص کننده برچسب یک کلاس یا طبقه­ خاص می­باشد. یک قاعده بدست آمده از مجموعه داده­های آموزشی با استفاده از دو معیار coverage و accuracy می­تواند ارزیابی گردد. این دو معیار بصورت زیر تعریف می­گردند:

                                                                          (1-1)

 

                                                                                      (1-2)

 

که در تعاریف مذکور  تعداد داده­هایی در مجموعه داده D است که توسط قاعده پوشش داده می­شوند.  تعداد داده­هایی است که توسط قاعده بدرستی طبقه­بندی شده­اند.  تعداد داده­های موجود در D می­باشد.

 

خرید و دانلود پروژه  کامل و جامع بررسی مفصل داده کاوی پویا با استفاده از عامل


بهینه سازی با تابع لاگرانژ

در حقیقت بهینه‌سازی علمی‌ است برای یافتن بهترین پاسخ برای مسأله‌ای که به صورت ریاضی تعریف شده است. در این علم تابع معیار بهینگی و قید‌های موجود در مسأله مطالعه می‌گردد و روشهایی مدون برای حل آنها تعیین میشود. امروزه بهینه‌سازی کاربرد وسیعی در رشته‌های مختلف مهندسی پیدا کرده است. روشهای بهینه‌سازی که برنامه‌ریزی ریاضی نیز نامیده‌ می‌شوند، تنوع بسیار زیادی دارند .حل مسأله بهینه­ سازی از طریق مسأله دوگان لاگرانژ معمولاً دارای تفسیر جالبی از جهت واژه­ها و تعبیرهای اقتصادی می­باشد.

 



خرید و دانلود بهینه سازی با تابع لاگرانژ


تحلیل عوامل موثر بر نمرات دانشجویان دانشگاه پیام نور بوشهر با استفاده از داده کاوی

در این مقاله با استفاده از تکنیک های داده کاوی به بررسی عوامل موثر بر نمرات دانشجویان دانشگاه پیام نور بوشهر پرداختیم.این تحلیل بر روی بیش از 250 هزار نمره دانشجویان دانشگاه پیام نور بوشهر در بین سالهای 81 تا 87 انجام گرفته است و با استفاده از خوشه بندی به روش k0means نمرات دانشجویان خوشه بندی شده و تاثیر عواملی از قبیل نوع آزمون ، نوع ورود به آموزش عالی ، ...

با استفاده از نتایج تحلیل ،مسئولان دانشگاه پیام نور می توانند در برنامه ریزی برای نوع ورود دانشجو ،نخوه ارائه دروس و نحوه ارائه خدمات در راستای بهبود کیفیت وضعیت تحصیلی دانشجویان تصمیم گیری های لازم بعمل آورند.

فرمت ورد در 7 صفحه می باشد.



خرید و دانلود تحلیل عوامل موثر بر نمرات دانشجویان دانشگاه پیام نور بوشهر با استفاده از داده کاوی