فرمت فایل : word (قابل ویرایش) تعداد صفحات : 190 صفحه
چکیده
امروزه با توجه به گسترش روز افزون اطلاعاتی که بشر با آنها سر و کار دارد، بهرهگیری از روشهایی همچون دادهکاوی برای استخراج دانش و اطلاعات نهفته در دادهها، امری غیرقابل اجتناب میباشد. بدلیل حجم بسیار بالای دادهها در بسیاری از کاربردها و اهمیت بیشتر دادههای جدید، ذخیرهسازی این دادهها امری مقرون به صرفه نیست، لذا دادههایی که باید مورد پردازش قرار گیرند، همواره بصوت پویا در حال تغییر و تحول هستند. مساله دیگری که امروزه در بحث دادهکاوی وجود دارد، بحث توزیع شدگی ذاتی دادهها است. معمولا پایگاههایی که این دادهها را ایجاد یا دریافت میکنند، متعلق به افراد حقیقی یا حقوقی هستند که هر کدام بدنبال اهداف و منافع خود میباشند و حاضر نیستند دانش خود را بطور رایگان در اختیار دیگران قرار دهند.
با توجه به قابلیتهای عامل و سیستمهای چندعامله و مناسب بودن آنها برای محیطهای پویا و توزیع شده بنظر میرسد که بتوان از قابلیتهای آنها برای دادهکاوی در محیطهای پویا و محیطهای توزیع شده بهره برد. اکثر کارهایی که تاکنون در زمینه بهرهگیری از عامل و سیستمهای چندعامله انجام شده است خصوصیتهایی همانند خودآغازی و بخصوص متحرک بودن عاملها را مورد بررسی قرار داده است و در آنها مواردی همچون هوشمندی، یادگیری، قابلیت استدلال، هدفگرایی و قابلیتهای اجتماعی عاملها مورد بررسی قرار نگرفته است. در این تحقیق ما قصد داریم تا ضمن بررسی کارهای موجود در زمینه کاربرد عامل و سیستمهای چندعامله در دادهکاوی، بحث طبقهبندی جریان دادهها را در یک محیط پویا مورد بررسی قرار دهیم. ما مساله خود را در دو فاز مورد بررسی قرار خواهیم داد. در فاز اول خصوصیتهای یک عامل تنها مورد بررسی قرار خواهد گرفت و در فاز دوم قابلیتهای اجتماعی عاملها مانند مذاکره، دستیابی به توافق و ... برای دادهکاوی در یک محیط پویا و توزیعشده رقابتی مورد استفاده قرار خواهد گرفت. بطور کلی دستاوردهای اصلی این تحقیق عبارتند از 1) ارائه یک رویکرد مبتنی بر عامل برای مساله طبقهبندی جریان دادههای دارای تغییر مفهوم و پویا با استفاده از قابلیتهای هدفگرایی، هوشمندی، یادگیری و استدلال 2) ارائه یک رویکرد مبتنی بر سیستمهای چندعامله برای طبقهبندی جریان دادههای توزیعشده در یک محیط رقابتی با استفاده از قابلیتهای اجتماعی عاملها و دستیابی به توافق. نتایج حاصل از آزمایشات انجام شده در این پایاننامه نشاندهنده برتری استفاده از عاملها و سیستمهای چندعامله برای بحث طبقهبندی و دادهکاوی در محیطهای پویا و توزیع شده میباشد.
کلمات کلیدی:
دادهکاوی[1]، طبقهبندی[2]، جریان داده[3]، عامل[4].
فهرست مطالب
فصل اول - معرفی و آشنایی با مفاهیم اولیه. 1
1-1- مقدمهای بر دادهکاوی.. 2
1-1-1- خوشهبندی.. 3
1-1-2- کشف قواعد وابستگی.. 4
1-1-3- طبقهبندی.. 4
1-1-3-1- طبقهبندی مبتنی بر قواعد. 5
1-2- دادهکاوی توزیعشده 7
1-3- عاملها و سیستمهای چندعامله. 8
1-3-1- عامل.. 8
1-3-1-1- مقایسه عامل با شی.. 9
1-3-1-2- معماری عاملها 11
1-3-1-3- معماری BDI 12
1-3-2- سیستمهای چندعامله. 14
1-3-2-1- مذاکره 17
1-4- بهرهگیری از عامل برای دادهکاوی.. 19
1-4-1- سیستمهای چندعامله، بستری برای دادهکاوی توزیع شده 19
1-5- جمعبندی.. 22
فصل دوم - دادهکاوی پویا 232-1- مقدمهای بر دادهکاوی پویا 24
2-2- جریان داده 25
2-3- طبقهبندی جریان داده 26
2-3-1- موضوعات پژوهشی.. 27
2-4- جمعبندی.. 31
فصل سوم - مروری بر کارهای انجام شده 333-1- مقدمه. 34
3-2- دادهکاوی توزیعشده ایستا 35
3-2-1- روشهای غیرمتمرکز. 36
3-2-2- روشهای مبتنی بر توزیع ذاتی دادهها 37
3-3- کارهای مهم انجام شده در زمینه دادهکاوی با استفاده از عامل.. 38
3-4- کارهای انجام شده در زمینه طبقهبندی جریان دادهها 41
3-4-1- روشهای طبقهبندی Ensemble-based. 41
3-4-2- درختهای تصمیم بسیار سریع. 43
3-4-3- طبقهبندی On-Demand. 46
3-4-4- OLIN.. 48
3-4-5- الگوریتمهای LWClass. 49
3-4-6- الگوریتم ANNCAD.. 51
3-4-7- الگوریتم SCALLOP. 51
3-4-8- طبقهبندی جریان دادهها با استفاده از یک روش Rule-based. 53
3-5- جمعبندی.. 54
فصل چهارم - تعریف مساله. 554-1- مقدمه. 56
4-2- تعریف مساله برای فاز اول. 56
4-2-1- جریان داده 57
4-2-2- مفهوم یا مدل موجود در جریان داده 57
4-2-3- مساله طبقهبندی جریان دادههای دارای تغییر مفهوم. 57
4-3- تعریف مساله برای فاز دوم. 59
فصل پنجم - رویکردهای پیشنهادی.. 625-1- مقدمه. 63
5-2- رویکرد پیشنهادی برای فاز اول پروژه 63
5-2-1- عامل و ویژگیهای آن در این مساله. 64
5-2-2- عملکرد کلی عامل.. 65
5-2-3- معماری عامل.. 66
5-2-3-1- حسگرها 67
5-2-3-2- پایگاه دانش عامل.. 68
5-2-3-3- تابع ارزیابی محیط.. 70
5-2-3-3-1- نحوه تشخیص اطلاعات و نگهداری الگوهای recur در جریان داده 70
5-2-3-3-2- نحوه استخراج الگوهای recur 70
5-2-3-3-3- نحوه بروزرسانی اطلاعات مربوط به الگوهای recur 73
5-2-3-3-4- نحوه محاسبه وقوع احتمال وقوع یک الگوی خاص... 74
5-2-3-4- تابع سودمندی.. 75
5-2-3-5- بخش تصمیمگیری و Planning. 79
5-2-3-5-1- بخش تصمیمگیری.. 79
5-2-3-5-2- Planning. 83
5-2-3-6- بخش Action. 86
5-3- رویکرد پیشنهادی برای فاز دوم مساله. 87
5-3-1- عاملهای مشتری.. 88
5-3-2- عامل صفحه زرد. 90
5-3-3- عاملهای دادهکاو 91
5-3-3-1- معماری عاملهای دادهکاو 92
5-3-3-1-1- تابع BRF. 94
5-3-3-1-2- تابع Generate Options. 95
5-3-3-1-3- تابع فیلتر. 95
5-3-3-1-4- بخش Actions. 96
5-3-3-1-5- Plan های عامل.. 97
5-3-3-1-5- 1- Plan مربوط به طبقهبندی.. 97
5-3-3-1-5-2- Plan مربوط به تطبیق طبقهبند 98
5-3-3-1-5-3- Plan مربوط به خرید و فروش قواعد با استفاده از مذاکره 101
5-4- جمعبندی.. 111
فصل ششم - آزمایشات و نتایج. 1136-1- مقدمه. 114
6-2- محیط عملیاتی.. 114
6-3- مجموعه دادههای مورد استفاده 116
6-3-1- مجموعه دادههای استاندارد. 116
6-3-2- مجموعه دادههای واقعی.. 117
6-4- معیارهای ارزیابی و روشهای مورد استفاده برای مقایسه. 117
6-5- آزمایشات انجام شده 118
6-5-1- آزمایشات مربوط به فاز اول. 119
6-5-2- آزمایشات مربوط به فاز دوم. 128
6-6- جمعبندی.. 130
فصل هفتم- جمعبندی و نتیجهگیری.. 132فهرست مراجع. 136
فهرست اشکال
شکل 1-1- معماری BDI در عامل.. 15شکل 3-1- درخت تحقیق مربوط به طبقهبندی در مبحث دادهکاوی.. 34شکل 3-2- طبقهبندی مبتنی بر Ensemble. .44 شکل 3-3- چارچوب روش On-Demand. 47شکل 3-4- نمایی از سیستم OLIN.. 49شکل 3-5- پروسه SCALLOP. 53شکل 5-1- نمودار ترتیب عملکرد عامل پیشنهادی.. 66شکل 5-2- معماری عامل پیشنهادی.. 67شکل 5-3- پنجره نظاره بر روی جریان دادهها 68شکل 5-4- گراف ایجاد شده از روی رشته مفهومها 71شکل 5-5- محل تجمع الگوهای استخراج شده از رشته مفهومها 73شکل 5-6- میزان محاسبه شده احتمالها به ازای مقادیر مختلف K.. 81شکل 5-7- شبه کد Plan کلی عامل.. 83شکل 5-8- نسبت واریانس به حاصلضرب 50 متغیر دارای مجموع ثابت.. 85شکل 5-9- وزن دهی چند داده مختلف.. 86شکل 5-10- نمایی کلی از سیستم چندعامله ایجاد شده 88شکل 5-11- معماری BDI عامل دادهکاو 93شکل 5-12- بخشی از جریان داده و قواعد استخراج شده از آن. 99شکل 5-13- بخشی از جریان داده و قواعد استخراج شده از آن. 101شکل 6-1- کد نمونه برای استفاده از بسته نرم افزاری weka. 115 شکل 6-2- زمان لازم بر حسب میلی ثانیه برای دادههای Stagger 120 شکل 6-3- زمان مصرف شده برای تطبیق طبقهبند. 120 شکل 6-4- نمودار مربوط به زمان پردازش روشهای مختلف برای دادههای HyperPlan 121شکل 6-5- زمان مصرف شده برای تطبیق طبقهبند 121شکل 6-6- نمودار مربوط به زمان پردازش روشهای مختلف برای دادههای Nursery 122شکل 6-7- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Nursery 122شکل 6-8- عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan 124شکل 6-9- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 124شکل 6-10- نمودار عملکرد روشهای مختلف بر روی مجموعه داده HyperPlan در یک بازه کوچکتر 125شکل 6-11- زمان مصرف شده برای تطبیق طبقهبند برای دادههای HyperPlan 125شکل 6-12- عملکرد روشهای مختلف بر روی مجموعه داده Stagger 126شکل 6-13- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Stagger 126شکل 6-14- عملکرد روشهای مختلف بر روی مجموعه داده Nursery 127شکل 6-15- زمان مصرف شده برای تطبیق طبقهبند برای دادههای Nursery 127شکل 6-16- نمودار نتایج حاصل از طبقهبندی توزیع شده مجموعه داده Nursery 130
فهرست جدولها
جدول 1-1- ویژگیهای یک عامل 11جدول 3-1- ماتریس حاصل از روش LWClass. 51جدول 3-2- مقایسه تکنیکهای ذکر شده 54جدول 5-1- ساختار اطلاعاتی ذخیره شده برای هر مفهوم و الگو. 69جدول 5-2- ساختار اطلاعاتی مربوط به وقوع الگوی "CFDA". 75جدول 5-3- نمونه ای از خروجی تابع سودمندی عامل.. 81جدول 5-4- اطلاعات مورد استفاده برای تخمین سودمندی یک قاعده 105جدول 6-1- دقت طبقهبندی روشهای مختلف.. 128جدول 6-2- نتایج حاصل از طبقهبندی توزیع شده مجموعه داده Nursery در سه مفهوم مختلف.. 130
فصل اول
معرفی و آشنایی با مفاهیم اولیه
1-1- مقدمهای بر دادهکاوی
دادهکاوی به معنای یافتن نیمه خودکار الگوهای پنهان موجود در مجموعه دادههای[5] موجود میباشد[38]. دادهکاوی از مدلهای تحلیلی ، کلاس بندی و تخمین و برآورد اطلاعات و ارائه نتایج با استفاده از ابزارهای مربوطه بهره می گیرد. میتوان گفت که داده کاوی در جهت کشف اطلاعات پنهان و روابط موجود در بین دادههای فعلی و پیشبینی موارد نامعلوم و یا مشاهده نشده عمل میکند. برای انجام عملیات دادهکاوی لازم است قبلا روی دادههای موجود پیشپردازشهایی انجام گیرد. عمل پیش پردازش اطلاعات خود از دو بخش کاهش اطلاعات و خلاصهسازی و کلیسازی دادهها تشکیل شده است. کاهش اطلاعات عبارت است از تولید یک مجموعه کوچکتر، از دادههای اولیه، که تحت عملیات دادهکاوی نتایج تقریبا یکسانی با نتایج دادهکاوی روی اطلاعات اولیه به دست دهد[38]. پس از انجام عمل کاهش اطلاعات و حذف خصایص غیر مرتبط نوبت به خلاصهسازی و کلیسازی دادهها می رسد. دادههای موجود در بانکهای اطلاعاتی معمولا حاوی اطلاعات در سطوح پایینی هستند، بنابراین خلاصهسازی مجموعه بزرگی از دادهها و ارائه آن به صورت یک مفهوم کلی اهمیت بسیار زیادی دارد. کلیسازی اطلاعات، فرآیندی است که تعداد زیادی از رکوردهای یک بانک اطلاعاتی را به صورت مفهومی در سطح بالاتر ارائه می نماید. خود روشهای دادهکاوی به سه دسته کلی تقسیم میشوند که عبارتند از خوشهبندی، طبقهبندی و کشف قواعد وابستگی. در ادامه هر یک از این روشها را بطور کلی معرفی مینماییم.
1-1-1- خوشهبندی
فرآیند خوشهبندی سعی دارد که یک مجموعه داده را به چندین خوشه تقسیم نماید بطوریکه دادههای قرار گرفته در یک خوشه با یکدیگر شبیه بوده و با دادههای خوشههای دیگر متفاوت باشند. در حال حاضر روشهای متعددی برای خوشهبندی دادهها وجود دارد که بر اساس نوع دادهها، شکل خوشهها، فاصله دادهها و غیره عمل خوشهبندی را انجام میدهند. مهمترین روشهای خوشهبندی در زیر معرفی شدهاند:
روشهای تقسیمبندی : روشهای خوشهبندی که بروش تقسیم بندی عمل میکنند، دادههای موجود در یک مجموعه داده را به k خوشه تقسیم میکنند، بطوریکه هر خوشه دو خصوصیت زیر را داراست :هر خوشه یا گروه حداقل شامل یک داده میباشد. هر داده موجود در مجموعه داده دقیقا به یک گروه یا خوشه تعلق دارد.معیار اصلی در چنین مجموعه دادههایی میزان شباهت دادههای قرار گرفته در هر خوشه میباشد. در حالیکه دادههای قرار گرفته در دو خوشه مختلف از نظر شباهت با یکدیگر فاصله زیادی دارند. مقدار k که بعنوان پارامتر استفاده میگردد، هم میتواند بصورت پویا تعیین گردد و هم اینکه قبل از شروع الگوریتم خوشهبندی مقدار آن مشخص گردد.
روشهای سلسله مراتبی : روشهای سلسله مراتبی به دو دسته کلی روشهای bottom-up و روشهای top-down تقسیم میگردند. روشهای سلسله مراتبی bottom-up به این صورت عمل میکنند که در شروع هر کدام از دادهها را در یک خوشه جداگانه قرار میدهد و در طول اجرا سعی میکند تا خوشههایی نزدیک به یکدیگر را با هم ادغام نماید. این عمل ادغام تا زمانی که یا تنها یک خوشه داشته باشیم و یا اینکه شرط خاتمه برقرار گردد، ادامه مییابد. روشهای top-down دقیقا بطریقه عکس عمل میکنند، به این طریق که ابتدا تمام دادهها را در یک خوشه قرار میدهد و در هر تکرار از الگوریتم، هر خوشه به خوشههای کوچکتر شکسته میشود و اینکار تا زمانی ادامه مییابد که یا هر کدام از خوشهها تنها شامل یک داده باشند و یا شرط خاتمه الگوریتم برقرار گردد. شرط خاتمه معمولا تعداد کلاستر یا خوشه میباشد.
روشهای مبتنی بر چگالی : اکثر روشهای خوشهبندی که بروش تقسیمبندی عمل میکنند معمولا از تابع فاصله بعنوان تابع معیار خود بهره میبرند. استفاده از چنین معیاری باعث میگردد که الگوریتم خوشهبندی تنها قادر به ایجاد خوشههایی با اشکال منظم باشد. در صورتیکه اگر خوشههای واقعی در دادهها دارای اشکال غیرمنظمی باشند، این الگوریتمها در خوشهبندی آنها با مشکل مواجه میگردند. برای حل اینگونه مشکلات یکسری از روشها برای خوشهبندی پیشنهاد گردیدهاند که عمل خوشهبندی را بر مبنای چگالی دادهها انجام میدهند. ایده اصلی در این روشها بر این اساس است که خوشهها تا زمانی که دادههای قرار گرفته همسایگی خوشهها از حد معینی بیشتر باشد، رشد میکنند و بزرگ میشوند. چنین روشهایی قادرند خوشههایی با شکلهای نامنظم نیز ایجاد نمایند.
البته دسته دیگری از روشهای خوشهبندی مانند روشهای مبتنی بر گرید، روشهای مبتنی بر مدل و ... وجود دارند که میتوانید آنها را در ]38[ مطالعه نمایید.
1-1-2- کشف قواعد وابستگی
بحث قواعد وابستگی به مقوله کشف عناصری یا المانهایی در یک مجموعه داده میپردازد که معمولا با یکدیگر اتفاق میافتند و بعبارتی رخداد آنها بنوعی با یکدیگر ارتباط دارد. بطور کلی هر قاعده یا rule که از این مجموعه داده بدست میآید، دارای شکل کلی بصورت میباشد که نشان میدهد چنانچه الگوی X اتفاق بیفتد، با احتمال بالایی الگوی Y نیز اتفاق خواهد افتاد. برای مطالعه بیشتر در مورد مقوله کشف قواعد وابستگی میتوانید به ]38[ مراجعه نمایید.
1-1-3- طبقهبندی
فرایند طبقهبندی در واقع نوعی یادگیری با ناظر میباشد که در طی دو مرحله انجام میگردد. در مرحله اول مجموعهای از دادهها که در آن هر داده شامل تعدادی خصوصیت دارای مقدار و یک خصوصیت بنام خصوصیت کلاس میباشد، برای ایجاد یک مدل داده بکار میروند که این مدل داده در واقع توصیف کننده مفهوم و خصوصیات مجموعه دادههایی است که این مدل از روی آنها ایجاد شده است. مرحله دوم فرآیند طبقهبندی اعمال یا بکارگیری مدل داده ایجاد شده بر روی دادههایی است که شامل تمام خصوصیات دادههایی که برای ایجاد مدل داده بکار گرفته شدهاند، میباشد، بجز خصوصیت کلاس این مقادیر که هدف از عمل طبقهبندی نیز تخمین مقدار این خصوصیت میباشد.
الگوریتمها و روشهای مختلفی برای طبقهبندی تاکنون پیشنهاد شدهاند که برای مثال میتوان از روشهای طبقهبندی با استفاده از درخت تصمیم، طبقهبندی بیزین، SVM ، طبقهبندی با استفاده از شبکههای عصبی، طبقهبندی مبتنی بر قواعد و ... ]56[ نام برد. در اینجا ما قصد نداریم وارد مباحث مربوط به الگوریتمها و روشهای طبقهبندی شویم و تنها روش طبقهبندی مبتنی بر قواعد را بدلیل استفاده از آن در فاز دوم پروژه در اینجا معرفی خواهیم نمود. در صورت نیاز به مطالعه بیشتر میتوانید به فصل ششم مرجع ]38[ مراجعه نمایید.
1-1-3-1- طبقهبندی مبتنی بر قواعد
در این قسمت قصد داریم نگاهی به بحث طبقهبندی مبتنی بر قواعد داشته باشیم. دراین روش مدل ایجاد شده از روی دادهها بصورت مجموعهای از قواعد میباشد. میتوان گفت که هر قاعده بصورت یک قاعده IF P THEN C میباشد که در آن P مجموعهای از شرایط بوده و C نیز مشخص کننده برچسب یک کلاس یا طبقه خاص میباشد. یک قاعده بدست آمده از مجموعه دادههای آموزشی با استفاده از دو معیار coverage و accuracy میتواند ارزیابی گردد. این دو معیار بصورت زیر تعریف میگردند:
(1-1)
(1-2)
که در تعاریف مذکور تعداد دادههایی در مجموعه داده D است که توسط قاعده پوشش داده میشوند. تعداد دادههایی است که توسط قاعده بدرستی طبقهبندی شدهاند. تعداد دادههای موجود در D میباشد.
فرمت فایل : word (قابل ویرایش) تعداد صفحات : 19 صفحه
فهرست مطالب
1- تاریخچه 1-1- پیش زمینه 1-2- به دست اوردن نیازهای سازمان با استفاده از داده های آن 2- انباره داده ( Data Warehousing ) 2-1- مقدمه 2-2- مدیریت اطلاعات به صورت فعال ( Active ) 2-3- ویژگیهای Data Warehouse 2-3-1- موضوع گرا ( Subject Oriented ) 2-3-2- یکپارچگی ( Integrated ) 2-3-3- از بین نرفتنی ( Non-volatile ) 2-3-4- متغیر با زمان ( Time – Variant ) 2-4- پشتیبانی نیازهای مدیریتی 2-4-1- پایگاههای داده استاندارد 2-4-2- Data Warehouse برای مدیران 2-5- مراحل ساخت Data Warehouse 2-5-1- فاز ساخت 2-5-2- فاز پیاده سازی 2-6- Data Mart 2-7- نتیجه گیری 2-7-1- مزیتهای Data Warehousing 2-7-2- معایب انبار داده 1-
تاریخچه 1-1- پیش زمینه سیتم های کامپیوتری در دهه های گذشته پیشرفتهای زیادی داشته اند. از Mainframe ها در سال 1960، Mini computer ها در سال 1970، PC ها در سال 1980، Client/Serverها در سال 1990. یک واقعیت قابل توجه ای است که با توجه به تغییراتی که در سکوها(platform)، معماری، ابزارها و تکنولوژیها داده شده است بیشتر برنامه های تجاری هنوز هم بر روی Mainframeهای سال 1970 اجرا می شوند. طبق یک تخمین، بیشتر از هفتاد درصد اطلاعات سازمانهای مختلف بر روی Mainframeها هستند. یک دلیل مهم این است که این سیتم ها آنقدر پیشرفت کرده اند که انتقال آن به یک محیط جدید، هزینه بر و مشکل است. در قدیم اهمیت عمده سیستمهای پایگاه داده ای برای پردازش داده های عملیاتی بوده است. داده های عملیاتی مجموعه ای از داده ها هستند که برای کارهای روزانه یک سازمان است. به عنوان مثال این داده ها میتوانند شامل داده هایی مربوط به حسابهای شخصی یا تقاضای فروش باشند. این داده ها در پایگاههای داده ذخیره می شوند و دستیابی به آنها بوسیله سیستم OLTP ( Online Transaction Processing ) انجام می گیرد. داده های عملیاتی برای بدست آوردن اطلاعاتی در مورد کارههای روزانه یک سازمان مناسب هستند، اما یک راه و روش سیستماتیک برای آنالیز کردن و تعیین استراتژی یک سازمان ندارد. در اواسط 1970، E.F.Codd یک مدل رابطه ای برای پایگاههای داده معرفی کرد که کاربران مستقیما می توانستند با استفاده از محصولات DBMS به داده دسترسی پیدا کنند. مدل رابطه ای یک مفهوم مهمی در تاریخچه پایگاه داده است، زیرا یک مدل ساختاری برای پایگاه داده معرفی کرد.
لینک پرداخت و دانلود *پایین مطلب*
فرمت فایل:Word (قابل ویرایش و آماده پرینت)
تعداد صفحه: 42
بازیافت داده (data Recovery) چیست؟
در سادهترین عبارت به data Recovery عملیات بازیافت داده از روی دیسک، دیسک درایور و هر وسیلة ذخیرهسازی الکترونیکی دیگر (مانند یک آرایه درایو، data base، حافظه فلش و غیره) میگویند زمانی که داده دیگر بصورت نرمال قابل دسترس نمیباشد.
راههای زیادی برای ذخیره کرده داده وجود دارد: درایوهای سخت، دیسکهای قابل حمل، CDها یا DVDها، مهم نیست که این وسایل ذخیرهسازی تا چه مقدار قابل اطمینان هستند زیرا عادی است که همة ابزارهای مکانیکی و الکترونیک اطلاعات خود را از دست بدهند. بطور کلی، غلتکهای مختلفی در مورد از بین رفتن و یا غیرقابل دسترس شدن داده وجود دارد به عنوان مثال فایلهایی که بصورت تصادفی حذف دهاند یا یک رمز فراموش شده. گاهی اوقات به علت بدشانسی یک ضربه به ابزار ذخیرهسازی وارد میشود و ممکن است بصورت فیزیکی آن را بدون استفاده سازد و عواملی چون آتشسوزی، شکستن و دیگر خطرات. وقتی راههای نرمال برای دسترسی به داده از بین میرود بازیافت (Data Recovery) راهی است که ما مجدداً دادهها را ذخیره و قابل دسترسی سازیم.
Data Recovery هم می تواند از راههای بسیار ساده امکانپذیر باشد و هم با راههایی که تعمیرات جامع و کارهای جزیی جهت Data Recovery نیاز دارد همراه باش در هر حال، انواع روشهای Data Recovery از یک سری عملیات عمومی برای بازیافت داده تشکیل شدهاند.
سنجیدن: رسانهها و فراهم کردن آنها یک هدف اولیه که ایجاد خطر میکند و بصورت بالقوه دارای عملیات Recovery میباشد.
تخمین زدن چه مقدار عملیات مورد بحث است و چه مقدار داده قابل بازیافت میباشد و چه راهحلی جهت این کار را لازم خواهد بود و بازیافت داده چه هزینهای دارد.
تعمیر کردن از بین رفتن فیزیکی و الکتریکی که در رسانه برای دسترسی به داده ممانعت ایجاد کند.
بازیافت‚ دادهها از طریق عملیات منطقی (نرمافزاری) که روی یک سری داده روی دیسک یا درایو پردازش میشوند.
تحلیل کردن: دادههای بازیافت شده سالم و قابل استفاده میباشند و سپس آماده کردن یک گزارش از نتیجه عملیات بازیافت (چه دادهای بازیافت شده، علت از بین رفتن داده چه بوده و غیره)
بازگشت داده ذخیره شده بر روی رسانة انتخاب شده در کمترین زمان ممکن
خلاصه
مطالب زیر تفاوتهای مهم بین Microsoft Exchange Server و Microsoft Exchange 2000 Server را در مورد نگهداری Dtabase و بازیافت سرور شرح میدهد. همچنین فرامین مربوط به بازیافت و مراحل آمادهسازی آن را قدم به قدم توضیح میدهد.
معرفی
خواندگان از متن میبایست آشنایی با Back up گیری و مراحل ذخیرهسازی مجدد در Exchange Server 5.5 داشته باشند و درک درستی از نحوة کار Exchange Server 5.5 در مورد کار با Data base داشته باشند.
Over view
فرم Data baseها و عملکرد بین آنها در Exchange Server 5.5 و Exchange 2000 نقاط مشترک زیادی دارند.
طبق اطلاعات پایهای شما آنچه که در Exchange Server 5.5 در مورد بازیابی و نگهداری داده است مطابق با Exchange 2000 است. Transaction logging، تنظیم شدن Checkpointها و دیگر موارد اساسی Data baseها همانند یکدیگر هستند. Exchange 2000 میتواند 20 Database را روی هر سرور پشتیبانی کند این بدان معناست که این بیشتر از اطلاعاتی است که روی track نگهداری میشود. این معماری متفاوت تا جایی پیش رفته است که این Databaseها در کنار یکدیگر هستند بدون اینکه روی عملکرد یکدیگر تاثیر بگذارند. Database Recovery که بعنوان مشکلگشایی اصلی و بهترین نتیجه میباشد در این دو محصول شبیه است. این قسمت شامل یک بازنگری به این تغییرات مهم در Exchange 2000 و تاثیرات آن در بازیافت و طراحی آن میباشد.
ـ یک دایرکتوری محلی جایگزین دایرکتوری سرور مرکزی Exchange میشود.
در Exchange Server 5.5 هر کامپیوتر سرور Exchange دارای database دایرکتوریهای خود میباشد. این Database بصورت اتوماتیک در کامپیوترهای سرور Exchange دیگر در سایت Exchange کپی میشود. در Exchange 2000 دایرکتوری سرور Exchange وجود ندارد. در عوض اطلاعات Exchange در Active Directory ذخیره میشود و همچنین در مجموعهای از Active Directory های دست نخورده کپی میشود.
در بیشتر مواقع حتی یک کپی از Database مربوط به Active Directory روی کامپیوتر Exchange 2000 وجود ندارد. سرور اصرار دارد که بعنوان یک Client به کنترلکننده مسیر یک Active Directory متصل شود تا اطلاعات دایرکتوری را بخواند و بنویسد.
این مسأله دلیلی است بر Recovery مشکلدارد
ـ مدیر سرور Exchange به مدت طولانی Backup و اصلاح دایرکتوریها را کنترل نمیکند ولی مدیر سرور Microsoft windows 2000 این کار را میکند.
ـ حتی اگر کامپیوتر سرور Exchange به صورت کامل تخریب شود، در بیشتر مواقع پیکربندی همة اطلاعات در جای دیگر Active Directory بصورت امن ذخیره شده است. یک سوئیچ Setup جدید disacterrecovery میباشد که با نصب مجدد روی کامپیوتر Exchang 2000 باعث پیکربندی منطقی اطلاعاتی میشود که هنوز بصورت صحیح روی Active Directory وجود دارد.
ـ شما نمیتوانید به مدت طولانی برای تولید Domain به سرورهای Recovery شده Database متصل باشید. برای انجام Recoveryهای Database، شما باید از کنترلکنندههای Domain مربوط به مجموعهای از Active Directory ها استفاده کنید زیرا اکنون دایرکتوری محلی است نه یک سرور پایه. همچنین سرور بازیافت شده میتواند روی شبکهای همانند آن که مجموع تولیدات روی آن است قرار گیرد.
این نیاز به آن سختی که به نظر میرسد نیست.
Microsoft windows NT. Server 4.0 میبایست بصورت کامل مجدداً به صورت Operating system برای تبدیل سرور به کنترلکننده Domain و بالعکس نصب شود. در windows 2000 Server فرمان dcpromo اجازه میدهد تا نقش سرور را در چند دقیقه تغییر دهید.
در بیشتر دستورات بازیافت Malbox در Exchange Server 5.5 لازم نیست که اطلاعات دایرکتوری مادر را که دوباره ذخیره شدهاند را مجداداً به اطلاعات Dtabase برگردانید و این در Exchange 2000 صادق است.
در Exchange Server 5.5 در مواردی نادری که شما میخواهید مجدداً اطلاعات دایرکتوری را ذخیره کنید باید آن اطلاعات را روی شبکه نامتصل فیزیکی نیز ذخیره کنید.
این فقط قسمتی از متن مقاله است . جهت دریافت کل متن مقاله ، لطفا آن را خریداری نمایید
فرمت فایل : word (قابل ویرایش) تعداد صفحات : 24 صفحه
فهرست مطالب
مقدمه
بانک های اطلاعاتی ، در دسترس همگان
مرکز داده
امنیت بانکهای اطلاعاتی
محدودیتهای جدید برای سرپرستان پایگاههای داده
مقدمه:
امروزه اهمیت و کاربرد روزافزون سیستمهای اطلاعاتی بر کسی پوشیده نیست و از آن جا که حیات این سیستمها وابسته به حجم انبوهی از دادهاست، نیازبه استفاده از سیستمهای مدیریت پایگاه داده انکار ناپذیر می باشد. چون داده ها از ارزش بسیار بالایی برخوردار هستند تهاجمات زیادی برای تخریب و یا دسترسی غیر مجاز به آنها صورت می گیرد و بنابراین نیاز به روشهایی است که بتواند امنیت را در پایگاههای داده برقرار سازد. به طور کلی امنیت پایگاه داده به مجموعه سیاستها و مکانیزمهایی گفته می شودکه محرمانگی، جامعیت و دسترس پذیری را برای داده ها به وجود آورده و آنها را در برابر حملات عناصر داخلی و خارجی محافظت نماید. هرچند که این موضوع در کشورهای توسعه یافته جزو مباحث روز بوده و به پیشرفتهای بسیار نائل شدهاند. هنوز این مبحث در کشورایران بسیار نوپا و جوان است .
بانک های اطلاعاتی ، در دسترس همگان :
یکی از ضعف های سایت های ایرانی دسترسی آسان کاربران به بانک های اطلاعاتی آنهاست . شاید بسیاری از برنامه نویسان نسبت به رفع ضعف های امنیتی ناشی از تزریق دستورات SQL اقدام کرده باشند . اما زمانی که بانک های اطلاعاتی خود را به سهولت در اختیار کاربران قرار می دهند . آنگاه یک کاربر به سادگی می تواند از طریق دریافت بانک اطلاعاتی نام کاربری و کلمه عبور سایت را بدست آورده و وارد مدیریت سایت شود .
متاسفانه گاهی در این بانک های اطلاعاتی اطلاعات گرانبهایی نیز گنجاده شده است که ارزشمند تر از ورود به بخش مدیریت آن سایت است . برای نمونه در یکی از سایتهای اینترنتی ایرانی که اقدام به فروش online کارتهای اینترنتی کرده است به سادگی با دریافت بانک اطلاعاتی توانستم به بیش از 500 کلمه عبور و نام کاربری کارتهای اینترنت و فون تو فون دسترسی پیدا کنم .
متاسفانه منشا این مشکل و ضعف نه برنامه نویسان سایت بلکه میزبانان سایت ها هستند . عدم ایجاد شاخه ای مختص بانک های اطلاعات در خارج از دایرکتوری وب باعث آن می شود که صاحبان سایتها به ناچار بانک های اطلاعاتی خود را در جایی بر روی دایرکتوری وب خود قرار دهند . در چنین حالتی نیز بانک اطلاعاتی قابل دریافت از طریق پروتکل http می باشد .
کتاب ساختمان داده ها و الگوریتم ها
تالیف مهندس جعفر تنها و مهندس ناصر آیت
منبع درس ساختمان داده ها رشته مهندسی کامپیوتر دانشگاه پیام نور
شامل 351 صفحه کتاب در قالب فایل pdf