Data Collection
دهه ۱۹۶۰
تحلیل پویای دادههای گذشته در یک سطح
پایگاه دادههای ارتباطی
ODBC، SQL
در ماه گذشته چند واحد از یک محصول خاص بفروش رفته است؟
دسترسی به دادهها
Data Access
دهه ۱۹۸۰
تحلیل پویای دادههای گذشته در چند سطح
OLAP، DW
در ماه گذشته چند واحد از یک محصول خاص در مقایسه با مراکز دیگر بفروش رفته است؟
انبار دادهها
Data warehouse DSS
دهه۱۹۹۰
ارائه اطلاعات و دادههای مربوط به آینده
کامپیوترهای چند پردازنده
الگوریتمهای پیشرفته
در ماه آینده چه اتفاقی خواهد افتاد؟
دادهکاوی
Data Mining
امروزه
اگرچه عبارت دادهکاوی اغلب به عنوان کشف دانش مورد استفاده قرار میگیرد، ولی فرایند کشف دانش مفهومی گستردهتر دارد که در ادامه به توضیح آن خواهیم پرداخت.
فرایند کشف دانش
فرایند استخراج دانش در شکل ۲-۱ نشان داده شده است. همانطور که در شکل مشاهده میکنید، فرایند کشف دانش یک فرایند شش مرحلهای است که دادهکاوی فقط گامی از این فرایند است(Han, Kamber et al. 2011).
شکل ۲‑۱ : فرایند کشف دانش
مراحل فرایند استخراج دانش عبارت است از:
مرحله اول، انتخاب[۲۰] داده: ورودی این مرحله حجم عظیمی از داده است. دادهها عموما در شکلهای گوناگون و در مکانهای مختلف نگهداری میشوند. ابتدا باید دادهها یکپارچه و در یکجا ذخیره شوند. پس انباردادهای[۲۱] ایجاد میشود که مجموعهای از مارت دادهها[۲۲] است. انبارداده مجموعهای از اطلاعات درباره موضوعات مختلف در گستره یک سازمان است، اما مارت دادهها زیر مجموعهای از انبار داده است. انبارداده مخاطبش کل سازمان است درحالیکه مارت دادهها بر اساس موضوعی که جمع آوری شده است در همان بخش از سازمان مورد استفاده قرار میگیرد. انبار داده از طریق فرایند پاکسازی داده، یکپارچهسازی دادهها، انتقال دادهها، بارگیری دادهها و دادههای متناوب ساخته میشود. اما معمولاً انبار داده بهوسیله پایگاه دادههای چند بعدی مدل میشوند، که هر کدام از بعدهای انبار داده نشان دهنده یک یا مجموعهای از صفات[۲۳] است. حال با توجه به مسئله مورد بحث و کاربردی که هدف فرایند دادهکاوی است؛ از این انبار داده، مجموعهای از دادهها انتخاب میشود. پس خروجی مرحله انتخاب، یک مجموعه داده هدف[۲۴] است (Sumathi and Sivanandam 2006).
مرحله دوم، پیشپردازش[۲۵]: دادههای موجود در بانکهای اطلاعاتی بهخودی خود قابل استخراج شدن نیستند؛ زیرا کیفیت دادههای اصلی پایین است. در این مرحله یک سری پردازشهایی بر روی داده انجام میشود تا دادهها آمادهی فرایند دادهکاوی شوند. خروجی این مرحله، دادههای آمایش شده است. سه عامل بر روی کیفیت دادهها تاثیرگذار است که در ذیل به آنها اشاره میکنیم:
-
-
-
- مقادیر مفقود شده[۲۶]: اگر مقادیر برخی از رکوردها در مجموعه داده مورد بررسی در بعضی از ویژگیها موجود نباشد در این صورت در آن ویژگی در رکورد مورد نظر با مشکل مقدار مفقود شده مواجه خواهیم بود (Larose 2005). برای برطرف کردن مقادیر مفقود شده، شش رویکرد توسط هان و همکاران ارائه شده است که عبارت است از (Han, Kamber et al. 2011):
(( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. ))
-
( اینجا فقط تکه ای از متن درج شده است. برای خرید متن کامل فایل پایان نامه با فرمت ورد می توانید به سایت feko.ir مراجعه نمایید و کلمه کلیدی مورد نظرتان را جستجو نمایید. )
-
- حذف کردن رکوردهایی که دارای مقادیر مفقود شده هستند.
- پر کردن دستی مقادیر مفقود شده.
- پر کردن مقادیر با یک مقدار ثابت یا نامشخص.
- پر کردن خودکار با بهره گرفتن از میانگین و یا مد در رکوردهای موجود.
- پر کردن خودکار با بهره گرفتن از میانگین و یا مد آن ویژگی در رکوردهای موجود در کلاس مشابه با کلاس رکورد با مقادیر مفقود شده.
- پر کردن خودکار با بهره گرفتن از استنتاج از روی سایر ویژگیهای موجود در مجموعه داده و استفاده از الگوریتمهای دادهکاوی.
[دوشنبه 1400-09-29] [ 07:55:00 ب.ظ ]
|