داده کاوی (Data mining)

داده کاوی فرآیندِ تبدیلِ یک سری داده، به یک سری دانش، توسط فرآیندهای مختلف است. داده کاوی، پایگاه‌ها و مجموعه حجیم داده‌ها را برای کشف و استخراج، مورد تحلیل قرار می‌دهد.
روش‌های داده‌کاوی تقریبا همیشه به لحاظ محاسباتی پر هزینه هستند. علم میان‌رشته‌ای داده‌کاوی، پیرامون ابزارها، متدولوژی‌ها و تئوری‌هایی است که برای آشکارسازی الگوهای موجود در داده‌ها مورد استفاده قرار می‌گیرند و گامی اساسی در راستای کشف دانش محسوب می‌شود. دلایل گوناگونی پیرامون چرایی مبدل شدن داده‌کاوی به چنین حوزه مهمی از مطالعات وجود دارد.
در صورتی که سیستم‌های داده‌کاوی بر روی سکوهای Client/Server قوی نصب شده باشد و دسترسی به بانک‌های اطلاعاتی بزرگ فراهم باشد، می‌توان به سوالاتی از قبیل :کدامیک از مشتریان ممکن است خریدار کدامیک از محصولات آینده شرکت باشند، چرا، در کدام مقطع زمانی و بسیاری از موارد مشابه پاسخ داد.
پژوهش‌ها در زمینه داده‌کاوی در گستره وسیعی از موضوعات شامل آمار، علوم کامپیوتر، «یادگیری ماشین» (Machine Learning)، «مدیریت پایگاه داده» (Database Management) و «بصری‌سازی داده‌ها» (Data Visualization) دنبال می‌شود. روش‌های داده‌کاوی و یادگیری، در زمینه‌هایی غیر از آمار نیز توسعه داده شده‌اند، که از جمله آن‌ها می‌توان به یادگیری ماشین و «پردازش سیگنال» (signal processing) اشاره کرد.
شرکت‌های فعال در صنعت خرده‌فروشی، بانک‌ها، تولیدکنندگان، مراکز ارائه‌دهنده خدمات مخابراتی، بیمه‌گرها و غیره، از داده کاوی برای شناسایی روابط موجود میان همه چیز استفاده می‌کنند؛ از قیمت‌گذاری، تبلیغات و جمعیت‌شناسی مخاطبان گرفته تا درک این موضوع که چگونه اقتصاد، ریسک، رقابت و شبکه‌های اجتماعی می‌تواند بر مدل‌های کسب‌وکار، درآمدزایی و عملیات تجاری آنها اثرگذار باشد.

داده کاوی در محل تلاقی سه رشته علمی قرار گرفته است:


۱٫ آمار (مطالعه عددی روابط داده‌ها)
۲٫ هوش مصنوعی (هوش انسان‌ مانند که توسط نرم‌افزار و یا ماشین ظهور می‌یابد)
۳٫ یادگیری ماشین (الگوریتم‌هایی که می‌تواند با آموزش دیدن از داده‌ها، آینده را پیش‌بینی کند)


تفاوت اصلی داده کاوی و علم آمار :


تفاوت اصلی‌ در حجم داده های مورد تحلیل، روش مدلسازی داده‌ها و استفاده از هوش‌مصنوعی است. داده کاوی شاخه‌ی توسعه یافته و پیچیده ی علم آمار است. علم آمار به تنهایی برای صاحبان صنایع و شرکت ها بسیار اهمیت دارد. اما اهمیت داده کاوی فراتر از علم آمار می رود و امکاناتی در اختیار شما قرار می دهد که ساز و کارهایی آماری از انجام آنها ناتوان هستند.
داده کاوی شاخه ی توسعه یافته ی علم آمار است و تفاوت اصلی آن ها در حجم داده های مورد تحلیل و روش مدلسازی داده هاست. در بیشتر موارد حجم داده های اولیه ی مورد استفاده در داده کاوی آنقدر زیاد است که به یک چالش زمان بر و هزینه بر تبدیل می شود. اما مدلسازی داده های ورودی و دستیابی به اطلاعات پنهان و ارزشمند موجود در این حجم عظیم داده، با کمک هوش مصنوعی و شیوه های خودکار یادگیری انجام می شود که در بررسی های پایه ای آماری خبری از آن نیست.


چند نرم افزار کاربردی جهت داده کاوی:


RapidMiner
Weka
Orange
نرم افزار Neural Designer مخصوص طراحی شبکه های عصبی

چرا داده کاوی مهم است :

با رشد و افزایش توجهات به داده‌کاوی، پرسش «چرا داده‌کاوی؟» همواره مطرح می‌شود.
هر دو سال یک بار، حجم داده‌ها دو برابر می‌شود. ۹۰ درصد اطلاعات دنیای دیجیتال را داده‌های بدون ساختار (unstructured data) تشکیل می‌دهد. از سوی دیگر، اطلاعات بیشتر لزوماً به معنای دانش بیشتر نیست.
بشر از اطلاعات و دانش برای گستره وسیعی از کاربردها، از تحلیل بازار گرفته تا تشخیص بیماری‌ها، کشف کلاهبرداری و پیش‌بینی قیمت سهام استفاده می‌کند. در مجموع باید گفت، ضر‌ب‌المثل انگلیسی «نیاز، مادر همه ابداعات بشر است»، پاسخی کوتاه و گویا به پرسش مطرح شده است.

شما با داده کاوی می‌توانید :


۱٫ تمام داده‌های نامرتبط، بی‌فایده و تکراری را از مجموعه داده‌های‌تان حذف کنید.
۲٫ موارد مرتبط را شناسایی کرده و از آنها برای نیل به اهداف از پیش تعیین شده خود بهره ببرید.
۳٫ به فرایند تصمیم‌گیری آگاهانه سرعت ببخشید.

پیش‌بینی خودکار گرایش‌ها و رفتارها :

از داده‌کاوی برای خودکارسازی فرآیندها و انجام پیش‌بینی در پایگاه‌داده‌های بزرگ استفاده می‌شود. پرسش‌هایی که پاسخگویی به آن‌ها نیازمند تحلیل‌های گسترده است، اکنون و با استفاده از تحلیل داده‌ها قابل پاسخگویی هستند. بازاریابی هدفمند مثالی از بازاریابی پیش‌بین است. همچنین، از داده‌کاوی برای ارسال ایمیل‌های تبلیغاتی هدفمند و بهینه استفاده می‌شود. در واقع، داده‌کاوی به منظور بیشینه‌سازی «بازگشت سرمایه» (Return On Investment) در ارسال ایمیل‌های تبلیغاتی مورد استفاده قرار می‌گیرد. از دیگر مسائل پیش‌بینی می‌توان به پیش‌بینی ورشکستگی، اشاره کرد. شناسایی بخش‌هایی از جامعه که احتمال دارد به یک رویداد واکنش‌های مشابهی نشان دهند نیز از دیگر قابلیت‌های داده‌کاوی به شمار می‌آید.

سود حاصل از داده کاوی :

داده کاوی به دو دلیل سودآور است:
•    منجر به تصمیمات واقع بینانه می شود.
•    سبب تکرار تصمیمات سودآور رخ داده در گذشته می گردد.
با داده کاوی شما مجبور می شوید تصمیمات احساسی را فراموش کنید و بر اساس واقعیت ها تصمیم بگیرید. بنابراین ضرر های ناشی از نا آگاهی مدیران حذف می شود. داده کاوی فضای حاکم بر کسب و کار شما را شفاف می‌کند و شما را مجبور می‌کند که واقع‌بینانه تصمیم بگیرید.
داده کاوی همچنین فضای سال های گذشته ی شرکت شما را بازبینی می کند و در نهایت نشان می دهد کدام تصمیمات منجر به سود شده است در حالی که شما از آن ها بی خبر هستید. شرکت ها و سازمان ها هر لحظه در حال اتخاذ تصمیمات جدیدی هستند که منجر به سود یا زیان آن مجموعه می شود. بسیاری از تصمیمات بر اساس واقعیات موجود گرفته نمی شود و عواملی چون «فراموشی»، «تخلفات و تقلبات»، «اشکالات خط تولید»، «منافع شخصی» و «سیاست های اعمال نفوذ شده از جاهای دیگر» منجر به اتخاذ تصمیمات غیر شفاف و در نتیجه زیانبار می شوند.

داده کاوی در عصر حاضر :

امروزه داده کاوی به عنوان پایه و مبنای تحلیل‌ها محسوب می‌شود و به شما کمک می‌کند که مدل‌هایی توسعه دهید که قادر است از میان میلیون‌ها یا میلیاردها رکورد، روابط را شناسایی کند. داده کاوی در حال شکل دادن به جهانی است که در آن زندگی می‌کنیم.

کشف خودکار الگوهای پیش‌تر ناشناخته :

از ابزارهای داده‌کاوی برای بررسی پایگاه‌های داده استفاده می‌شود. همچنین، برای شناسایی الگوهای از پیش ناشناخته نیز قابل بهره‌برداری است. یک مثال خیلی خوب از کاوش الگوها، تحلیل داده‌های فروش خرده‌فروشی‌ها است. این کار با هدف شناسایی محصولات غیر مرتبطی که معمولا با هم خریداری می‌شوند انجام می‌شود. همچنین، مسائل کاوش الگوی دیگری نیز وجود دارند که از جمله آن‌ها می‌توان به شناسایی تراکنش‌های کلاهبرداری در کارت‌های اعتباری اشاره کرد. در چنین مواردی، الگوهای داده ناشناخته و جدید، می‌توانند خبر از وقوع سرقت اطلاعات کارت اعتباری و دیگر انواع کلاهبرداری بدهند.

داده کاوی چگونه کار می‌کند :

داده کاوی به عنوان یک فرایند ترکیبی، شامل مجموعه‌ای از روش‌ها و تکنیک‌هایی است که برای تحلیل‌های گوناگون به کار می‌رود و می‌تواند پاسخگوی طیف وسیعی از نیازهای سازمانی باشد.
در داده کاوی از الگوریتم‌ها و شیوه‌های مختلفی استفاده می‌شود که برخی از آنها به این شرح است:
مزایای داده‌کاوی
•    برای پیدا کردن کلاهبرداری‌های احتمالی از داده‌کاوی در بانک‌ها و موسسات مالی استفاده می‌شود. این کار بر پایه تراکنش‌ها، رفتار کاربر و الگوهای داده‌ها انجام می‌شود.
•    به تبلیغ‌کنندگان کمک می‌کند تا تبلیغات درستی را در اینترنت قرار دهند. این کار در صفحات وب و برپایه الگوریتم‌های یادگیری ماشین انجام می‌شود. بدین شکل داده‌کاوی هم به خریداران و هم فروشندگان محصولات و خدمات سود می‌رساند.
•     فروشگاه‌های خرده‌فروشی و مواد غذایی از داده‌کاوی برای چینش قفسه‌های فروشگاهی و تحلیل سبد خرید مشتریان خود استفاده می‌کنند. بدین شکل داده‌کاوی به افزایش درآمد آن‌ها کمک می‌کند.
•    از داده‌کاوی در زمینه‌های گوناگونی از جمله «بیوانفورماتیک» (bio-informatic)، پزشکی و ژنتیک با اهداف گوناگون شامل پیشگیری، تشخیص و درمان بیماری‌ها استفاده می‌شود.
•    داده‌کاوی توسط سازمان‌های قانونی برای شناسایی مظنون‌های جنایی مورد استفاده قرار می‌گیرند.

معایب داده‌کاوی :

•    روش‌های داده‌کاوی ۱۰۰٪ صحیح نیستند. بنابراین ممکن است در برخی شرایط عواقب بسیار بدی را در پی داشته باشند.
•    کار با برخی سیستم‌ها و روش‌های داده‌کاوی دشوار و نیازمند دانش قابل توجهی است.
•    برخی از مسائل داده‌کاوی حریم خصوصی و حتی امنیت کاربر را تحت تاثیر قرار می‌دهند.
در مجموع می‌توان تاثیرات مثبت و منفی زیر را برای داده‌کاوی بیان کرد.