متن کاوی (text mining)

ارایه ابزاهایی كه با بررسی متون بتواند تحلیلی روی آنها انجام دهند منجر به شكل گیری این زمینه‌ در هوش مصنوعی شده كه به متن کاوی معروف است. این حوزه تمام فعالیتهایی كه به نوعی به دنبال كسب دانش از متن هستند را شامل می‌گردد. آنالیز داده های متنی توسط تكنیكهای یادگیری ماشین، بازیابی اطلاعات هوشمند، پردازش زبان طبیعی یا روشهای مرتبط دیگر همگی در زمره مقوله متن کاوی قرار می‌گیرند.
متن کاوی درواقع همان داده کاوی است که بر روی متن انجام می‌شود. همچنین به عنوان آنالیز متن نیز شناخته می‌شود که منظور از آن فرایند استخراج اطلاعات با کیفیت از متن است.
متن كاوي به عنوان تجزيه و تحليل هوشمند متن، داده كاوي متن يا كشف دانش در متن نيز شناخته ميشود.
در دنياي مدرن که در آن ميزان انتشار متون علمي به حدي زياد است که تقريبا براي هر محققي غيرممکن است که تمام اطلاعاتي را که با آن روبروست، دنبال کند؛ متن کاوي به عنوان ابزاري مفيد در اختيار پژوهشگران قرار دارد.
ايده اصلي متن كاوي، يافتن قطعات كوچك اطلاعات ازحجم زياد داده هاي متني، بدون نياز به خواندن تمام آن است.  متن کاوی با انتقال کلمات و عبارات که بصورت داده های unstructured یا غیر ساخت یافته هستند به مقادیر عددی عمل می کند که پس از آن می تواند این داده های غیر ساخت یافته را به داده های ساخت یافته در یک پایگاه داده لینک داد و آن را با استفاده از روش های سنتی داده کاوی آنالیز کرد.

تفاوت متن‌کاوی و داده‌کاوی :

تفاوت متن كاوي و داده كاوي این است که داده كاوي بر روي داده هاي ساخت يافته پايگاه داده كار مي كند و متن كاوي، بر روي داده هاي غير ساخت يافته و نيم ساخت يافته مانند Email  و مستندات تمام متني كار مي كند. در متن كاوي  سعي مي گردد از همان تكنيكهاي داده كاوي استفاده گردد. براي اين منظور به تكنولوژيهايي ديگري مانند پردازش زبان طبيعي، يادگيري ماشين و … نياز است تا به صورت اتوماتيك آمارهايي را جمع آوري نموده و ساختار و معنای مناسبي از متن استخراج گردد. در اين موارد، ديدگاه عمومي استخراج ويژگيهاي كليدي از متن است. ويژگيهاي استخراج شده بعنوان داده براي تحليل استفاده مي گردد.

روشهاي متن كاوي :

به طور کلی روش هایی که در متن کاوی استفاده می شوند عبارتند از:
استخراج اطلاعات، طبقه بندي، خوشه بندي، خلاصه سازي، رديابي موضوع، ارتباط دهنده مفاهيم، نمايش اطلاعات، پرسش و پاسخ، كاوش مبتني بر متن، تجزيه و تحليل گرايشها

متن کاوی و بازيابي اطلاعات :

معمولاً در بازيابي اطلاعات با توجه به نياز مطرح شده از سوي كاربر، مرتبط ترين متون و مستندات و يا در واقع «كيسه كلمه» از ميان ديگر مستندات يك مجموعه بيرون كشيده ميشود. بازيابي اطلاعات يافتن دانش نيست بلكه تنها آن مستنداتي را كه مرتبط تر به نياز اطلاعاتي جستجوگر تشخيص داده به او تحويل ميدهد. اين روش در واقع هيچ دانش و حتي هيچ اطلاعاتي را به ارمغان نمي آورد.
متن كاوي ربطي به جستجوي كلمات كليدي در وب ندارد. اين عمل در حوزه بازيابي اطلاعات گنجانده مي شود. به عبارتی بازیابی اطلاعات جستجو، كاوش، طبقه بندي و فيلتر نمودن اطلاعاتي است كه در حال حاضر شناخته شده اند و در متن  قرار داده شده است. ولی در متن کاوی مجموعه اي از مستندات بررسي شده و اطلاعاتي كه در هيچيك از مستندات به صورت مجرد يا صريح وجود ندارد، استخراج مي گردد.

متن کاوی در مقابل آنالیز متن :

اصطلاح آنالیز متن یک مجموعه از تکنیک‌های زبانشناسی، آمار و یادگیری ماشینی را توضیح می‌دهد که محتوای اطلاعات منابع متنی را برای هوشمند سازی کسب و کار، آنالیز اکتشافی داده، تحقیقها یا سرمایه‌گذاری ساختار داده و مدل می‌کند. این اصطلاح تقریباً مترادف متن کاوی است. اصطلاح آنالیز متن بیشتر در کسب‌وکار مورد استفاده قرار می‌گیرد در حالی که متن کاوی حوزه کاربرهای قدیمیتر به ویژه تحقیقها علوم وابسته به زندگی و هوشمند سازی دولت‌ها استفاده می‌شود.
اصطلاح آنالیز متن همچنان شرح می‌دهد که کاربرد آنالیز متن برای پاسخ به مشکل‌های کسب و کار، چه وابسته یا مستقل از پرس و جو و آنالیزهای میدانی و داده‌های عددی باشد. واضح است که ۸۰ درصد از اطلاعات وابسته به کسب و کار در شکلی بدون ساختار و متنی است. این تکنیک‌ها و فرایندها دانشی – حقایق، قواعد کسب و کار و ارتباطات – را کشف و ارائه می‌نمایند که در غیر این صورت در ساختاری متنی، غیرقابل نفوذ برای فرایندهای خودکار باقی مانده بودند.

متن کاوی و استخراج اطلاعات :

هدف استخراج اطلاعات خاص از سندهاي متني است و ميتواند به عنوان يك فاز پيش پردازش در متن كاوي به كار رود که در ادامه توضیح داده شده است. استخراج اطلاعات عبارتند از نگاشت متن هاي زبان طبيعي به يك نمايش ساخت يافته و از پيش تعريف شده يا قالب هايي كه وقتي پر ميشوند، منتخبي از اطلاعات كليدي از متن اصلي را نشان ميدهند. اين سيستمهاي استخراج اطلاعات به شدت بر داده هاي تولید شده توسط سیستم های NLP تکیه دارند.

فرایند متن کاوی :

بازیابی اطلاعات یا شناسایی یک پیکره متنی، گام مقدماتی است: جمع‌آوری یا شناختن یک مجموعه از موارد متنی، بر روی وب یا نگه داشته شده روی فایل‌های سیستمی، پایگاه داده یا محتوای سیستم پیکره متنی، برای آنالیز.
اگر چه برخی سیستم‌های آنالیز متن منحصراً متدهای آماری پیشرفته را اجرا می‌نمایند، بسیاری دیگر پردازش زبان‌های طبیعی را بسیار گسترده‌تر اجرا می‌نمایند، مثل برچسب زنی اجزای کلام، تجزیه‌کننده نحوی یا دیگر انواع آنالیز زبانی.
Named entity recognition از تکنیک‌های اماری جهت شناختن نام‌ها استفاده می‌کند: مردم، سازمانها، نام مکان‌ها، اختصارهای خاص و غیره. ابهام زدایی – با استفاده از راهنماهای متنی –ممکن است نیاز شود برای آنکه تعیین گردد کلمه “Ford” می‌تواند به یک رئیس‌جمهور سابق آمریکا، یک کارخانه خودروسازی، یک ستاره سینما، یک رودخانه یا موجودیتی دیگر ارجاع داشته باشد.
تشخیص الگوی تعیین شده موجودیت: ویژگی‌هایی مانند شماره تلفن، آدرس ایمیل، مقادیر (همراه با واحد) می‌توانند از طریق regular expression یا دیگر الگوهای تطبیق داده شود.
Coreference : شناسایی گروه اسمی و دیگر اصطلاح‌هایی که به شی ای یکسان ارجاع دارند.
استخراج ارتباط، حقیقت و رخداد: تشخیص همبستگی بین موجودیت‌ها و دیگر اطلاعات درون متن.
آنالیز نیت، درگیر در فهم ذهنی (نه حقیقی) اجزاء و استخراج فرم‌های مختلف نگرشی اطلاعات مانند احساس، عقیده، حالت و هیجان است. تکنیک‌های آنالیز متن در آنالیز کردن نیت و مقصود موجودیتها، مفاهیم یا سطح موضوع و در تشخیص عقیده و نظر اجزاء کمک‌کننده هستند.

پردازش متن :

یکی از مراحل ابتدایی در متن کاوی پردازش متن است. در پردازش متن چند مورد مهم وجود دارد مثلا تمیز کردن متن، حذف تبلیغات از صفحات وب، نرمالیزه کردن متن های تبدیل شده از فرمت های باینری، کار با جدول ها شکل ها و فرمولها. مورد بعدی نشانه گذاری متن است یعنی تقسیم رشته ای از کاراکترها به مجموعه ای از نشانه ها که به این ترتیب بر مشکلاتی از قبیل آپاستروف ها مانند he’s ، کلمات چند شکلی مانند data base، database یا data-base ، کلماتی مانند c++، A/C، نشانه هایی مثل “…” یا «:-)» غلبه کرد یا برای سوالاتی مثل اینکه میزان فضای سفید مهم هست یا نه پاسخ پیدا نمود. موضوع بعدی Parts Of Speech tagging یا فرایند علامت گذاری کلمات یک متن با corresponding parts of speech آنهاست. که مبتنی بر قواعد گرامری است و بر اساس احتمالات ترتیبی کلمات مختلف بوده و نیاز به یک corpus ای (مجموعه ای از نوشته ها یا گزاره ها) دارد که برای یادگیری ماشین بصورت دستی تگ شود.
مسئله بعدی Word Sense Disambiguation یعنی تعیین این است که کلمه ای که چند معنی دارد، در این جمله مورد نظر کدام معنی را می دهد.
در ساختارهای معنایی دو روش داریم یکی full parsing است که یک parse tree برای جمله ایجاد می کند و دیگری partial parsing است که ساختارهای نحوی مانند عبارات اسمی و گروه های فعلی برای جمله ایجاد می کند. کدام بهتر است؟ ایجاد full parse tree اغلب به دلیل بی دقتی های گرامری، نشانه گذاری های بد، لغات جدید، جداسازی اشتباه جملات، اشتباه در تگ های POS شکست می خورد. بنابراین partial parsing بیشتر استفاده می شود.

وظایف متن کاوی :

 دسته‌بندی متون
 خوشه بندی متون
 استخراج معنی و مفهوم
 تولید رده‌بندی دانه‌ای
 تجزیه و تحلیل احساسات
 خلاصه کردن اسناد
 مدلسازی ارتباط موجودیت‌ها

برخي از كاربردهای متن كاوي :

بازاريابي :
تجزيه و تحليل صداها و متون نظرات، پيشنهادات، انتقادات و شكايات
مشتريان و درنتيجه بهبود شرايط و افزايش خريد مشتريان.
تحليل متون بي ساختار و تركيب آن با داده هاي ساختاريافته سازماني
جهت پيش بيني خواسته ها و رفتار خريد مشتريان.

امنيت :
تعيين خودكار محتواي تماس هاي تلفني، فكس ها، ايميل ها، اطلاعات
ماهواره اي و ساير شبكه هاي تلفني جهت شناسايي جرم ها.
تشخيص فريبكاري ها و كلاه برداري ها.

زيست پزشكي :
شناسايي ژن ها و تحليل هاي مربوط به DNA
تعين محل پروتئين درون سلولي جهت اهداف دارويي.
استخراج ارتباطات ژن- بيماري.

متون دانشگاهي :
تجزيه و تحليل جريان هاي پژوهشي.
جستجوي مفهومي متون مرتبط

استخراج اطلاعات :
مشخص كردن عبارت هاي كليدي و تعيين رابطه بين آنها بر اساس ترتيب به
كار رفته در متن با توجه به تطابق الگوها - پردازش زبان طبيعي براي تحليل
و پردازش متون (مثلا خواندن هزاران رزومه و استخراج اطلاعات آنها)

ردیابی موضوع :
پیش بینی اسناد مورد علاقه کاربران بر اساس پروفایل کاربر و اسنادی که قبلا مطالعه کرده است.

خلاصه سازی :
خلاصه سازی خودکار اطلاعات برای صرفه جویی در وقت کاربرها

رده‌بندی :
تعيين موضوعات اصلي(تم هاي اصلي) يك سند و قرار دادن آن
در طبقه از پيش تعيين شده براساس موضوعات.

خوشه بندی :
گروه بندي اسناد مشابه بدون داشتن مجموعه طبقات از پيش
تعيين شده.