مقدمه
وب، محیطی وسیع، متنوع و پویا است که کاربران متعدد اسناد خود را در آن منتشر می کنند. در حال حاضر بیش از دو بیلیون صفحه در وب موجود است و این تعداد با نرخ 7.3 میلیون صفحه در روز افزایش می یابد.
با توجه به حجم وسیع اطلاعات در وب، مدیریت آن با ابزارهای سنتی تقریباً غیر ممکن است و ابزارها و روشهایی نو برای مدیریت آن مورد نیاز است. با توسعه سیستمهای اطلاعاتی، داده به یکی از منابع پر اهمیت سازمان ها مبدل گشته است. بنابراین روش ها و تکنیک هایی برای دستیابی کارا به داده، اشتراک داده، استخراج اطلاعات از داده و استفاده از این اطلاعات مورد نیاز می باشد.
مشکلات کاربران در استفاده از وب
یافتن اطلاعات مورد نیاز در وب دشوار می باشد و کاربران معمولاً از موتورهای جستجو که مهمترین و رایجترین ابزار برای یافتن اطلاعات در وب می باشند، استفاده میکنند. اما موتورهای جستجو دارای دو مشکل اصلی هستند.
- دقت موتورهای جستجو پایین است، چراکه این موتورها در پاسخ به یک پرس و جوی کاربر صدها یا هزاران سند را بازیابی می کنند.
- میزان فراخوان این موتورها کم می باشد، به آن معنی که قادر به بازیابی کلیه اسناد مرتبط با نیاز اطلاعاتی کاربر نیستند، چرا که حجم اسناد در وب بسیار زیاد است و موتورهای جستجو قادر به نگهداری اطلاعات کلیه اسناد وب در پایگاه داده های خود نمی باشند.
ایجاد دانش جدید با استفاده از اطلاعات موجود در وب
بتوان دادههای فراوان موجود در وب را به دانشی قابل استفاده تبدیل کرد، به طوری که یافتن اطلاعات مورد نیاز در آن به سادگی صورت بگیرد.
خصوصیسازی اطلاعات
برای این منظور با توجه به خواستهها و تمایلات کاربران متفاوت، نحوه ارائه اطلاعات به آنها باید سفارشی گردد. تکنیکهای وب کاوی قادر به حل این مشکلات می باشند.
وب کاوی (Web Mining)
وب کاوی، فرآیند کشف اطلاعات و دانش ناشناخته و مفید از دادههای وب می باشد. وب کاوی به کارگیری تکنیکهای دادهکاوی برای کشف و استخراج خودکار اطلاعات از اسناد و سرویسهای وب می باشد.
مراحل وب کاوی
1. پیدا کردن منبع
این مرحله شامل بازیابی اسناد وب مورد نظر می باشد. در مرحله اول دادهها از منابع موجود در وب مانند خبرنامههای الکترونیکی، گروههای خبری، اسناد HTML، پایگاه دادههای متنی و … بازیابی میشوند.
2. انتخاب اطلاعات و پیشپردازش
در این مرحله به صورت خودکار اطلاعات خاصی از اسناد بازیابی شده، انتخاب و پیشپردازش میشوند. این پیشپردازش می تواند کاهش کلمات به ریشه آنها، حذف کلمات زائد، پیدا کردن عبارات موجود در متن و تبدیل بازنمایی دادهها به قالب رابطهای یا منطق مرتبه اول باشد.
3. تعمیم
در این مرحله به صورت خودکار الگوهای عام در یک یا چندین سایت وب کشف میشود. در این مرحله از تکنیکهای دادهکاوی و یادگیری ماشین برای تعمیم استفاده میشود.
4. تحلیل
در این مرحله الگوهای به دست آمده در مرحله قبل اعتبارسنجی و تفسیر میشوند. کاربران نقش مهمی در فرآیند تحلیل ایفا میکنند.
وب کاوی و زمینههای تحقیقاتی مرتبط
وب کاوی با زمینههای مختلف تحقیقاتی علوم کامپیوتر همچون دادهکاوی، پایگاه داده، بازیابی اطلاعات، هوش مصنوعی، یادگیری ماشین، پردازش زبان طبیعی، استخراج اطلاعات، انبار دادهها، طراحی واسط کاربر و … در ارتباط تنگاتنگ است.
وب کاوی و دادهکاوی
وب کاوی و دادهکاوی ارتباط بسیار نزدیکی با یکدیگر دارند. دادهکاوی فرآیند ارائه پرسوجوها و استخراج الگوها و اطلاعات مفید و ناشناخته از دادههایی است که معمولاً در پایگاه دادهها ذخیره شده اند. بسیاری از تکنیکهای دادهکاوی قابل استفاده در وب کاوی هستند. حوزه وب کاوی وسیعتر از دادهکاوی است.
تفاوت وب کاوی و دادهکاوی
در وب دو نوع داده اصلی برای کاوش مورد استفاده قرار میگیرند. نوع اول، اطلاعات ساختاری وب است که منظور از آن پیوندهای بین صفحات وب می باشد. نوع دوم نیز، اطلاعات مربوط به نحوه استفاده کاربران از وب است. در واقع تحلیل رفتار کاربر در استفاده از وب، ترجیحات و علایق وی درباره نوع و قالب اطلاعات، بخش مهمی از وب کاوی است. در دادهکاوی این دو نوع از داده وجود ندارند. مورد دیگری که در وب کاوی مطرح است، حفظ حریم کاربران است. تکنیکهای دادهکاوی معمولاً در یک محیط بسته به کار میروند. تکنیکهای وب کاوی در محیط باز وب انجام میشوند. بنابراین باید تضمین شود که اطلاعات شخصی و خصوصی کاربران مورد سوءاستفاده قرار نمی گیرند.
وب کاوی و یادگیری ماشین
ارتباط نزدیکی بین یادگیری ماشین و وب کاوی وجود دارد. در واقع تکنیکهای یادگیری ماشین از وب کاوی پشتیبانی می کنند و قابل استفاده در فرآیندهای وب کاوی می باشند.
انواع وب کاوی
روشهای وب کاوی بر اساس نوع دادهای که کاوش میکنند، به سه دسته تقسیم میشوند:
- کاوش محتوای وب: فرآیند استخراج اطلاعات مفید از محتوای مستندات وب است. این محتوا می تواند شامل متن، تصویر، ویدئو، صدا و یا رکوردهای ساخت یافته مانند لیستها و جداول باشد.
- کاوش ساختار وب: وب را می توان به صورت گرافی که گرههای آن اسناد و یالهای آن پیوندهای بین اسناد است، بازنمایی کرد. کاوش ساختار وب، فرآیند استخراج اطلاعات ساختاری از وب می باشد.
- کاوش استفاده از وب: کاوش استفاده از وب، کاربرد تکنیک های داده کاوی برای کشف الگوهای استفاده از وب، به منظور درک و برآوردن بهتر نیازهای کاربران می باشد. این نوع از وب کاوی، داده های مربوط به استفاده کاربران از وب را مورد کاوش قرار می دهد.
فهرست مطالب
مقدمه
مشکلات کاربران در استفاده ازوب
Web Mining
مراحل وب کاوی
وب کاوی و زمینه های تحقیقاتی مرتبط
وب کاوی و داده کاوی
تفاوت وب کاوی و داده کاوی
وب کاوی و یادگیری ماشین
انواع وب کاوی
چالش های وب کاوی
انواع الگوریتم های وب کاوی
درخت تصمیم
شبکه عصبی
HITS
Page Rank
کاربردهای وب کاوی
Googleو وب و کاوی
Ebay و وب و کاوی
نتیجه گیری
فهرست منابع