وب کاوی
وب راهی بسیار مناسب، کم هزینه و عمومی برای انتشار، اخذ و در دسترس قرار دادن اطلاعات در اختیار عموم مردم است، و به یکی از متداولترین منابع ارتباطی و اطلاعاتی جهان تبدیل گردیده است. پتانسیل بالایی برای استخراج دانش و اطلاعات مفید از وب وجود دارد.
وب داری حجم زیادی از دادهها به اشکال زیر است:
- محتوا: دادههای واقعی در صفحات وب. به عبارت دیگر دادههایی که صفحات وب برای رساندن آنها به کاربران ایجاد شدهاند. محتوا معمولا ولی نه لزوما شامل متن و گرافیک است.
- ساختار: دادههایی که سازمان محتوا را توصیف میکنند. این دادهها دو نوع اند، اطلاعات ساختار درون صفحهای شامل چیدمان تگهای مختلف HTML و XML در درون یک صفحه. اطلاعات ساختار بین صفحات که توسط ابرپیوندها به یکدیگر متصل میشوند.
- دادههای استفاده : دادههایی که الگوی استفاده از صفحات وب را توصیف میکنند. مانند آدرس IP، مرجع صفحات و تاریخ و زمان دسترسی.
- نمایه کاربر: دادههایی که اطلاعات آماری درباره کاربران وبسایت فراهم میکنند، مانند اطلاعات ثبت شده در فرمها.
با توجه به رشد بسیار سریع و روزافزون وب، یافتن اطلاعات موردنیاز از میان این انبوه اطلاعات کار بسیار مشکلی است و ضرورت وجود تکنیکهایی برای بررسی و سازماندهی دادهها، به منظور اخذ نتیجه بهتر و بازدهی موثرتر را نمایان میسازد. وبکاوی دانشی است که از تکنیکهای دادهکاوی به منظور کشف و استخراج خودکار دانش از اسناد و سرویسهای وب استفاده می نماید. متدهای وبکاوی میتوانند برای یافتن منابع، انتخاب و پیشپردازش اطلاعات، استخراج و آنالیز الگوهای دسترسی به صفحات یا سایتها به کار گرفته شوند. میتوان وبکاوی را توسعه اکتشاف دانش بر روی دادههای تحت وب دانست.