پایان نامه درمورد فیلترینگ، اشتراکی، پایگاه

انجام میشود.
عکس العملی که کاربر در مقابل اقلام از خود نشان میدهد به دو صورت صریح و ضمنی میباشد. عکس العمل صریح به این صوت است که کاربر علاقه یا عدم علاقه خود نسبت به اقلام را توسط امتیازدهی یا توصیفی کوتاه نشان دهد. در عکس العمل ضمنی کاربر هیچ دخالتی ندارد و خود سیستم توسط کنترل و تحلیل رفتار و فعالیتهای کاربر، علائق او را استخراج میکند.
با توجه به اینکه سلیقه افراد در طول زمان تغییر میکند، نمایه ساخته شده از کابر نیز باید با توجه به این تغییرات به روز شود. برای این منظور ابراز علاقه و یا عدم علاقه کاربر به اقلامی که در لیست به او پیشنهاد شدهاند به عنوان باز خورد ذخیره و برای به روز کردن نمایه او استفاده میشود.
درست است که سایت پیشنهادگر آمازون بر اساس روش فیلترینگ اشتراکی است. ولی همانطور که در شکل شماره 12 قابل مشاهده است در این نمونه صفحه از سایت آمازون گزینهای به نام Youre Favoites وجود دارد که با استفاده از این گزینه قسمتی از نمایه کاربر میتواند بر اساس روش محتوا محور ساخته شود. همانگونه که در شکل شماره 13 قابل مشاهده است در این صفحه انواع کتابهایی که مطابق با علائق کاربر است نمایش داده شده است. انواعی که در این قسمت قابل مشاهده است یا به صورت ضمنی بر گرفته شده، مانند بررسی اقلامی که کاربر تا کنون خریداری کرده است، یا به صورت دستی توسط خود کاربر وارد شده است. این قسمت توسط کاربر قابل ویرایش و تطبیق پذیر با سلایق و علائق او میباشد.
شکل شماره 12 : نمونه صفحهای از سایت آمازون
شکل شماره 13 : استفاده از روش محتوا محور در سایت آمازون
3-2-3- جزء فیلترینگ (filtering component )
در این مرحله میزان شباهت پروفایل ساخته شده از کاربر با اطلاعات توصیفی سازماندهی شده اقلام مورد نظر سنجیده میشود. این کار میتواند توسط یکی از معیارهای اندازه گیری شباهت مانند معیار اندازه گیری کسینوس صورت گیرد. بر این اساس مشخص میشود که کدام یک از این اقلام مورد علاقه کاربر است. نتیجه حاصل شده از این مرحله یک لیست پیشنهادی از اقلام میباشد که بر اساس علائق کاربر مرتب شده است.
3-3- مزایای روش محتوا محور
متد محتوا محور در مقایسه با متد فیلترینگ اشتراکی دارای مزایایی به شرح زیر است:
3-3-1- استقلال کاربر
متد محتوا محور به امتیازهای کاربر فعال برای ساختن نمایه از او احتیاج دارد. در حالی که متد فیلترینگ اشتراکی به امتیازهای کاربران همسایه برای تشکیل مجموعه همسایگی کاربر فعال نیاز دارد.
3-3-2-شفافیت
به عنوان دلیل برای پیشنهاد یک قلم به کاربر در سیستمهای محتوا محور میتوان ویژگیهای آن قلم را ارائه داد. در حالی که متد فیلترینگ اشتراکی جعبه سیاه است و تنها دلیل برای پیشنهاد قلم به کاربر فعال این است که کاربرانی ناشناس که سلیقهشان مشابه با کاربر فعال بوده آن قلم را دوست داشتهاند.
3-3-3- قلم جدید
روش محتوا محور مشکل شروع سرد که در متد فیلترینگ اشتراکی موجود میباشد را ندارد. و میتواند قلمی را که تا کنون توسط هیچ کاربری امتیازدهی نشده است، به کاربر فعال پیشنهاد دهد.
3-4- معایب روش محتوا محور
متد محتوا محور دارای معایبی نیز میباشد که در ادامه شرح داده شدهاند:
3-4-1- کمبود محتوا
اگر اطلاعات توصیفی مربوط به اقلام کافی نباشد نمیتوان به درستی اقلام مورد علاقه کاربر را از اقلامی که به آنها علاقهای ندارد متمایز کرد. بنابراین نمیتوان توسط این متد پیشنهادات صحیح و مناسبی ارائه نمود
3-4-2- خصوصی سازی افزون
متد محتوا محور اقلامی که مطابق با نمایه ساخته شده از علاقهمندیهای کاربر است را به او پیشنهاد میدهد. اقلامی که پیشنهاد میشوند شبیه به اقلامی هستند که در گذشته کاربر به آنها امتیاز بالایی داده است. بنابراین در این سیستمها هیچ گاه تازگی وجود ندارد.
3-4-3- کاربر جدید
در متد محتوا محور کاربر باید به تعداد قابل ملاحظهای از اقلام امتیاز داده باشد تا نمایهای صحیح از علاقهمندیهای او ساخته شود. بنابراین پشنهاد ارائه شده به کاربر جدیدی که به تعداد کافی اقلام رای نداده است، قابل اطمینان نمیباشد.
فصل چهارم
روش پیشنهادی
4- روش پیشنهادی
4-1- پیشگفتار
مبنای کار این پایان نامه، روش فیلترینگ اشتراکی مبتنی بر کاربران میباشد. در این روش، روند کار به این صورت است که کاربران مشابه بر اساس نحوه امتیازدهیشان به اقلام شناسایی شده سپس امتیاز اقلامی که تا کنون دیده نشدهاند پیشبینی و در نهایت اقلامی که امتیاز بالا دارند به کاربر پیشنهاد میشود. در این روش، تمامی اقلام به طور یکسان در تعیین میزان شباهت بین کاربران تاثیر گذارند. ولی در واقعیت برای پیشبینی امتیاز قلم هدف، شباهت نحوه امتیازدهی کاربران به اقلام شبیه به قلم هدف، دارای اهمیت بیشتری نسبت به سایر اقلام میباشد. راهکارهای گوناگونی برای تعیین میزان تاثیر گذاری اقلام در فیلترینگ اشتراکی ارائه شده است که در ادامه به اختصار شرح داده شدهاند.
4-2- مروری بر کارهای انجام شده در این راستا
در [47] از معیار فرکانس معکوس سند54 که معیاری معروف در بازیابی اطلاعات میباشد، برای وزندهی به اقلام در سیستمهای فیلترینگ اشتراکی استفاده شده است. ایده اصلی این راهکار فرکانس معکوس کاربر نام دارد. یعنی اقلامی که در بین عموم کاربران دارای محبوبیت هستند نمیتوانند به درستی بیانگر علائق یک کاربر باشند. بنابراین باید به این اقلام وزن کمتری نسبت به سایر اقلام اختصاص داد.
در [48] نیز ایده مشابه با ایده قبل مطرح شده است. در این روش برای کاهش وزن اقلام محبوب از راهکار پراکندگی استفاده شده است. بدین صورت که به اقلامی که از لحاظ امتیاز، پراکندگی بیشتری دارند وزن بیشتر اختصاص مییابد.
در [49] راهکاری مبتنی بر تئوری اطلاعات ارائه شده است. در این راهکار با استفاده از معیار اطلاعات متقابل55 و آنتروپی56، میزان وابستگی بین قلم هدف و اقلام دیگر تعیین و بر این اساس به اقلام وزن تخصیص داده میشود.
در [50] یک روش وزندهی اتوماتیک ارائه شده است که از ایده مربوط به سیستمهای مبتنی بر مدل استفاده میکند. این روش توسط ماکزیمم کردن میانگین شباهت بین کاربران، به اقلام وزن میدهد. به گونهای که کاربر را به کسانی که با او سلیقه مشابه دارند شبیهتر و از کسانی که با او اختلاف سلیقه دارند متمایزتر میکند.
به دلیل متناقض بودن نتایج گزارش شده از انواع روشهای ارائه شده، در [51] مقایسهای بین انواع روشهای وزندهی به اقلام انجام شده است. همچنین سه روش برای فیلتر کردن اقلام بر اساس وزنهای تخصیص یافته به آنها معرفی شده است.
در [52]مشکل یکسان بودن وزن اقلام و پراکندگی سیستمهای فیلترینگ اشتراکی توسط شباهت محلی و سراسری کاربران حل شده است. بدین صورت که شباهت محلی بین کاربران با کاستن تاثیر اقلام محبوب در بین عموم محاسبه میشود. این کار با در نظر گرفتن امتیازهای هر قلم به عنوان یک متغیر تصادفی از توزیع لاپلاس انجام میشود.
در [53] راهکاری نوین برای وزندهی به اقلام و غلبه بر مشکل پراکندگی ارائه شده است. این راهکار بر اساس تجزیه و تحلیل معنایی نهفته57 و استفاده از روش تجزیه منحصر به فرد58 میباشد.
در [54] مشکل شروع سرد در خلال وزندهی به اقلام مورد بررسی قرار گرفته است. وزندهی به اقلام بر اساس کاهش تاثیر اقلام محبوب توسط دو روش فرکانس معکوس کاربر و وزندهی خطی انجام شده است.
4-3- مقدمهای بر روش پیشنهادی
اکثر روشهایی که تا کنون برای تخصیص وزن به اقلام ارائه شدهاند از اطلاعات آماری اقلام یعنی امتیازهای تخصیص داده شده به آنها استفاده کردهاند. در حالی که میتوان از محتوای مربوط به اقلام برای تعیین شباهت و وزندهی به آنها استفاده نمود. به دلیل اینکه پایگاه دادههای مورد استفاده در این پایان نامه MovieLens و EachMovie است و هر دو مربوط به فیلم میباشند، منظور از اقلام همان فیلمهای موجود در این پایگاه داده میباشد. در این پایان نامه به منظور استفاده از روش محتوا محور، ویژگی ژانرها، کارگردانان و بازیگران هر فیلم مورد بررسی قرار گرفته است. ژانر هر فیلم مشخص کننده دسته فیلم است. بعنوان مثال اگر ژانر فیلمی کمدی- درام باشد یعنی آن فیلم به دو دسته کمدی و درام تعلق دارد. در پایگاه دادههای مذکور، اطلاعات مربوط به ژانر هر فیلم موجود میباشد. بعنوان مثال در پایگاه داده MovieLens، 19 ژانر وجود دارد که هر فیلم حداقل 1 و حداکثر 3 ژانر دارد. علاوه بر ویژگی ژانر هر فیلم از دادههای دیگر نظیر ویژگیهای کارگردانان و بازیگران هر فیلم نیز استفاده شده است. این ویژگیها در پایگاه داده وجود ندارند و باید از پایگاه دادههای Linked Open Data(LOD)، نظیر DBpedia استخراج گردند. شایان ذکر است استفاده از دادههای تکمیلی به منظور وزندهی دقیقتر اقلام توسط روش محتوا محور و به دنبال آن بالا بردن دقت پیشبینی در سیستمهای فیلترینگ اشتراکی میباشد.
4-4- روش پیشنهادی
روش ارائه شده از 3 مرحله مجزا تشکیل شده است:
1- پیش پردازش
2- تخصیص وزن به اقلام بر اساس روش محتوا محور
3- استفاده از وزنهای تخصیص داده شده به اقلام در دو فاز انتخاب همسایگی و پیشبینی، در روش فیلترینگ اشتراکی
در ادامه شرح مراحل بالا به تفصیل توضیح داده شده است.
4-4-1- پیش پردازش
همانگونه که در قبل بیان شد برای استفاده از ویژگیهای بازیگران و کارگردانان مربوط به هر فیلم در روش محتوا محور ، نیازمند به استخراج آنها میباشیم. از آنجا که پایگاه دادههای مورد استفاده در این پایان نامه MovieLensو EachMovie میباشد، در ادامه نحوه استخراج اطلاعات مورد نیاز مربوط به فیلمهای موجود در هر یک از این دو پایگاه داده توضیح داده شده است.
4-4-1-1- پیش پردازش بر روی پایگاه داده MovieLens
DBPedia اطلاعات موجود در WikiPedia را به صورت سازماندهی شده استخراج کرده و در دسترس قرار داده است. به منظور استفاده از اطلاعات سازماندهی شده مربوط به فیلمها، یک درخواست براساس عنوان فیلم در زبان SPARQL طراحی و با استفاده از متد PostURL به سرور DBPedia59 ارسال میشود. نمونهای از درخواست طراحی شده در ادامه قابل مشاهده میباشد:
SELECT ?film_title ?star_name ?nameDirector {
{
SELECT DISTINCT ?movies ?film_title
WHERE {
?movies rdf:type
;
rdfs:label ?film_title.
}
}.
?movies dbpedia-owl:starring ?star;
dbpedia-owl:director ?director.
?director foaf:name ?nameDirector.
?star foaf:name ?star_name.
FILTER ( (str(?film_title) IN (“Film Name”))
&&(LANGMATCHES(LANG(?film_title),”en”)))
}
ORDER BY ?film_title
این سرور در جواب، اطلاعات مربوط به فیلم مورد نظر را در قالب XML ارسال میکند. این کار برای تمام فیلمهای موجود در پایگاه داده MovieLens انجام میشود. لازم به ذکر است که اطلاعات استخراج شده برای هر فیلم شامل نام همه کارگردانان و فقط نام بازیگران مهم آن میباشد. اطلاعات مربوط به فیلمهایی که در DBPedia موجود نمیباشد به صورت دستی از سایت WikiPedia60 و در صورت عدم وجود از سایتIMDB61 استخراج میشود. در مواردی که اطلاعات از سایت IMDB استخراج میشود، به طور ثابت نام مربوط به7 بازیگر برتر

مطلب مرتبط :   منبع تحقیق با موضوعتوسعه صادرات، بهره بردار، توسعه کشت

دیدگاهتان را بنویسید