پایان نامه درمورد میشود.، پیشنهاد، میزان

ندارند.
PC(u,v)=(?_j??(r_(u,j)-r ?_u ).(r_(v,j)-r ?_v)?)/?(?_j????(r?_(u,j)-r ?_u)?^2.?_j???(r?_(v,j)-r ?_v)?^2 ?) (4)
از فرمول فوق برای اندازهگیری میزان شباهت دو کاربر u و v استفاده میشود. r_(u,j) نشان دهنده امتیازی که کاربر u به قلم j ام اختصاص داده میباشد. r ?_u میانگین کل امتیازهایی که کاربر u به اقلام نسبت داده است میباشد.
فرمول زیر با کمی تغییر شباهت بین دو قلم i و j را اندازهگیری میکند.
PC(i,j)=(?_u??(r_(u,i)-r ?_i ).(r_(u,j)-r ?_j)?)/?(?_j????(r?_(u,i)-r ?_i)?^2.?_j???(r?_(u,j)-r ?_j)?^2 ?) (5)
2-7-2- معیار اندازهگیری کسینوس
معیار شباهت کسینوسی در حوزه بازیابی اطلاعات بسیار رایج است و برای اندازه گیری شباهت بین دو سند به کار میرود [37]. این معیار میزان شباهت دو کاربر (دو قلم) را با استفاده از کسینوس زاویه بین بردارهای امتیازدهی آنها مشخص میکند (فرمول شماره 6). نتیجه حاصل عددی بین 1- و 1 میباشد. هر چه عدد حاصل شده بزرگتر باشد یعنی دو موجودیت مورد مقایسه بیشتر به هم شبیه هستند و هر چه این عدد کوچکتر باشد یعنی دو موجودیت کمتر به هم شبیه هستند.
Cos?(U,V)=(?_(i?r_u?r_v)??r_(u,i) r_(v,j) ?)/?(?_(i?r_u)??r_(u,i)^2 ?_(i?r_v)?r_(v,j)^2 ?) (6)
اگرچه این معیار در حوزه بازیابی اطلاعات به خوبی کار میکند [37,38]اما برای محاسبه شباهت در فیلترینگ اشتراکی کاربر مبنا به خوبی معیار همبستگی پیرسون عمل نمیکند [12].
در این پایان نامه با کمی تغییر از معیار همبستگی پیرسون برای اندازه گیری میزان شباهتها استفاده شده که در فصل 4 به تفصیل توضیح داده شده است.
2-8- انتخاب همسایه
وقتی میزان شباهت تمام کاربران با کاربر فعال به دست آمد هم از نظر صحت و هم از نظر کارایی بهتر است زیر مجموعهای از شبیهترین آنها را انتخاب و با استفاده از آنها امتیاز قلم دیده نشده را پیشبینی کرد [18,34]. برای این کار دو راه استفاده از حد آستانه و انتخاب تعداد ثابتی از همسایگان وجود دارد.
2-8-1- استفاده از حد آستانه
در این روش یک حد آستانه تعیین میشود. کاربرانی که میزان شباهتشان بیشتر یا مساوی با این حد آستانه باشد به عنوان بهترین همسایهها انتخاب میشوند .[9]تعیین این حد آستانه مقداری مشکل میباشد چون در یک مسئله با توجه به کاربران فعال مختلف این حد آستانه باید مدام تغییر کند.
2-8-2- انتخاب تعداد ثابتی از همسایگان
در این روش کاربران با توجه به میزان شباهتشان به کاربر فعال مرتب شده سپسN تا از شبیهترین آنها به عنوان بهترین همسایهها انتخاب میشوند [7] در [16] بیان شده است که انتخاب تعداد ثابتی از همسایگان (معمولا بین 20 تا 60) نسبت به استفاده از حد آستانه منجر به نتیجه بهتری خواهد شد.
در این پایان نامه فقط از روش دوم یعنی انتخاب تعداد ثابتی از همسایگان استفاده شده است.
2-9- پیشبینی و تخمین رتبه
پس از انتخاب همسایهها نوبت به پیشبینی امتیاز قلم دیده نشده میرسد. روشهای متفاوتی برای تخمین رتبه وجود دارد که در اینجا به اختصار به بررسی دو مورد از آنها میپردازیم.
2-9-1- استفاده از امتیازهای خام
r ?_(a,t)=?((?_(v?N_(t(a)))??sim(A , V)r_(v,t) ?)/(?_(v?N_(t(a)))??sim(A , V)?))(7)
با استفاده از فرمول بالا میانگین وزن دارk تا از نزدیکترین همسایهها به کاربر فعال را به دست میآید. وزن هر همسایه معادل با میزان شباهت به دست آمده با استفاده از معیار همبستگی پیرسون میباشد. در نهایت نتیجه به دست آمده امتیاز پیشبینی شده میباشد.
2-9-2- استفاده از امتیازهای نرمال شده
r ?_(a,t)=r ?_a+(?_(v?N_(t(a)))??(r_(v,t)-r ?_v ).sim(A , V)?)/(?_(v?N_(t(a)))??sim(A , V)?) (8)
توسط فرمول بالا این مسئله در نظر گرفته میشود که کاربران مختلف ممکن است بازههای امتیازدهی متفاوتی برای نشان دادن یک درجه اهمیت داشته باشند. در فیلترینگ اشتراکی مبتنی بر کاربر به طور استاندارد از این فرمول برای پیشبینی استفاده میشود .[7]
2-10- مشکلات فیلترینگ اشتراکی
فیلترینگ اشتراکی علاوه بر کاربرد وسیع آن و مزایایی که از آن برخوردار است شامل معایبی نیز میباشد که در ادامه به توضیح تعدادی از آنها میپردازیم.
2-10-1- پراکنده بودن داده50
وقتی ماتریس کاربران – اقلام پراکنده و سایز آن بزرگ باشد این مشکل به وجود میآید. کاربرانی هستند که به همه اقلام امتیاز ندادهاند و تنها به تعداد کمی از آنها امتیاز دادهاند. بنابراین اقلامی وجود دارند که به اندازه کافی امتیازدهی نشدهاند. در این حالت اندازهگیری شباهت روی تعداد امتیازهای ابراز شده اندکی صورت میپذیرد که قابل اعتماد نمیباشد. یکی از مشکلاتی که به دلیل پراکنده بودن داده به وجود میآید شروع سرد است. یعنی برای کاربری که به تازگی وارد سیستم شده و به اندازه کافی امتیازی به اقلام نداده است نمیتوان پیشنهاد قابل اعتمادی ارائه کرد. همچنین قلم جدیدی که وارد سیستم میشود نیز همین مشکل را دارد. اقلامی که به اندازه کافی امتیاز دریافت نکردهاند برای پیشنهاد قابل اعتماد نمیباشند. به عنوان مثال Movielens برای اجتناب از بروز چنین مشکلی برای کاربران جدید شرط امتیاز دهی به حداقل 15 قلم را در نظر گرفته است.
پژوهشهای زیادی برای رفع این مشکل انجام شده است. که بسیاری از آنها از روشهای موجود در مدل محتوا محور برای پر کردن خانههای بدون رتبه ماتریس امتیازدهی استفاده میکنند .[39,40,41,42,43]
2-10-2- مقیاس پذیری51
با زیاد شدن تعداد کاربران و اقلام منابع محاسباتی برای برطرف کردن درخواستهای جدید با کمبود مواجه میشود.
2-10-3- اقلام مشابه52
بعضی اقلام شبیه به هم هستند ولی به دلیل تفاوت در نامشان سیستم پیشنهادگر یکسان بودن آنها را نمیتواند تشخیص دهد. بنابراین با آنها به طور متفاوت برخورد میکند.
2-10-4- گری شیپ53
کاربرانی هستند که سلیقهشان موافق یا مخالف با هیچ گروه از کاربران نمیباشد. بنابراین سیستم پیشنهادگر فیلترینگ اشتراکی نمیتواند هیچ منفعتی به آنها برساند.
2-11- بررسی چگونگی کارکرد و تولید پیشنهاد سایت آمازون
سایت آمازون یکی از معروفترین سایتهای تجارت الکتونیک میباشد که در سال 1995 فعالیت خود را با فروش بر خط کتاب شروع کرد و اکنون در آن محصولاتی مانند ساعت، کتاب، سی دی، تلویزیون و… به فروش میرسد.
آمازون از متد فیلترینگ اشتراکی استفاده میکند و پیشنهادات را بر اساس اقلام تولید میکند. زیرا تعداد اقلام از تعداد کاربران به نسبت کمتر است. روند کار آمازون به این صورت است که لیست اقلام دیده شده توسط هر کاربر در یک ماتریس ذخیره میشود. سپس با استفاده از معیار شباهت کسینوس میزان شبیه بودن بردارهای اقلام در این ماتریس محاسبه میگردد. بعد از آن شبیهترین اقلام به اقلامی که کاربر تا کنون دیده است به او پیشنهاد میشود. نسخه سادهای از چگونگی تولید پیشنهاد در (شکل شماره 8) قابل مشاهده میباشد.
شکل شماره 8: روند تولید پیشنهاد در آمازون [44]
همانطور که مشاهده میکنید کاربر 3 اخیرا به سیستم وارد شده و قلمA را مشاهده کرده است. سیستم میزان شباهت بردار قلم َA را با سایر اقلام BوC و D با استفاده از معیار کسینوس به دست میآورد و شبیهترین اقلام که در اینجا B و C میباشند را به او پیشنهاد میکند.
در (شکل شماره 9) صفحهای از سایت آمازون قابل مشاهده است. در این صفحه کاربر میتواند با کلیک روی لینک Your Recommendation وارد صفحهای شود که میتواند پیشنهاداتی که به او ارائه میشود را توسط موضوع و خط تولید مورد دلخواهش فیلتر کند. همچنین میتواند محصولاتی که قبلا خریداری نموده یا به او پیشنهاد شده است را امتیازدهی کند[45] .
شکل شماره 9 : نمونه صفحهای از سایت آمازون[45]
(شکل شماره 10) ارائه پیشنهاد بر اساس کارت خرید مشتری را نشان میدهد. یعنی بر اساس محصولاتی که تا کنون خریداری نموده است برای او پیشنهاد تولید میشود [45].
شکل شماره 10: ارائه پیشنهاد بر اساس کارت خرید مشتری [45]
فصل سوم
روش محتوا محور
3- روش محتوا محور
3-1-پیشگفتار
در این پایان نامه از روش محتوا محور جهت ارتقاء روش فیلترینگ اشتراکی استفاده شده است. روش محتوا محور بر اساس ویژگیهای اقلام تعریف میشود. این روش بررسی میکند که اقلام مورد علاقه کاربر دارای چه خصوصیاتی بودهاند، سپس اقلام دارای خصوصیات مشابه را به او پیشنهاد میکند. محتوای اقلام بر حسب نوع آنها میتواند متفاوت باشد. مثلا ژانر فیلم، نوع کتاب و مختصات جغرافیایی رستوران را به ترتیب به عنوان محتوای اقلام فیلم، کتاب یا رستوران در نظر گرفت. به عنوان مثال اگر اکثر فیلمهایی که کاربر دیده است متعلق به ژانر مستند باشند بدین معناست که او به این گونه فیلمها علاقهمند است.
سیستمهای محتوا محور نیاز به تکنیکی جهت نمایش خصوصیات اقلام، ایجاد نمایه از کاربر بر اساس علاقهمندیهایش و یک استراتژی جهت مقایسه نمایه کاربر با خصوصیات اقلام میباشد.
3-2- روند کار روش محتوا محور
روند کار سیستمهای محتوا محور به این صورت است که ابتدا براساس نحوه امتیازدهی کاربر به اقلام مختلف، نمایهای از علائق او ساخته میشود. سپس بر اساس میزان تطابق خصوصیات اقلام با نمایه ساخته شده از کاربر، پیشنهادها به کاربر ارائه میشود.
ساختار سیستمهای پیشنهادگر محتوا محور در شکل زیر نشان داده شده است.
شکل شماره 11: روند کار روش محتوا محور [24]
همانگونه که در شکل بالا قابل مشاهده است روند کار در متد محتوا محور متشکل از سه مرحله به شرح زیر می باشد [24]:
3-2-1- تحلیلگر محتوا (Content Analyzer)
در این مرحله محتوای اقلام نشان داده میشود. بدین منظور معمولا از تکنیکهای بازیابی اطلاعات استفاده میشود. اطلاعات توصیفی سازماندهی نشده مربوط به اقلام از قسمت منبع اطلاعات (Information Source) استخراج شده و در این مرحله سازماندهی میشود. یعنی هر قلم توسط اطلاعات سازماندهی شده نمایش داده میشود. مثلا اگر سیستم پیشنهادگر مربوط به فیلم باشد هر فیلم میتواند توسط ویژگیهای مربوط به بازیگران، کارگردانان و…. نمایش داده شود. یا اگر سیستم پیشنهادگر مربوط به صفحه وب باشد هر صفحه وب میتواند توسط برداری از کلمات کلیدی نمایش داده شود. به این صورت که ریشه کلمات به عنوان خصوصیات و مقدار tf/idf مربوط به هر ریشه به عنوان مقدار آن در نظر گرفته شود.
نتیجه حاصل شده از این مرحله در قسمت اقلام نمایش داده شده
(Represented Items) ذخیره میشود.
3-2-2- یاد گیرنده نمایه (Profile Learner)
در این مرحله بر اساس عکس العملی که کاربر در برابر اقلام مختلف نشان داده و در قسمت بازخورد (Feedback) ذخیره شده است، نمایهای از علائق او ساخته میشود. این کار معمولا توسط تکنیکهای موجود در حوزه یادگیری ماشین

مطلب مرتبط :   منابع و ماخذ پایان نامهغشاءهای، غشاءها، فلزی

دیدگاهتان را بنویسید