پایان نامه درمورد فیلترینگ، اشتراکی، سیستم

کاربر فعال پیشنهاد میکند. کاربر لیست پیشنهاد شده از سوی سیستم را مشاهده کرده و فیلمهای مورد علاقهاش را انتخاب میکند (شکل شماره 4).
شکل شماره 2 : نمونه صفحهای از سایت Movielens [5]
شکل شماره 3: نمونه صفحه درخواست امتیازدهی Movielens از کاربر [5]
شکل شماره 4 : نمونه صفحه فیلمهای پیشنهادی از سوی Movielens به کاربر [5]
1-5- اهداف پایان نامه
روشهای محتوا محور و فیلترینگ اشتراکی از راهکارهای موفق در سیستمهای پیشنهادگر میباشند. روش محتوا محور بر اساس ویژگیهای اقلام تعریف میشود. این روش بررسی میکند که اقلام مورد علاقه کاربر دارای چه ویژگیهایی بودهاند، سپس اقلام دارای ویژگیهای مشابه را به او پیشنهاد میکند. روش فیلترینگ اشتراکی بر اساس تعیین اقلام مشابه یا کاربران مشابه کار میکند که به ترتیب فیلترینگ اشتراکی مبتنی بر اقلام و مبتنی بر کاربران نامیده میشود.
روش پایه فیلترینگ اشتراکی مبتنی بر کاربر، به منظور پیشبینی امتیاز قلم هدف، هیچ تمایزی بین اقلام قائل نمیشود. به عبارت دیگر امتیازهای تمامی اقلام به طور یکسان در انتخاب همسایگی (کاربران مشابه) و پیشبینی تاثیر میگذارند. در این پایان نامه یک سیستم پیشنهادگر فیلترینگ اشتراکی مبتنی بر کاربر، مجهز به مکانیزم تخصیص پویای وزن به اقلام، ارائه شده است. مبنای این مکانیزم، تخصیص وزن به اقلام بر اساس میزان شباهت آنها با قلم هدف میباشد. میزان شباهت اقلام توسط یک روش محتوا محور سنجیده میشود. از آنجا که پایگاه داده مورد استفاده در این پایان نامه مربوط به فیلم است، برای بالا بردن کارایی این روش علاوه بر استفاده از ویژگی ژانرها، از ویژگیهای دیگری از جمله کارگردانان و بازیگران به عنوان دادههای مکمل استفاده شده است.
1-6- ساختار پایان نامه
از آنجا که اساس روش پیشنهادی در این پایان نامه فیلترینگ اشتراکی میباشد در فصل دوم به تفصیل به شرح این روش و تاریخچهای از کارهای انجام شده در این زمینه پرداخته میشود.
پس از آن به دلیل استفاده از روش محتوا محور به جهت ارتقا روش فیلترینگ اشتراکی، مبانی این روش در فصل سوم توضیح داده میشود.
در فصل چهارم روش پیشنهادی که تلفیقی از روشهای فیلترینگ اشتراکی و محتوا محور میباشد و کارهای انجام شده در این زمینه ارائه میشود.
در فصل پنجم آزمایشهای انجام شده بر روش پیشنهادی و نتایج حاصل از این آزمایشها ارائه میگردد.
در فصل ششم به جمعبندی مطالب، نتیجهگیری و ارائه پیشنهادهایی برای آینده پرداخته میشود.
فصل دوم
روش فیلترینگ اشتراکی
2- روش فیلترینگ اشتراکی
2-1- پیشگفتار
این پایان نامه بر فیلترینگ اشتراکی که نوعی از سیستمهای پیشنهادگر میباشد متمرکز شده است. این نوع از سیستم های پیشنهادگر نقش قابل توجهی را در پیدا کردن سلیقه و علائق کاربر ایفا میکند. انگیزه پیدایش فیلترینگ اشتراکی از اینجا به وجود آمد که مردم معمولا بهترین پیشنهادات را از کسانی میگیرند که سلیقهشان مشابه با خودشان است. این متد، کاربران با سلیقه شبیه به هم را پیدا میکند و بر این اساس پیشنهادات را ارائه میدهد.
2-2- مروری بر کارهای انجام شده در این راستا
در [6] اولین سیستم پیشنهادگر رسمی که tapestry نامیده میشود ارائه شد. این یک سیستم برای مدیریت ایمیل بود و تصدیق کرد که یک لیست ایمیل ساده نمیتواند به تمام کاربرانی که علاقهمند به محتوای یک ایمیل هستند اطمینان دریافت آن را بدهد. بنابراین به کاربران اجازه شرح پیام ایمیلها را داد تا دیگران با ساختن پرسش بتوانند آنها را فیلتر کنند. اندکی بعد محققان دریافتند که این لیست ایمیل و فیلترینگ بر اساس محتوا در رابطه با نیازهای اطلاعاتی پیچیده کاربر کافی نیست. بنابراین، این عقیده مطرح شدکه سیستم با به کاربردن عامل انسان ارتقاء خواهد یافت. عبارت فیلترینگ اشتراکی به منظور توصیف اینکه چطور کاربران میتوانند با تولید کردن بازخورد به فیلترینگ پیام ها کمک کنند به کار برده شد. این بازخورد شامل ارسال، دریافت پیام و … میباشد.
در [7]تحقیق در مورد فیلترینگ اشتراکی با استفاده از الگوریتم مبتنی بر همسایگی برای اخبارUsenet انجام شده است. قابل ذکر است که Usenet نوعی شبکه اینترنتی میباشد. این کار توسط سیستمی که GroupLensنامیده میشود انجام پذیرفت[8] . GroupLens که سیستمی پیشنهادگر بر اساس کاربر است به منظور ارزیابی و پیشنهاد دادن اقلام به کاربر از امتیازهای 1 تا 5 که دیگر کاربران به این اقلام نسبت دادهاند استفاده میکند. اکنون MovieLens که یک سیستم پیشنهادگر فیلم است راهاندازی شده است. سیستم Grouplens از معیار همبستگی پیرسون27 برای نشان دادن میزان شباهت کاربران به یکدیگر استفاده میکند (فرمول شماره 1).
p_(a,i)=¯r_a+?((?_(u=1)^n??[?(r?_(u,i) ?-r ??_u)*w_(a,u)]?)/(?_(u=1)^n?w_(a,u) )) (1)
? p?_(a,i) نشانگر امتیاز پیشبینی شده برای قلم i ام میباشد. n تعداد همسایهها را نشان میدهد، ? r?_(u,i)امتیاز کاربر uبه قلم iام و r ?_aمیانگین امتیازهای کاربر فعال میباشد. w_(a,u) میزان شباهت بین کاربر فعال و همسایه u را نشان میدهد که به صورت همبستگی پیرسون در فرمول شماره 2 تعریف شده است.
w_(a,u)=(?_(i=1)^m?[(r_(a,i)-r ?_a )(r_(u,i)-r ?_u )] )/?(?_(i=1)^m???(r_(a,i)-r ?_a)?^2 ?_(i=1)^m??(r_(u,i)-r ?_u)?^2 ?) (2)
در سال 1996 تکنولوژی GroupLens تحت NetPerceptionبه صورت تجاری درآورده شد. یکی از اولین کاربران تجاری GroupLens سرویس الکترونیکی خرده فروشی آمازون بود که به عنوان فروشگاه کتاب برخط راه اندازی شد.
در [9]سیستم پیشنهادگر موزیک 28Ringoبراساس الگوریتم اصلی Grouplens توسعه یافت. Ringo اقلام را بر اساس امتیازهایی که کاربران مشابه به آنها داده بودند فیلتر میکرد. زمانی که کاربر در سیستم ثبت نام مینمود یک لیست از 125 موسیقیدان محبوب که به طور تصادفی انتخاب شده بودند را در اختیار او قرار میداد و از کاربر میخواست که به اعضای این لیست امتیازهای بین 1 تا 7 بدهد. سپس ازکاربر یک نمایه میساخت. Ringo میزان شباهتها را با استفاده از همبستگی پیرسون محدود شده محاسبه کرد و برای تولید پیشنهاد میانگین تمامی کاربران موجود در همسایگی را به کار برد و مدعی کارایی بهتر شد. همانطور که در فرمول شماره 3 نشان داده شده است عدد 4 به این دلیل انتخاب شده که حد وسط بازه امتیازهای 1 تا 7 است. Ringo عضویت در همسایگی را فقط با انتخاب همسایگانی که همبستگی آنها بیشتر از یک حد آستانه ثابت است محدود کرد. با بزرگتر شدن حد آستانه دقت بیشتر میشود ولی تعداد اقلامی که سیستم پیشنهادگر قادر به پیشبینیشان است کاهش مییابد.
w_(a,u)=(?_(i=1)^m??[(? r_(a,i)-4)(r_(u,i)-4)])/?(?_(i=1)^m??(r_(a,i)-4)^2 ?_(i=1)^m??(?r_(u,i)-4)?^2 ??) (3)
به تدریج این سیستم به صورت تجاری در آورده شد و در سال 1995 نام آن به Firefly تغییر یافت. این سیستم حاوی یک رابط به صورت صفحه وب و فروشگاه دیسک فشرده29 رویخط بود و همچنین قادر بود برای انواع فیلم پیشتهاد تولید کند. این سیستم گسترش وسیعی کرد تا جایی که درسال 1998 توسطMicrosoft پذیرفته شد و به
Microsoft Passport تغییر یافت.
در [10]سیستم پیشنهادگر ویدیو 30Bellcoreنیز بر اساس الگوریتم اصلی Grouplens توسعه یافت. سیستم پیشنهادگر ویدیو Bellcore از همبستگی پیرسون برای وزندهی تعدادی از همسایهها که به طور تصادفی انتخاب شده بودند استفاده نمود. سپس بهترین همسایگان را انتخاب و برای پیشبینی یک رگرسیون31 کامل چندگانه روی آنها اعمال کرد.
مهمترین اتفاق اخیر در رابطه با سیستمهای پیشنهادگر اعلام جایزهی Netflix در اواخر سال 2006 بوده است.Netflix انجمن کرایه DVDاز آمریکا، پایگاه دادهای از امتیازهایی که کاربران به فیلمها اختصاص دادهاند منتشر کرد که به روز بود و همچنان به عنوان بزرگترین مجموعه امتیازدهی کاربران باقی مانده است. آنها اجتماع وسیعی را برای بهترکردن پیشبینی سیستمشان به میزان حداقل 10% به رقابت طلبیدند و جایزه یک میلیون دلاری برای آن درنظر گرفتند. بیشتر از 20000 تیم درطی 3 سال به این موضوع پرداختند و طی این رقابت مسائلی ازقبیل فاکتورگیری ماتریس32، متدهای جمعی33 و دینامیکهای موقتی34 یاد گرفته شد[11] .
در [12] یک تحلیل تجربی روی الگوریتمهای فیلترینگ اشتراکی مبتنی بر همسایگی انجام شد. برای تعیین میزان شباهت معیارهای همبستگی پیرسون و کسینوس35 با هم مقایسه شدند و دریافته شد که همبستگی پیرسون بهتر کار میکند. اگرچه پس از آن در [12] اظهار شد که این دو معیار ممکن است یکسان عمل کنند.
در [13] راهکار امید بخش تشخیص هویت36 برای سیستمهای فیلترینگ اشتراکی ارائه شده که مدل Bayesian و روشهای مبتنی بر همسایگی را ترکیب میکند. خصوصیت خوبی که این راهکار دارد این است که یک توزیع احتمالی از امتیاز به جای مقدار واقعی امتیاز تولید میکند. این توزیع میتواند برای مشخص کردن میزان اعتماد به پیشبینی استفاده شود. همچنین ادعا شده است که این راهکار برای دادههای فیلم که شبیه به دادههایی است که ما در پژوهشها استفاده میکنیم در انتخاب نزدیکترین همسایهها دقیقتر از همبستگی عمل میکند.
در [14] روشی ارائه شده که با استفاده از آن میتوان پارامترهای مربوط به فیلترینگ اشتراکی را برای هر کاربر شخصیسازی کرد. از جمله این پارامترها تعداد افرادی میباشد که در گروه همسایگی هر کاربر شرکت میکنند. این کار توسط شبیهسازی تکراری مجموعه دادههای آموزشی و درستی سنجی برای هر کاربر بهطور جداگانه صورت میگیرد.
در [15] روشی برای حل مشکل پراکندگی امتیازها در ماتریس کاربران- اقلام ارائه شده است. این مشکل زمانی به وجود میآید که تعداد اقلام بدون امتیاز بسیار بیشتر از تعداد اقلام امتیازدهی شده باشد. در این روش ابتدا مدلهایی از فیلترینگ اشتراکی به کار برده میشوند تا امتیازهای اقلام بدون امتیاز پیشبینی شوند. سپس با استفاده از نتایج حاصل شده امتیاز قلم مورد نظر با اطمینان بیشتر تعیین میگردد.
در [16]راه حلی برای مشکل شروع سرد37 در سیستمهای فیلترینگ اشتراکی ارائه شده است. مشکل شروع سرد زمانی به وجود میآید که سیستم بخواهد برای کاربری جدید که تا کنون امتیازی به اقلام نداده و یا قلمی جدید که تا کنون امتیازی از کاربران دریافت نکرده پیشبینی نماید. این روش به جای استفاده از بردار امتیازدهی به تنهایی، از ترکیب خطی یا آبشاری بردارهای شخصیت و بردارهای امتیازدهی برای تعیین میزان شباهت کاربران به یکدیگر استفاده میکند. بردار شخصیت، برداری دو قطبی است که هر مولفه آن تعیین کننده یک خصوصیت از شخصیت کاربر مورد نظر میباشد.
در [17] راهکاری ارائه شده که توسط آن میتوان به گروهی از کاربران گروهی از اقلام را پیشنهاد کرد. در سیستمهای فیلترینگ اشتراکی معمولی اقلامی که برای پیشنهاد به هر کاربر میتوانند مناسب باشند به طور جداگانه مشخص و سپس از نتایج حاصل شده اشتراک گرفته میشود. در روش پیشنهاد شده از نزدیکترین همسایگان تمامی کاربران

مطلب مرتبط :   منبع تحقیق با موضوعمصرف کنندگان

دیدگاهتان را بنویسید