پایان نامه درمورد 1,، امتیاز، میشود.

خاب میگردد.
4-4-1-2- پیش پردازش بر روی پایگاه داده EachMovie
برای هر فیلم موجود در پایگاه داده EachMovieتوسط زبان برنامه نویسی C#.net بر اساس لینک مربوط به آن یک درخواست به سرور IMDB فرستاده میشود. توسط این درخواست قالب HTML صفحه مربوط به آن فیلم در این سایت، در دسترس قرار میگیرد که میتوان اطلاعات مربوط به بازیگران و کارگردانان را که با TAG های مربوطه شناسایی میشوند، از آن استخراج نمود.
URLمربوط به تعدادی از فیلمها در این پایگاه داده معتبر نمیباشد. برای این دسته از فیلمها درخواست بر اساس نام و تاریخ انتشار آنها به فیلد جستجوی سایت IMDB ارسال میشود و در صورت عدم موفقیت در یافتن هر فیلم، اطلاعات مربوط به آن به صورت دستی از این سایت یا سایتWikiPedia استخراج میگردد.
4-4-2- وزندهی به اقلام
پس از جمع آوری اطلاعات مربوط به ژانرها، کارگردانان و بازیگران تمام فیلمهای موجود در پایگاه داده در مرحله قبل، اکنون نوبت به وزندهی آنها بر اساس روش محتوا محور میرسد. توجه شود اطلاعات مربوط به هر فیلم، نمایه آن فیلم را تشکیل میدهد. بنابراین وزن هر فیلم بر اساس میزان شباهت نمایه آن با نمایه فیلم هدف تعیین میگردد. این میزان شباهت توسط معیار کسینوس سنجیده میشود. این معیار در حالت کلی، دو بردار را به عنوان ورودی دریافت و میزان شباهت آنها را بر اساس زاویه بین آن دو اندازهگیری میکند. برای اندازهگیری میزان شباهت بین نمایه دو فیلم بر اساس این معیار، اطلاعات موجود در نمایه هر دو قلم باید در قالب بردارهایی با طول یکسان نشان داده شود. به این منظور برای هر ویژگی ژانر، کارگردان و بازیگر متعلق به نمایه هر کدام از دو فیلم مورد مقایسه، مولفهای در بردار در نظر گرفته میشود. سپس از مقادیر 0 و 1 برای مشخص کردن وجود و عدم وجود آن ویژگی در هر یک از فیلمها استفاده میگردد. فرض کنید Gi نشانگر ژانر i ام، Di نمایانگر کارگردانi ام و Ai مشخص کننده بازیگر i ام فیلم باشد. فیلم M و T را با مجموعه ویژگیهای زیر در نظر بگیرید:
M={G1, G2, D1, D2, A1, A2, A3}
T={G1, G2, G3, D3, A2, A3}
اجتماع مجموعه ویژگیهای این دو فیلم برابر است با:
M?T={G1, G2, G3, D1, D2, D3,A1, A2, A3}
بنابراین بردار ساخته شده برای هر فیلم به صورت زیر میباشد:
M=(1, 1, 0, 1, 1, 0, 1, 1, 1)
T=(1, 1, 1, 0, 0, 1, 0, 1, 1)
طبق آنچه که در مرحله پیش پردازش توضیح داده شد، تعداد بازیگران استخراج شده برای هر فیلم متفاوت میباشد. بنابراین در هنگام مقایسه هر فیلم با فیلم هدف، فقط بازیگران مشترک بین آنها در نظر گرفته میشود. بدین منظور در مثال بالا بازیگر A1 از بردار فیلمهای M و T حذف خواهد شد:
M?T={G1, G2, G3, D1, D2, D3, A2, A3}
M=(1, 1, 0, 1, 1, 0, 1, 1)
T=(1, 1, 1, 0, 0, 1, 1, 1)
اکنون که توانستیم نمایه هر فیلم را در قالب بردار نشان دهیم، از معیار کسینوس برای تعیین میزان شباهت دو بردارM و T به صورت زیر استفاده میکنیم:
w_(T,M)=cos??(?)?=?((T . M)/?T??M? )=?(( ?_(i=1)^n??T_i M_i ?)/(?(?(?_(i=1)^n??T_i?^2 )) ?(?(?_(i=1)^n??M_i?^2 )) )) (9)
M_i نشان دهنده مولفه i ام از بردار M وT_i نشان دهنده مولفه i ام از بردار T میباشد. توجه شود که حاصل این کسر عددی بین 0 و 1 است. عدد 1 به معنای تشابه کامل و عدد 0 به معنای عدم تشابه کامل است.
از آنجا که مولفههای دو بردار مورد مقایسه 0 و 1 میباشد، مقدار محاسبه شده در صورت کسر بالا، برابر با تعداد یکهای مشترک و به بیان دیگر برابر با تعداد ویژگیهای مشترک بین دو فیلم است. بنابراین برای اقلامی که هیچ ویژگی مشترکی با قلم هدف ندارند وزن صفر در نظر گرفته میشود. از سوی دیگر مبنای فیلترینگ اشتراکی محاسبه میزان شباهت بین کاربران میباشد که بعضی از این کاربران به تعداد محدودی از اقلام امتیاز دادهاند. بنابراین اقلامی وجود دارند که به اندازه کافی امتیازدهی نشدهاند. و این باعث مشکل پراکندن بودن ماتریس کابران- اقلام شده است. در این حالت اندازهگیری شباهت روی تعداد امتیازهای ابراز شده اندکی صورت میپذیرد که قابل اعتماد نمیباشد. حال با صفر در نظر گرفتن وزن اقلامی که ویژگی مشترک با قلم هدف ندارند، این مشکل تشدید میشود. برای جلوگیری از این مسئله، برای این اقلام وزنی کوچکتر از سایر اقلام در نظر گرفته شده است. بنابراین اعمال وزن به اقلام به صورت زیر انجام میشود:
w_(T,M)=?((1 + ?_(i=1)^n??T_i×M_i ?)/(?(?(?_(i=1)^n??T_i?^2 )) ×?(?(?_(i=1)^n??M_i?^2 )) )) if k?1 (10)
w_(T, M)=?(1/(?(?(?_(i=1)^n??T_i?^2 )) ×?(?(?_(i=1)^n???MV?_i?^2 )) )) otherwise
k مشخص کننده تعداد ویژگیهای مشترک بین دو قلم (تعداد یکهای مشترک بین دو بردار) است. MVنمایانگر فیلمی است که دارای بیشترین تعداد ویژگی (برداری با بیشترین تعداد یک) میباشد
4-4-3- انتخاب همسایگی
بر طبق آنچه توضیح داده شد، نتیجه حاصل شده از مرحله قبل، وزن مربوط به هر قلم بر اساس میزان شباهت آن با قلم هدف میباشد. برای پیشبینی یا ارائه پیشنهاد توسط روش فیلترینگ اشتراکی ابتدا میبایست شبیهترین کاربران به کاربر فعال را پیدا کرد و به عنوان مجموعه همسایگی او در نظر گرفت. کاربر فعال کاربری است که هدف پیشبینی امتیاز قلم هدف برای او میباشد. برای ایجاد مجموعه همسایگی، فقط کاربرانی که به قلم هدف رای دادهاند مورد بررسی قرار میگیرند. معیار همبستگی پیرسون پایه برای سنجیدن میزان وابستگی بین الگوی امتیازدهی کاربر فعال و سایر کاربران استفاده میگردد و به صورت زیر محاسبه میشود:
PC(a,u)=(?_i??(r_(a,i)-r ?_a).(r_(u,i)-r ?_u)?)/?(?_i???(r_(a,i)-r ?_a)?^2.?_i??(r_(u,i)-r ?_u)?^2 ?) (11)
r ?_a و r ?_u میانگین کل امتیازهایی هستند که به ترتیب کاربران aو uبه اقلام نسبت دادهاند. r_(a,i) و r_(u,i) امتیازهایی هستند که به ترتیب کاربران aو uبه قلم iام نسبت دادهاند.
در این مرحله، برای سنجیدن میزان وابستگی بین الگوی امتیازدهی کاربر فعال و سایر کاربران از معیار همبستگی پیرسون وزندار استفاده میشود. تنها تفاوت این معیار با معیار همبستگی پیرسون پایه این است که در زمان مقایسه نحوه امتیازدهی دو کاربر به هر قلم، وزن آن قلم نیز دخیل میشود. این وزن میزان اهمیت مشابه عمل کردن دو کاربر را در امتیازدهی به این قلم مشخص میکند. معیار همبستگی پیرسون وزندهی شده به صورت زیر میباشد:
WPC(a,u,j)=(?_i??(w_(j,i) (r_(a,i)-r ?_a)).(w_(j,i) (r_(u,i)-r ?_u)) ?)/?(?_i??(w_(j,i) (r_(a,i)-r ?_a))^2.?_i?(w_(j,i) (r_(u,i)-r ?_u))^2 ?) (12)
j نشان دهنده قلم هدف است که پیشبینی امتیاز آن مورد نظر میباشد. w_(j,i) نشان دهنده وزن قلم i ام و به عبارت دیگر میزان شباهت قلم i ام با قلم هدف است.
علاوه بر این، با ادغام یک وزن دهی مفید و کاهش دادن همبستگی بر اساس تعداد اقلامی که دو کاربر مشترکا به آنها امتیاز دادهاند، میتوان دقت پیشبینی را به شکل قابل توجهی افزایش داد.
با فرض اینکه x تعداد اقلامی است که کاربران a و u به طور مشترک به آنها رای دادهاند، در نهایت شباهت دو کاربر مذکور به صورت زیر به دست میآید:
sim(a,u)=WPC(a,u,j).CF (13)
CF=1 if x50
CF=?(x/50 Otherwise)
پس از اینکه شباهت تمامی کاربران با کاربر فعال سنجیده شد نوبت به انتخاب مجموعه همسایگی میرسد. برای این منظور کاربران بر اساس میزان شباهتشان به طور نزولی مرتب میشوند. سپس با انتخاب تعداد ثابتی از بهترین آنها، مجموعه همسایگی کاربر فعال تشکیل داده میشود.
همچنین میتوان برای انتخاب مجموعه همسایگی کاربر فعال از فرمول زیر استفاده نمود. به صورتی که مقدار w_(j,i) موجود در فرمول شماره 12 از فرمول شماره 9 به دست آمده و نهایتا TPC حاصل از این فرمول جایگزین WPC در فرمول شماره 13 میشود.
TPC=?.PC+?WPC (14)
که بهترین نتیجه با تنظیم ?=0.3 و ?=0.7 حاصل میشود.
4-4-4- پیش بینی
نتیجه به دست آمده از مرحله قبل مجموعه همسایگی کاربر فعال میباشد. در این مرحله با استفاده از امتیازهایی که توسط کاربران موجود در مجموعه همسایگی به قلم هدف تخصیص یافته، امتیاز مربوط به قلم هدف پیشبینی میشود. برای این منظور از فرمول شماره 15 که به طور معمول در فیلترینگ اشتراکی مبتنی بر کاربر به کار برده میشود[9] ، استفاده میگردد.
r ?_(a,t)=r ?_a+(?_(v?N_t(a) )??(r_(u,t)-r ?_u ).sim(A , U) ?)/(?_(v?N_t(a) )?sim(A , U) ) (15)
Nt(a)مجموعه همسایگی کاربر فعال میباشد. r ?_a و r ?_u میانگین کل امتیازهایی هستند که به ترتیب کاربران aو uبه اقلام نسبت دادهاند. r_(u,t) نمرهای است که کاربر u به قلم هدف اختصاص داده است.
فصل پنجم
آزمایشها و نتایج
5- آزمایشها و نتایج
5-1- پایگاه دادههای مورد استفاده
MovieLensو EachMovie دو پایگاه داده62 معروف و رایج هستند که هر دو مربوط به سایتهای پیشنهادگر فیلم میباشند .روش پیشنهادی روی هر دوی این پایگاه دادهها مورد آزمایش و بررسی قرار گرفته است.
5-2- نحوه اجرای روش پیشنهادی روی پایگاه داده MovieLens
MovieLens متشکل از 209,000,1 امتیاز میباشد که توسط 040,6 کاربر به 952,3 فیلم اختصاص یافته است. این پایگاه داده توسط پروژه پژوهشی GroupLens در دانشگاه Minnesota تهیه شده است.
برای آزمایش روش ارائه شده از روش اعتبار سنجی پنج قسمت برابر63 استفاده کردهایم. به این صورت که امتیازهای داده شده به هر فیلم را به 5 قسمت تقریبا مساوی تقسیم کرده سپس یک قسمت یعنی حدود %20 را برای تست64 و مابقی را برای آموزش65 جدا کردهایم. یعنی با استفاده از %80 امتیازها، %20 باقی مانده امتیازها را با این روش پیشبینی میکنیم. در کل مجموعه تست تقریبا شامل 710,192 امتیاز و مجموعه آموزش تقریبا شامل 499,807 امتیاز میباشد.
5-3- نحوه اجرای روش پیشنهادی روی پایگاه داده EachMovies
EeachMovie متشکل از 983,811,2 امتیاز میباشد این پایگاه داده شامل 916,72 کاربر میباشد که به 628,1 فیلم امتیاز دادهاند. برای آزمایش روش ارائه شده بر روی این پایگاه داده نیز از روش اعتبار سنجی پنج قسمت برابر استفاده کردهایم. در کل مجموعه تست تقریبا شامل 396,562 امتیاز و مجموعه آموزش تقریبا شامل 587,249,2 امتیاز میباشد.
5-4- معیارهای ارزیابی
معیارهای ارزیابی سیستمهای پیشنهادگر بر اساس وظیفهای که به عهده دارند انتخاب میشوند. در اینجا چون هدف ارزیابی توانایی سیستم پیشنهادگر در پیشبینی امتیاز اقلام دیده نشده میباشد، معیارهای زیر برای سنجش روش پیشنهادی به کار برده شدهاند.
5-4-1- میانگین خطای مطلق66 :
این معیار بر اساس دقت است و فاصله بین امتیازهای پیشبینی شده و امتیازهای واقعی را اندازه گیری

مطلب مرتبط :   پایان نامه درموردفیلترینگ، اشتراکی، پایگاه

دیدگاهتان را بنویسید