资 源 简 介
基于项目和用户的协同过滤。数据保存在ga.mat文件中,其中ga为struct结构,即ga.train为训练集,ga.test
为测试集,我这里用的是movielens 数据集,在下载这个数据集的网站上面,已经将数据集
分为了测试集和训练集,我用的就是他们网上的这个版本,只不过是将他们存在了一个ga.mat
数据集里。
我们知道不论是基于项目还是基于用户的协同过滤,都需要计算相互之间的距离,或者说是相似度,
然后这个计算时off-line的,这意味着我们需要事先计算好,然后保存在.mat文件中,以备测试时
使用。这几个矩阵也非常大,所以我没办法传到论坛上,但是大家可以自己用SimilitudItems.m这个
函数来计算。
实验所用数据为MovieLens – a web-based movies recommender system with 43,000 users & over 3500 movies. 保存在ga.mat文件用,由于ga.test测试集过于庞大,全部用来计算的话耗时庞大,所以每次计算时随机选择部分,具体函数的使用请参照probar.m。
<