Command
itemsimilarity
アイテムから類似アイテムを抽出します。
% hadoop fs -rmr inputdir
% hadoop fs -rmr outputdir
% hadoop fs -put /path/to/data/* inputdir/.
% mahout itemsimilarity --input inputdir --output outputdir --similarityClassname SIMILARITY_LOGLIKEHOOD --maxSimilaritiesPerItem 5 --booleanData true
以下の形式で入力データを準備します。
ユーザID,アイテムID[,評価値]
....
Job-Secific Options:
--input -i | HDFS入力ディレクトリ |
--output -o | HDFS出力ディレクトリ |
--similarityClassname -s |
類似判定の計算方法を指定。VectorSimilarityMeasures 参照
|
--maxSimilaritiesPerItem -m |
最大類似アイテム数。デフォルトは 100 |
--maxPrefsPerUser -mppu |
評価値の上限。同値に評価値が制限される。デフォルトは 1000 |
--minPrefsPerUser -mp |
評価値の下限。同値未満の評価値のデータは無視される。デフォルトは 1 |
--booleandData -b |
評価値を持たないデータの場合 |
org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob