Command

itemsimilarity

アイテムから類似アイテムを抽出します。

% hadoop fs -rmr inputdir
% hadoop fs -rmr outputdir
% hadoop fs -put /path/to/data/* inputdir/.

% mahout itemsimilarity --input inputdir --output outputdir --similarityClassname SIMILARITY_LOGLIKEHOOD --maxSimilaritiesPerItem 5 --booleanData true

以下の形式で入力データを準備します。

ユーザID,アイテムID[,評価値]
....

Job-Secific Options:

--input -iHDFS入力ディレクトリ
--output -oHDFS出力ディレクトリ
--similarityClassname -s

類似判定の計算方法を指定。VectorSimilarityMeasures 参照

  • SIMILARITY_COOCCURRENCE
  • SIMILARITY_LOGLIKELIHOOD
  • SIMILARITY_TANIMOTO_COEFFICIENT
  • SIMILARITY_CITY_BLOCK
  • SIMILARITY_COSINE
  • SIMILARITY_PEARSON_CORRELATION
  • SIMILARITY_EUCLIDEAN_DISTANCE
--maxSimilaritiesPerItem -m 最大類似アイテム数。デフォルトは 100
--maxPrefsPerUser -mppu

評価値の上限。同値に評価値が制限される。デフォルトは 1000

--minPrefsPerUser -mp

評価値の下限。同値未満の評価値のデータは無視される。デフォルトは 1

--booleandData -b

評価値を持たないデータの場合 true を指定。デフォルトは false

org.apache.mahout.cf.taste.hadoop.similarity.item.ItemSimilarityJob