/ Allen's blog / 集体智慧编程

集体智慧编程

2016-12-23 posted in [读书:编程]

作者:TOBY SEGARAN

reddit.com让用户对其他web站点的链接进行投票,以此获得用户的喜好。

协作型过滤:

  1. 搜集偏好。不同用户对各种实体的偏好数字化。
  2. 寻找相同偏好的方法:
    • 欧几里得距离,多维度评估方法: 1. 每个维度的差值 2. 求平方 3. 相加 4. 求平方根 5. 加1. 6. 取倒数。
    • 皮尔逊相关度评价 @todo
  3. 基于用户 vs 基于物品

数据聚类:

数据聚类,是一种用以寻找紧密相关的人、事或者观点,并将其可视化的方法。

监督学习 & 无监督学习

为聚类算法准备数据的做法:

针对偏好的聚类:

搜索引擎

优化 - 寻找最优方案

什么问题适合使用优化算法?

问题本身有一个定义好的成本函数,并且相似的解可能产生相似的效果。

文档过滤

朴素贝叶斯分类器

费舍尔方法

决策树建模

Tips : 将一个复杂数据集仍给一个算法,然后寄希望于它能够学会如何进行精确分类,这几乎是不可能的。 要想达到目的:

  1. 选择正确的算法。
  2. 进行必要的预处理。