2007-05-03

开始习惯用google notebook做读书笔记

以前觉得google notebook没什么价值,那是因为没有用心去使用,
使用了一段时间才发现,这是管理个人笔记的最佳工具,
那些单机版的文献管理软件都不必要了,因为google notebook的功能太强大易用了。
其实,有了google notebook,我觉得google docs也不太有必要用了,
google的在线办公软件消耗的系统资源太多,打开速度比较慢。
看看我最近用google notebook学习《数据挖掘导论》做笔记的截图:
http://picasaweb.google.com/woodphone/070503forcode

070503
《数据挖掘导论》
(人民邮电出版社,Pang-Ning Tan /Michael Steinbach/Vipin Kumar著;范明、范宏建译)
P18
通常,标称和序数属性是二元的或离散的,而区间和比率属性是连续的。然而, 计数属性(count attribute)是离散的,也是比率属性。

P22
处理非记录数据
大部分数据挖掘算法都是为记录数据及其变体(如事务数据和数据矩阵)设计的。通过从数据对象中提取特征,并使用这些特征创建对应于每个对象的记录,面向记录的技术也可以用于非记录数据 。前面介绍的化学结构数据,给定一个常见的子结构集合,每个化合物都可以用一个具有二元属性的记录表示,这些二元属性指出化合物是否包含特定的子结构。这样的表示实际上是事物数据集,其中事务是化合物,而项是子结构。(forcode 感想,学习统计和数据分析技术,了解各种方法的前提假设和实际含义非常重要,这会使得数据分析过程中方法的选择更加灵活自由,可以通过对数据进行变换,达 到某种方法的要求,从而使用该种方法,无论是此处将非记录数据转化为记录数据的方法,还是回归分析中将定类变量转化为虚拟变量的方法都是如此。数据之间的 转换对于分析问题是一个值得注意的技巧。

在使用数据挖掘技术时,假定属性之间在统计上是相互独立的并不是一个好主意。

没有评论: