Monthly Archives: 十月 2012

Mysql数据库和表名大小写问题,如何设置

在 MySQL 中,数据库和表对应于那些目录下的目录和文件。因而,操作系统的敏感性决定数据库和表命名的大小写敏感。这就意味着数据库和表名在 Windows 中是大小写不敏感的,而在大多数类型的 Unix 系统中是大小写敏感的。一个特例是 Mac OS X,当缺省的 HFS+ 文件系统使用时。然而 Mac OS X 还支持 UFS 卷,那些在 Mac OS X 是大小写敏感的就如他们在任一 Unix 上一样。查看章节 1.8.3 MySQL 对 ANSI SQL92 的扩展。 注意:尽管在 Windows 中数据库与表名是忽略大小写的,你不应该在同一个查询中使用不同的大小写来引用一个给定的数据库和表。下面的查询将不能工作,因为它以 my_table 和 MY_TABLE 引用一个表: mysql> SELECT * FROM my_table WHERE MY_TABLE.col=1; 列名与列的别名在所有的情况下均是忽略大小写的。 表的别名是区分大小写的。下面的查询将不能工作,因为它用 a 和 A 引用别名: mysql> SELECT col_name FROM tbl_name… Read More »

OLAP/MOLAP/ROLAP/HOLAP/DOLAP

数据仓库中的Cube以不同的形式被存储着。以关系型来存储的叫做ROLAP(Relational Online Analytical Processing),而以多维来存储的叫MOLAP(Multidimensional Online Analytical processing mode is called MOLAP),两种方式结合的叫HOLAP(Hybrid Online Analytical Processing)。   MOLAP ── 这是OLAP分析的传统模式。在MOLAP中,数据以多维cube方式进行存储,而非存储于关系型数据库中。 优点是cube本身就是为了数据获取而建立的,它提供了完美的查询性能。所有的计算都是在cube建立的时候预先生成的。 缺点是它只能处理有限的数据。由于所有的计算项都预先建立好,cube无法从大规模数据中派生。 可通过在构建cube时,只包含汇总级别的数据,来绕过这一不足。这种形式也需要在cube技术上做额外的投资,而关于该项技术的知识也许是企业本身所不具备的。 ex:COGNOS; HYPERION; TM1   ROLAP ── 这种模式的底层数据被存储在关系型数据库中,通过某种方式来使得关系型数据库中的这些数据达到传统OLAP中切片、切块的功能。 优点是可以处理大规模数据,并且仰仗关系型数据库自身的全部功能。 缺点是相较于MOLAP,其性能较差,每个ROLAP报表都是SQL查询,受制于其类型和SQL有限的功能。ROLAP供应商试图通过创建额外的复杂功能、提供用户自定义功能以弥补这一缺憾。 ex:COGNOS REPORT NET; BUSINESS OBJECTS; MICROSTRATAGY; HYPERION   HOLAP ── 结合了以上二者的优势。对于汇总信息,HOLAP受益于Cube技术,而对于下钻功能则以ROLAP模型来实现。 ex:COGNOS DOLAP ── 基于桌面数据库的OLAP。(编者注:个人感觉很少见)  ex:COGNOS business object tools.   比较MOLAP, HOLAP 与 ROLAP    存储媒介影响了cube的处理时间、存储容量和浏览速度。一些影响MOLAP存储的因素是:… Read More »

数据挖掘十大经典算法

国际权威的学术组织the IEEE International Conference on Data Mining (ICDM) 2006年12月评选出了数据挖掘领域的十大经典算法:C4.5, k-Means, SVM, Apriori, EM, PageRank, AdaBoost, kNN, Naive Bayes, and CART. 不仅仅是选中的十大算法,其实参加评选的18种算法,实际上随便拿出一种来都可以称得上是经典算法,它们在数据挖掘领域都产生了极为深远的影响。   1. C4.5 C4.5算法是机器学习算法中的一种分类决策树算法,其核心算法是ID3算法. C4.5算法继承了ID3算法的优点,并在以下几方面对ID3算法进行了改进: 1) 用信息增益率来选择属性,克服了用信息增益选择属性时偏向选择取值多的属性的不足; 2) 在树构造过程中进行剪枝; 3) 能够完成对连续属性的离散化处理; 4) 能够对不完整数据进行处理。 C4.5算法有如下优点:产生的分类规则易于理解,准确率较高。其缺点是:在构造树的过程中,需要对数据集进行多次的顺序扫描和排序,因而导致算法的低效。   2. The k-means algorithm 即K-Means算法 k-means algorithm算法是一个聚类算法,把n的对象根据他们的属性分为k个分割,k < n。它与处理混合正态分布的最大期望算法很相似,因为他们都试图找到数据中自然聚类的中心。它假设对象属性来自于空间向量,并且目标是使各个群组内部的均方误差总和最小。   3. Support vector machines 支持向量机,英文为Support Vector Machine,简称SV机(论文中一般简称SVM)。它是一种監督式學習的方法,它广泛的应用于统计分类以及回归分析中。支持向量机将向量映射到一个更高维的空间里,在这个空间里建立有一个最大间隔超平面。在分开数据的超平面的两边建有两个互相平行的超平面。分隔超平面使两个平行超平面的距离最大化。假定平行超平面间的距离或差距越大,分类器的总误差越小。一个极好的指南是C.J.C Burges的《模式识别支持向量机指南》。van der… Read More »