⑴ 数据仓库中的数据来源是什么
数据仓库中的数据来源于各业务应用系统。
业务系统中数据形态多样,包含关系数据库如Oracle、MySQL、SQL Server中的结构化数据,文本、CSV等平面文件及Word、Excel文档中的非结构化数据,以及HTML、XML等半结构化数据。这些业务数据通过数据抽取、转换、清洗,最终以统一格式装入数据仓库。
数据仓库内的数据作为分析资源,支持即席查询、分析统、数据集市、报表系统、数据挖掘系统等操作。从存储角度来看,数据仓库中数据实际上已存在于业务应用系统中。但为何不直接使用业务系统数据进行分析,而是使用数据仓库?这源于数据仓库技术出现前的失败案例,表明直接访问方式难以有效进行分析。
直接访问业务系统数据无法顺利运行的原因有以下几点:
1. 数据格式不统一。业务系统数据存储格式多样,直接访问会导致数据处理复杂,难以整合分析。
2. 数据质量参差不齐。业务系统中数据可能存在错误、遗漏等问题,直接访问可能影响分析结果准确性。
3. 数据更新频率不一致。业务系统更新频率不一,直接访问可能导致数据时效性问题,无法支持实时分析。
4. 数据安全与权限管理。数据仓库集中管理,提供更严格的安全控制与用户权限管理,保障数据分析的合法与安全。
综上所述,数据仓库通过统一数据格式、提高数据质量、确保数据时效性、强化安全控制等优势,为数据分析提供更高效、可靠的平台。直接访问业务系统数据虽有其便利性,但在处理复杂分析需求时,数据仓库更能满足要求。