经过将近一年的持续努力,国内证券行业数据容量最大、数据内容最完整的TB级数据仓库一期工程日前在上海证券交易所正式建成。上证所有关负责人指出,数据仓库一期的建成标志着上证所构建起了基本信息平台。
肩负责任使命推进信息建设
上证所的信息承载着交易所作为中国证券市场的核心运营机构所承担的责任与使命。上证所在10多年的运行中积累了大量的交易历史数据,这是一份极其重要的战略资源,客观地反映了中国证券市场10年的发展历程,昭示着其从无到有,从小到大的阶段。
交易及相关数据是交易系统数据管理的根本,是提高技术系统性能和安全性的一个重要方面,也是未来数据深度挖掘分析、信息经营的重要资源。上证所的信息化始于1996年,当时主要是为了满足内部办公室自动化的需要。到1997年底启用信息集成系统,使部门间可便捷沟通。随着国内经济快速发展,证券市场的交易规模和交易量都有很大的变化,对交易所提出更高的要求;同时国际交易所发展的新格局,促使上证所要发展和创新。原来的信息化集成已不能适应新的发展需要,上证所希望通过先进的技术来提高自身的自动化水平,解决技术风险,同时充分利用交易所的独有数据,发挥其潜在价值,促进市场发展及提高上证所非交易收入。
于是,在2000年底,上证所提出了建立交易相关数据备份管理系统的构想与需求,在此基础上,开始了一系列广泛深入的调查研究和相关准备工作。2001年信息化咨询项目完成之后,上证所确定了技术架构目标:新一代交易系统、新一代信息系统、新一代网站。而数据仓库项目即为新一代信息系统的核心所在。
遵循科学方法有效降低风险
值得一提的是,上证所数据仓库项目从论证、商务、实施、验收到上线,全部过程遵循严谨科学的管理方法。为了降低项目的实施风险,上证所在2002年初对建所以来的全部交易数据进行评估。经过评估,明确了历史数据的内容及分布情况,了解了数据的完整性和一致性状况,估算出了实际数据容量,从而制定历史数据倒出、整理、修复、加载的方案。同时也对整个项目的难度和工作量有了初步的了解,进而保证今后数据仓库项目的成功实施。
2002年中期,上证所开始进行技术选型,经过严格的性能测试和专家评审,最终采用了NCR的Teradata海量并行处理技术和先进的数据仓库实施方法论。性能测试可以看作是整个项目实施过程的预演(概念验证),本次测试数据量是国内同类测试中数据量最大的一次。通过这次测试,将来在系统建设、生产过程中可能遇到的问题(包括技术层面、实施过程)大部分得到了验证,降低了将来项目的实施风险。
交易历史数据存储项目于2002年10月正式进入项目实施阶段,上证所抽调精兵强将,组成项目组,制定了项目管理、文档规范、安全保密、变更控制、汇报制度等;专门设立项目管理委员会,所有重大事项均通过管理委员会进行决策。根据项目内容,划分了介质、数据分析、加载、应用等多条主线。全部实施过程经过了信息调查分析、业务需求分析、逻辑数据模型设计、体系结构设计、物理数据库设计、ETL设计开发、历史数据加载、备份、业务应用设计开发、系统测试、验收移交、用户培训及知识转移等各个环节。
由于前期做了充分的准备,采用科学的工作方法。在2003年初,上证所就建立了自动数据加载机制,并开始对2003年新产生的每日增量交易数据进行抽取、转换、加载;在6月份,大部分前端应用功能开始对用户开放使用,在此后的半年时间里,一方面不断清洗历史存量数据,另一方面根据用户的反馈,不断完善各种功能。2003年11月,开发工作全部完成,其后的测试、验收、全面试运行均取得了圆满成功。到目前为止,系统已经正式上线运行了3个月。
在项目论证过程中,数据主管部门敏感地意识到,单纯保存交易数据并不能充分发挥其巨大的价值。因此,在2003年10月份,他们召开了各方专家在内的专题会议,详细讨论了交易数据存储系统和全所数据仓库的关系。确定了交易数据存储系统在数据仓库架构中,主要负责源数据、ETL(抽取、转换、加载)、ODS(业务数据存储)环节,主要是发挥Teradata海量并行处理系统对关系型数据操作的性能优势;并将交易历史数据存储系统扩展为数据仓库一期项目[ChenQ1],使之成为覆盖全所各类业务数据的数据基础设置。
完成平台搭建提供信息服务
数据仓库一期建设最大的成果,就是完成了上证所基本信息平台的搭建。通过集中、统一的数据中心对所有结构化信息和非结构化信息的整合机制,最大程度地保证了上证所自建所以来所积累的全部历史信息,以及以后新增的所有有价值数据的完整性和可用性。
上证所选择的合作伙伴NCR公司,一直倡导以科学的数据模型为基础,进行数据的整合,建立企业级单一视图,为业务用户提供有效的、完整的信息服务。这一点和上证所数据仓库搭建的设想不谋而合。
在科学的逻辑数据模型基础上,上证所通过恢复历史备份的数千张光盘和磁带,完成了1990年以来13年交易历史数据的整合与存储;通过对多个交易相关业务子系统的处理,完成了交易相关上市公司、会员、基金、债券、指数、板块、统计数据等信息的整合;通过设计对非结构化数据的整合方案,完成了交易所7大业务部门长期积累的数百万页非结构化文档信息的存储;并且通过建立了数据自动加载机制,完成了对于以后日常业务增量信息的自动加载处理。由此成为中国证券业目前最为庞大和最为完整的数据仓库系统。
数据的价值只有通过信息服务才能体现出来。数据仓库一期系统采用了开放式的接口,通过各种固定报表、多维模型应用、即席查询应用的开发,已经全面地在为所内业务部门和所外证券业相关机构提供不同层次、不同类型的信息服务。对内改善了交易所信息分析、统计报告的工作流程,增强了对市场监管的力度;对外提高对整个证券市场的信息服务水平。
更多内容请看PCdog.com--数据仓库构建专题
