尚如相 shang@cags.cn.net (1998.8)
1.火成岩数据库的发展
火成岩数据库是随着火成岩岩石学研究中,对大量分析数据进行处理的需要而产生的。大量数据的存储、分类和检索,手工的方法显然是无能为力的。计算机技术的发展为这一工作提供了最好的手段。早在六十年代初期岩石学家就已开发了计算机数据库,用以存储新生代火山岩数据 [1]。到七十年代岩石学数据库有了较大的发展,推出了如Le Maitre 建立的名为CLAIR的数据库(1973)[2]、Mustschler 建立的名为PETROS的数据库(1976)[3]、Chayes建立的名为RKNFSYS的数据库(1976)[4] 等。火成岩的分类命名,尤其是对结构细小、以玻璃质为特征的火山岩的分类命名,利用大量的火山岩样品的氧化物分析数据进行统计分析显得尤为必要。这一时期的火成岩数据库,在火山岩分类命名中发挥了重要作用[5]。
我国第一个较大规模的岩石学数据库也是由于中国火山岩分类命名的需要,在七十年代末到八十年代初期开发的。由李兆鼐主持开发的这个数据库包含6000多个中国火山岩样品的岩石化学分析数据。利用这个数据库的数据和相应的FORTRAN 程序,经过计算机处理,产生了中国地质学会岩石专业委员会推荐的适用于中国的火山岩分类命名方案[6]。
早期的火成岩数据库都是为某一特定的研究目的建立的,其存储的内容以火成岩的主要氧化物分析数据为主;而且数据和数据处理程序都是利用穿孔卡片的方式实现的。这就使得火成岩数据库的完整性、数据的传播和扩大应用受到了很大限制。随着岩石学研究工作的深入发展,新一代的火成岩数据库的开发提上了议事日程。1974年F.Chayes 和 J.Brandle提出了新的火成岩数据库结构设计。数据库中除主要氧化物分析数据外,还包括了痕量元素、地质年代学数据,以及矿物组合和岩石学描述的内容[7]。
新一代全球火成岩数据库 (Igneous Database),简称IGBA,是在F.Chayes 主持的国际地质对比计划IGCP 163项目(1977-1984),以及J.Frizado 主持的IGCP 239项目(1985-1990)支持下创建和发展起来的。被命名为IGBADAT 的全球火成岩数据库第一版发布于1984年,1985年发布了第二版。第三版和第四版分别发布于1988年和1989年。此后,由国际地科联岩石学数据库分委会负责全球火成岩数据库的组织、计划、建立、更新和发布工作。新数据的采集和数据的录入则由各国地质学家以自愿参加的方式完成。最新的第五版IGBA 改正了以前版本中数据的错误,增加了大量的新数据,于1994年正式发布[8]。
中国火成岩数据库在八十年代中后期有了较大的发展。相继开发了四川省岩浆岩地质数据库(1987)[9];北京市岩浆岩地球化学数据库(1988)[10];河北省侵入岩地质数据库(1989);新疆基础地质数据库(1989)[11];中国火山岩数据库及应用程序(1989)[12]等。发展中的中国的火成岩数据库具有如下的特点:
九十年代,我国火成岩数据库工作者加强了与国际地科联岩石学数据库分委会的合作,李兆鼐和本文作者先后参加了分委会的工作。通过1996-1997年与国际地科联岩石学数据库分委会主席J.Brandle 之间的合作研究项目,建立了新的中国火成岩数据库系统,引进了全球火成岩数据库的全部数据,并补充了部分中国火成岩数据。1998-2000年在“九五”国家科技攻关计划《中国可持续发展信息共享示范》项目和科技部地球科学数据库系统-WDCD地质科学数据库项目的支持下,中国火成岩数据库数据量在2000年底可达3000个样品记录,并在Internet上为用户提供数据服务。
2.火成岩数据库的数据文件和数据结构 返回页首
全球火成岩数据库由两个文本文件组成,即名为IGBADAT 的数据文件和名为IGBAREF 的来源文献文件。两者以来源文献号相关联。
IGBADAT数据文件包含了从来源文献中采集的火成岩样品的地理位置和地质构造位置,主要氧化物和痕量元素分析数据及分析方法,地质年代和同位素年龄,岩石产状、结构构造、蚀变程度和蚀变类型,矿物组合和矿物结构特征等岩石描述信息,以及其它重要信息。这个文件划分为组,一个组可以表示一个地质单元或某一岩石类型。
IGBADAT为80个字符组成的顺序格式文件,又称卡片映象(card images)或物理记录,每个卡片映象的前六个字符是识别符,余下的74个字符是描述文本或数据。一部分描述文本使用代码表示,不用代码的描述文本采用英语字符或分析数据表示。每一组样品的描述和某一样品的地理位置、岩石名称和主要氧化物的数据在卡片映象中有固定位置和长度。其它数据则以固定的顺序输入,以特定的分隔符区分不同的数据项,其数据是可选的,长度是可变的,依照来源文献提供的信息的详尽情况而有所不同(参见附表)。这种文件格式节省了计算机的存储空间,但也使数据的检索和应用变得困难重重。尽管为用户提供了数据结构的详细描述和代码表文本文件,以及用于数据检索的FORTRAN 程序,对不懂计算机编程的用户,仍会感到不便。
IGBAREF来源文献文件也由长度为80个字符的卡片映象组成,以来源文献号开始,其后为来源文献的作者、文献题目、出版信息等全部内容。
鉴于全球火成岩数据库的文本文件格式不利于检索和应用,新的中国火成岩数据库系统在原有工作的基础上,采用关系型数据库Foxpro for Windows 对IGBA进行了彻底的改造。中国火成岩数据库系统由岩体(题目)、样品基本信息、氧化物、稀土元素、痕量元素、年代年龄、岩石描述、矿物特征、其他信息、数据说明和来源文献等11个数据表组成。各表间分别以岩体代号、样品系统号和来源文献号相关联。为了实现与全球火成岩数据库接轨和数据交换、共享,中国火成岩数据库包含了全球火成岩数据库的所有数据项。
在数据管理方面,新的数据库系统着重解决了方便用户使用和与全球火成岩数据库交换数据的问题。该系统具有如下特点:
3.火成岩数据库标准化 返回页首
作为一项国际性合作研究的成果,全球火成岩数据库的数据,是由世界各地的志愿者,从采用各种语言发表的文献中分别采集来的。数据结构的统一为数据采集、录入提供了必须遵守共同的标准。为了达到顺利地进行数据的交换和共享的目的,对数据本身也要求有一个统一的数据标准。数据的标准化是数据库建设的一项重要的基础工作。
数据的标准化一般包括两个方面的内容,一是名词术语的标准化,二是名词术语代码的标准化。首先,对同一事物要有统一的命名方案和描述的术语。例如对同一种岩石,有的用第一次发现的地名命名,有的按照岩石的矿物特征命名,有的按照岩石的结构构造特征命名,因而产生了一系列的同义词。此外,对同一名词翻译成各种语言时也可能产生不同的译名,这往往会在数据交换时造成混乱。其次,为了节省计算机的存储空间和便于计算机对数据的检索和处理,往往将名词术语编成代码,在计算机中进行存储,所以还存在着代码的标准化的问题。
全球火成岩数据库的创始人F.Chayes 和其后的火成岩数据库专家为火成岩数据库的标准化和代码化做了大量的工作[13][14][15]。1994国际地科联岩石学数据库分委会公布了最新的《IGBA卡片映象的语法、句法和词汇》[16]。对IGBA的数据文件和数据结构,以及使用的岩石名称,样品经纬度位置和精度,地层年代,主要氧化物分析数据完整程度,分析方法和手段,同位素年龄分析方法,喷发类型和产状,岩石结构构造,新鲜程度和蚀变类型,矿物名称和结构特征,附加信息代码,世界各国二级行政区划名称和来源文献中提供的数据的完整程度等名词和术语及其代码做了详细规定,并得到参与IGBA 建设的岩石学数据库专家的认可和使用,实际上已经成为全球火成岩数据库建设标准化的主要依据。
1988年我国公布了《地质矿产术语分类代码》国家标准(GB 9649-88)[17],其中包括了对岩石学的名词术语的统一命名,并给出了相应的代码。对比国内外的标准,两者有较大的差异。这不仅表现在两者使用的代码完全不同,而且在内容上也有详略和侧重方面的差别。为了与全球火成岩数据库接轨,中国火成岩数据库系统采用了IGBA 的国际标准。
4.火成岩数据库的现状 返回页首
IGBADAT 第五版包含了从1357个来源文献中收集的,分布于1066组中的19519个火成岩样品的信息数据(统计中除注明者外,未包括1995年以后新增数据,下同),数据量较第二版增加了近一倍。
4.1 数据的地理分布
IGBA 中对样品地理位置的描述以政区位置和经纬度位置两种方式表示。由于政区划分的不稳定性,且可能与地质界线不吻合,以政区位置确定样品位置不十分理想。遗憾的是,目前发表的大部分文献都没有给出样品的精确的经纬度位置,这给数据的应用和计算机的处理造成了一定的困难。IGBADAT 第五版中数据量超过500个样品的国家有12个,其中俄罗斯(4294)、美国(2035)、西班牙(1537)和中国(1409,包括1995年-1998新增的754个)等数据量最大。从样品在大陆和海洋的分布看,以亚洲最多(6007),其次为欧洲(3718)、美洲(3561)、太平洋(2564)和大西洋(2469)。
进入IGBA第五版的中国1409个火成岩样品分布于24个省、市、自治区和渤海及南海海域。中国东部的样品约占76%,西部约占24%。样品分布的经纬度范围为北纬15°-50°;东81°-130°(图1)。

图1 IGBA中国火成岩数据分布示意图
Fig.1 Sketch map showing IGBA data distributed in China
(图中黑色圆点表示火成岩样品数据点)
4.2 岩石名称
IGBA 对岩石名称的描述包括两种,即来源文献给出的岩石名称和按IGBA名词术语代码表示的岩石名称。IGBA名词术语代码表示的岩石名称有412种,含盖了国际地科联火成岩分类命名的大类和亚类。从岩石类型看,现有数据以玄武岩类最多(4443),与第二版比较,安山岩增加最多(从133个增加到目前的3165个),其次为花岗岩(1061)和英安岩(707)。中国数据以火山岩为,主约占81%;侵入岩中以花岗岩为主,约一半左右。
4.3 主要氧化物
IGBA数据库中有243个样品完全没有氧化物分析数据。只有3346个样品有完整的分析数据(包括挥发份,Fe2O3/FeO和H2O+/H2O-未分的样品)。此外,大约90%的样品氧化物总量在98%到102%之间,总量在99%到101%的样品数大于80%。
来自中国的样品全部都有氧化物分析数据,只是其中61个未给出完整分析结果;115个为重算成100%的数据;46个为两个以上样品的平均值。总量在99%到101%的样品数占82%,91%的样品氧化物总量在98%到102%之间。除214个注明采用X荧光光谱法外,大部分未说明分析方法。从SiO2 的含量看,目前采集的数据以基性岩为主(表1)。
表1 中国火成岩样品按SiO2含量分布
| SiO2含量范围(%) | <45 |
45-52 |
52-63 |
>63 |
| 样品数 | 217 | 640 | 271 | 281 |
4.4 痕量元素
IGBA有8793个样品(占45%)中至少有一种痕量元素数据。其中132个有30种以上痕量元素的分析数据。出现频率最高的元素(样品数2000个以上)顺序为Sr、Cr、Ni、Ba、Rb、Zr、V、Co、Cu、Y、La、Zn、Ce、Nb 。
中国火成岩样品中351个有稀土元素数据。579个有其它痕量元素数据(最多的有18种痕量元素)。出现频率最高的元素(样品数200个以上)顺序为Cr、Ni、Rb、Sr、Ba、Zr、Y、V、La、Ce、Nd、Sm、Yb、Eu、Lu、Tb、Th、Co、Sc 。
4.5 地质年代和同位素年龄
IGBA中73%的样品包括有地质年代数据,而只有7%样品包括有同位素年龄数据。中国火成岩样品中1142个有地质年代数据(占81%),286个样品包括有同位素年龄数据(占22.4%)。样品的地质年代分布如表2所示。
表2 火成岩样品地质年代分布
| 地质年代 | 全球火成岩样品数 | 中国火成岩样品数 |
| 新生代 | 10971 | 577 |
| 第四纪 | 5703 | 309 |
| 第三纪 | 4847 | 268 |
| 中生代 | 1662 | 399 |
| 古生代 | 1311 | 62 |
| 前寒武纪 | 1314 | 119 |
| 未给出地质年代 | 5330 | 106 |
4.6 岩石描述信息
IGBA 岩石学描述包括喷发类型和产状、岩石结构构造、蚀变程度和蚀变类型四组内容,每组可以有一个或多个描述信息,均以代码表示。在近20000个样品中只有约2%的样品未给出任何描述信息。但给出描述的样品中,大部分内容是“来源文献中未给出该类信息” 。岩石产状以火山灰流和熔岩为主,其次为侵入岩、岩脉和火山岩;岩石以斑状结构较多。
中国样品数据87%有岩石描述。其中1149个样品有产状信息;1003个样品有结构信息;544个样品有构造信息;736个样品有蚀变程度信息;689个样品有蚀变类型信息。由于多数文献中对岩石的描述是针对某一类岩石的综合性叙述而不是针对具体某个样品的,所以数据库中大多数样品注明“一般性的岩石学描述,不一定适合本样品” 。
4.7 矿物组合信息
IGBA矿物组合信息包括以代码形式表示的矿物名称和有关矿物的产状、习性和新矿物等数据。IGBA 中5179个样品的矿物列表是空的,只有60%以上的样品有矿物描述信息,另有2670个样品注明“来源文献中没有矿物信息” 。已给出的矿物列表中一般列出了3-7中矿物,最多的在20种以上,其中以长石类、辉石类和氧化物类矿物出现频率最高。矿物习性描述大部分为斑晶和基质,其次为次生矿物和副矿物。
有矿物组合描述信息的中国样品数约占75%,但其中552个样品注明“来源文献中没有矿物信息” 。半数以上样品至少有4种矿物的信息,689个样品注明“一般性的矿物描述,不一定适合本样品” ,另有少数样品(75个)给出了岩石中矿物的百分含量。
4.8 附加信息
附加信息放在IGBA样品列表的后面,用于存放IGBA代码或数据项中没有包括的数据或其它重要的信息。这类信息可以是自然语言、符号或IGBA代码。附加信息以双括号 “((”和双字符的“标签”开始,以反双括号 “))”结束。例如((XP CH01)),XP是样品二级政区位置的“标签” ,其后的“CH01”是中国安徽省的代码。IGBA规定采样政区位置是必备数据,其它附加信息是可选的。IGBA中出现频率最高的附加信息是XR(样品原编号,表号或页码)、XL(样品位置、野外关系),其次是未编码矿物、XM(矿物%含量)和XA(作者注释)等。
近60%的中国样品录入了附加信息。除样品原编号说明外,还包括了179个样品的同位素分析数据和133个样品的IGBA中未编码的主要元素分析数据(如F、Cl、SO2、灼失量等)。
4.8 来源文献
全球火成岩数据库希望采集以各种不同语言出版的文献中的数据。除广泛流传的,在任何一个主要的资料馆中均能找到的出版物之外,还希望从不是广为人知的论文或书籍中采集数据。此外,IGBA的另一个目的是保存老的文献中的数据。第五版IGBAREF的1357个来源文献中七十年代出版物为主,共有537个;其次为六十年代(304)和八十年代(196)。其中中文文献76个,分别包括在1978-1993年国内出版的13种地质学、岩石学、地球化学书刊或论文集中。
5.火成岩数据的获取 返回页首
IGBA是第一个用于共享的全球性岩石学数据库。IGBA数据的发布开始是以磁介质(磁盘、磁带)方式进行的,并收取少量的费用。IGBADAT第五版数据文件字节数为5.8Mb,其来源文献文件IGBAREF为235Kb。为了便于使用微机的用户获得数据库的数据,IGBADAT分成了23个小文件,每个文件的字节数小于300Kb。
进入九十年代以后,通信技术和网络技术迅速发展,并在世界范围内普及,IGBA随之进入了Internet网络环境,免费向用户提供数据服务。1995年用户可以通过计算机网络,以文件传输协议(FTP)方式免费下载IGBA的数据、来源文献、结构说明和有关的FORTRAN程序的文本文件[18]。1997年岩石学数据库分委会建立了自己的主页(http://www.ige.csic.es/sdbp.htm)* ,通过点击相应的超级连接点,除了可以下载IGBA的文本文件外,还可以下载ACCESS格式的数据文件或直接在网上进行数据查询。IGBA的发布进入了一个新的阶段。中国火成岩数据库在国家科技攻关“中国可持续发展信息共享示范”项目的支持下,经过进一步的改造,已经在Internet网上开始试运行(http://www.cags.cn.net/igba/ 或 http://www.wdcdgdc.org/gdcigba/)。
IGBA当前最主要的问题是数据量小,并且由于数据格式复杂,难于为广大地质工作者使用。中国火成岩数据库管理系统可以将IGBA的文本格式完整地转换成我国广大用户熟悉的DBF格式,为其应用提供了新的途径。无论IGBA还是中国火成岩数据库都是靠志愿者的支持来扩大数据量的,欢迎我国地质工作者与本文作者联系,加入到岩石学信息化的工作中来。
参考文献 返回页首
附表 返回页首
IGBA数据文件格式举例:组和该组中一个的样品描述信息
1.IGBA数据文本文件格式举例:
EAA 1VOLCANIC ROCKS AT XIALIAOHE RIFT IN CHINA
EAA 2 41N112ESHANG RUXIANG1100011001
EAAAMA 41200N112100EALKALI-OLIVINE BASALT XIALIAOHE RIFT
EAAAMB 1 4993 2381607 382 509 17 780 778 428 211 56 9999 410
EAAAMC1D,2B,4J,4K:LA=4056P8,1;CE=7661P8,1;ND=2753P8,1;SM=49P7,1;EU=194P8,1;
EAAAMDGD=547P8,1;DY=275P8,1;ER=196P8,1;YB=197P8,1;LU=67P8,1;V =217P6;CR=207P6;
EAAAMEMN=1278P6;CO=48P6;NI=139P6;CU=87P6:PALG,2;3770E4-KAR/WR,2:AY,EU:NL,RG,SA:
EAAAMF((XI 87Sr/86Sr=0.704059,143Nd/144Nd=0.512746))((XP CH19)):
2.字符位置及识别符含义:
字符1-6: 识别符。第1-3位“EAA”表示组的编码;第4-5位“AM”表示该组中样品的编号;
度的映象卡片序号
字符7-80:数据文本。
3. 文本内容和含义如下表所示:
| 第6位识别符 | 上例中的文本内容 | 文本含义 |
| 1 | VOLCANIC ROCKS AT XIALIAOHE RIFT IN CHINA | 本组样品的题目 |
| 2 | 41N112E SHANG RUXIANG 11000 11001 |
本组样品的经纬度度数 数据采集人 来源文献号1 来源文献号2 |
| A | 41200N 112100E ALKALI-OLIVINE BASALT XIALIAOHE RIFT |
样品十进制纬度x1000 样品十进制经度x1000 来源文献提供的岩石名称 地质构造位置 |
| B | 1 4993 2381607 382 509… 9999 410 |
数据来源于第一个文献 SiO2,TiO2,Al2O3,Fe2O3,FeO,MnO,MgO,CaO, Na2O,K2O,P2O5,CO2,H2O+,H2O-含量x100 来源文献提供的氧化物总量 IGBA岩石名称代码 |
| C,D | 1D,2B,4J,4K : LA=4056P8,1;CE=7661P8,1;… |
经纬度精度、分析方法、数据完整程度代码 字段分隔符号 稀土元素、痕量元素含量及来源文献序号 |
| E | MN=1278P6;… : PALG,2; 3770E4- KAR/WR,2 : AY,EU : NL,RG,SA : |
稀土元素、痕量元素含量 字段分隔符号 地质年代代码及来源文献序号 同位素年龄(Ma) 年龄测试方法,测试物质代码和文献序号 字段分隔符号 岩石描述代码 字段分隔符号 矿物组合代码 字段分隔符号 |
| F | ((XI
7Sr/86Sr=0.704059, 143Nd /144Nd =0.512746))((XP CH19)) : |
附加信息
字段分隔符号 |