第四典範:資料探索的科學研究 - tfri.gov.tw...

6
林業研究專訊 Vol.19 No.1 2012 15 第四典範:資料探索的科學研究 前言 印刷術是號稱對世界最有影響的中國三 大發明之一,所謂印刷術是多種印刷方式的總 稱,中國的印刷術約是在十字軍東征時才傳 入西方世界。它對於西方的影響莫過於造成 十四、十五世紀的文藝復興以及間接的影響了 十六世紀以後的科學研究。印刷術與科學研究 的聯結是因為研究資料可以透過印刷發表、流 通與留存,但印刷術發明後歷經2~3千年的發 展與演變才呈現出當今的面貌。1970年代個人 電腦出現迄今,也像印刷術的出現一樣,所謂 數位化的技術在過去幾十年裡已造成人類生活 深遠的影響,尤其影響了科學研究。 論及科學研究的發展,十九世紀時,科 學研究以機械式宇宙作為基本的哲學觀,這 個觀點讓科學家相信只要有一些數學公式, 就能描述現實世界所有的物理現象,並且能 預測未來會發生的事,這是所謂的經驗性科 學研究典範。然而從許多研究的結果發現, 實際觀測值與預測值一直難以得到一致假設 前提。到了十九世紀末,經驗性科學研究典 範被科學研究社群逐漸放棄,並開始建構新 典範來從事研究,這個新典範以現實世界的 統計模型作基礎進行理論推導與驗證。進入 二十世紀以後,幾乎所有的科學研究都已轉 成理論推導與驗證典範。二十世紀中葉後, 個人電腦誕生,數位化技術與工具打破了以 往科學研究發表、流通與留存模式,科學家 可以突破紙本能容納資料量與倉儲的限制, 數位化利基促成統計模型可以計算複雜性系 統的新典範,稱之為計算為基礎的科學研 究典範。此新典範雖然研究資料可以大量數 位化,但所使用的軟體工具差異很大,系統 間的互通困難。1980年代微軟的辦公室軟體 (Office)上市後,很多研究以表格型態(spread- sheet)記錄原始資料,此種記錄方式易學與易 操作,促成了某種程度的一致性,也解決了部 份系統間的互通困難,但辦公室軟體的表格型 態缺乏一個完整的資料結構與內容描述的管理 機制,使得研究資料的發表、流通與留存仍難 以趕上已數位化資料快速成長的速度。 除此,硬體容納量需求日益增加已非個 人電腦可以負擔,加上1990年代網際網路開 始蓬勃發展的衝擊,計算為基礎的科學研究 典範再次開始改變,所謂知識物件化(objectify knowledge) 與資料密集計算(data-intensive computing) 為基礎的資料探索新典範再次取 代計算為基礎的科學研究典範,這個新典範 被認為是科學研究的「第四典範」,也是當 今以網際網路為主流的知識爆炸世紀的新主 流。本文以生態研究為對象,探討當前資料 探索典範的最新發展與案例。 何謂資料 科學可視為根據可重覆研究方法所得 到的一個知識體系。從研究方法論來看,自 然科學有兩種不同的研究方法,一種是歸納 法,另一種是演繹法。歸納法強調搜集資 料,並將之組織與集成以得到對自然現象的 解釋或自然定律;演繹法則主張根據已有或 需搜集的資料建立模型,利用模型去預測自 ⊙林業試驗所森林保護組‧林朝欽 ([email protected])、陸聲山 ⊙中央研究院生物多樣性研究中心‧麥舘碩

Upload: others

Post on 25-May-2020

3 views

Category:

Documents


0 download

TRANSCRIPT

林業研究專訊 Vol.19 No.1 2012 15

專題論述

第四典範:資料探索的科學研究

前言

印刷術是號稱對世界最有影響的中國三

大發明之一,所謂印刷術是多種印刷方式的總

稱,中國的印刷術約是在十字軍東征時才傳

入西方世界。它對於西方的影響莫過於造成

十四、十五世紀的文藝復興以及間接的影響了

十六世紀以後的科學研究。印刷術與科學研究

的聯結是因為研究資料可以透過印刷發表、流

通與留存,但印刷術發明後歷經2~3千年的發

展與演變才呈現出當今的面貌。1970年代個人

電腦出現迄今,也像印刷術的出現一樣,所謂

數位化的技術在過去幾十年裡已造成人類生活

深遠的影響,尤其影響了科學研究。

論及科學研究的發展,十九世紀時,科

學研究以機械式宇宙作為基本的哲學觀,這

個觀點讓科學家相信只要有一些數學公式,

就能描述現實世界所有的物理現象,並且能

預測未來會發生的事,這是所謂的經驗性科

學研究典範。然而從許多研究的結果發現,

實際觀測值與預測值一直難以得到一致假設

前提。到了十九世紀末,經驗性科學研究典

範被科學研究社群逐漸放棄,並開始建構新

典範來從事研究,這個新典範以現實世界的

統計模型作基礎進行理論推導與驗證。進入

二十世紀以後,幾乎所有的科學研究都已轉

成理論推導與驗證典範。二十世紀中葉後,

個人電腦誕生,數位化技術與工具打破了以

往科學研究發表、流通與留存模式,科學家

可以突破紙本能容納資料量與倉儲的限制,

數位化利基促成統計模型可以計算複雜性系

統的新典範,稱之為計算為基礎的科學研

究典範。此新典範雖然研究資料可以大量數

位化,但所使用的軟體工具差異很大,系統

間的互通困難。1980年代微軟的辦公室軟體

(Office)上市後,很多研究以表格型態(spread-

sheet)記錄原始資料,此種記錄方式易學與易

操作,促成了某種程度的一致性,也解決了部

份系統間的互通困難,但辦公室軟體的表格型

態缺乏一個完整的資料結構與內容描述的管理

機制,使得研究資料的發表、流通與留存仍難

以趕上已數位化資料快速成長的速度。

除此,硬體容納量需求日益增加已非個

人電腦可以負擔,加上1990年代網際網路開

始蓬勃發展的衝擊,計算為基礎的科學研究

典範再次開始改變,所謂知識物件化(objectify

knowledge)與資料密集計算(data-intensive

computing)為基礎的資料探索新典範再次取

代計算為基礎的科學研究典範,這個新典範

被認為是科學研究的「第四典範」,也是當

今以網際網路為主流的知識爆炸世紀的新主

流。本文以生態研究為對象,探討當前資料

探索典範的最新發展與案例。

何謂資料

科學可視為根據可重覆研究方法所得

到的一個知識體系。從研究方法論來看,自

然科學有兩種不同的研究方法,一種是歸納

法,另一種是演繹法。歸納法強調搜集資

料,並將之組織與集成以得到對自然現象的

解釋或自然定律;演繹法則主張根據已有或

需搜集的資料建立模型,利用模型去預測自

⊙林業試驗所森林保護組‧林朝欽 ([email protected])、陸聲山 

⊙中央研究院生物多樣性研究中心‧麥舘碩

林業研究專訊 Vol.19 No.1 201216

專題論述

然現象,然後再經由對自然現象的客觀觀測

與預測結果進行比較。因此,不論何種研究

方法都離不開觀測與實驗,也離不開觀測與

實驗所得的資料。何謂資料?它在拉丁語源

中代表「被賦予的」(something given),常被

用來指稱對於某些變量的定性或定量的屬性

(attributes);另外資料也被認為是事實(fact)、

樣貌(feature)或想法(ideas)的一種表現形式,

是量測而來的結果;它可以是數字、文字、

或是影像等。資料也是被切割為片段的簡單

事實,本身不具意義,但當資料被置入特定

的脈絡中,經操作或闡釋後,顯現出規律性

以及意義,便成為資訊。由眾人客觀驗證後

的資訊則被視為知識。不過多數的情況是,

基於現有的知識與認知方式,人們在得到原

始資料前,便已將資訊置入資料結構中,而

後才藉由足以信賴的量測方法而得到資料,

進而反應出不同面向與程度的事實。因此,

資料才成為得以協助研究者驗證假說的元

素。我們可以說,資料成就了資訊以及知識

的成長,而來自不同面向的資訊與知識則進

一步回饋於資料的真實性以及價值上,為資

料開啟新的用途。

過去的科學研究中,尤其生態學研究,

已累積無數的資料,並以此科學資料作為自

然界客觀事物或顯現的表徵,從而成為生態

發現與理論的來源。在國際科學與技術資料

委員會(Committee on Data for Science and

Technology, CODATA)成立後研究資料如何管

理與使用已成為一門逐漸獨立的學科。

又根據國際科學與技術資料委員會的定

義:Data (中文翻譯有資料或數據,本文採用

資料)是經由一定程序所得到的事實內容。套

用在生態領域的研究,我們可以定義「生態

資料」是指經由生態學研究方法所搜集到的

所有原始事實內容。而蒐集事實內容過程所

記錄的方式,反映著研究人員對研究過程的重

視與態度,但整個研究過程的這些內容很少完

整地被記錄下來加以倉儲,大多數是存在研究

人員的腦袋中,隨著研究結束後,相關細節就

會逐漸地被遺忘,這樣除影響所蒐集資料的精

確度外,也降低了資料再利用的機會。

第四典範的基石:資料管理

資料管理的目的不外乎在於保存資料留

作研究結果的再驗證,或由新觀點產生新議題

的再利用、延伸舊有資料而觀察長期趨勢,以

及交互操作不同來源的資料以綜觀全局等等。

由於生態學的複雜性,生態資料尤其需要妥善

的管理。生態學最普遍的定義是研究生物與其

周圍環境(包括了生物與非生物)之間交互作用

的一門學問,而生態資料代表的即是為了辨認

這些交互作用的格局、驗證其機制以及預測其

變化而量測或收集得來的資料。

生態研究資料的複雜性不僅來自於生態

學異質而廣泛的主題,亦來自於生態過程在時

間與空間上的異質性,以及它們之間的交互作

用。舉例來說,入侵針葉樹林底層的外來種禾

草,在不同的尺度下可以是一個樹林底層物種

組成改變的問題、林火頻度改變的問題、進而

發展為冠層結構改變以致於影響生態系養分及

水循環體系的問題,最終可能造成改變了區域

性的氣候類型與人類的農牧業活動。在全球變

遷的影響下,人們想了解原因,或預測長期廣

域的氣候與短期局部天氣變化對人與環境造成

的影響與回饋,除了跨部門合作與長期動態

林業研究專訊 Vol.19 No.1 2012 17

專題論述

調查與監測之外,歷史資料中的記錄或是由個

人及較小團隊的研究成果亦可能扮演重要的角

色。基於上述需要,近年來生態學家對於資料

管理的重要性逐漸有了共識,不時與資訊學家

合作研究及發展管理生態資料的最佳解答,包

括資料描述、倉儲、分享、發現與存取以及整

合分析等的種種機制。

傳統上生態資料管理是針對野外觀察記

錄簿的保存與提供利用。但紙本難以長久保

存,亦不易查閱,遑論有效率地分析運算。

1970年代個人電腦出現後,數位化成了新的

野外調查記錄方式;另外伴隨個人電腦一起

發展的試算工具的普及,試算表檔案;直行

是變數,橫列是記錄(records),抑或反之,

成了研究資料記錄的普遍方式。這個方法直

覺而易學,大多試算工具也附加了簡單的統

計分析、作圖或資料探索工具滿足個人或小

型團隊作業對於快速歸納、摘要與回顧等需

求,生態資料管理逐漸改變成管理許多的數

位化表單。然而這樣的管理方式多以存在個

人電腦的檔案資料夾為主要的對象,也通常

欠缺調查方法、變數以及處理細節等資訊的

管理,因此造成資料壽命短暫。

另一種主流的生態資料管理形式是使用

關連式資料庫管理系統,這類系統藉由實作

「實體─關係」模型來描述資料以及資料之

間的關係,此種管理方式已可以打破個人管

理的缺點。但資料庫系統對欄位的資料格式

(format)或變數型別(type)上語意的描述不足,

限制了使用者理解資料的含意。資料庫系統

另外一個限制是被設計為計畫導向的資料倉

儲與管理工具,加上它們大多無法直接建立

跨系統或跨資料庫的關連性,因此對於主題

相關或相似但跨系統存在資料不一致、重複

記錄等問題,無法直接由資料庫系統的管理

方式解決,從而降低了交互操作不同計畫或

團隊間的資料分享的可行性。為了解決此一

困境,資訊工作者構思為生態原始資料加入

描述資料內容的元資料(metadata)(此英文字

的中文翻譯有元資料、後設資料、詮釋資料

等,本文使用元資料)。

元資料是什麼?可以用一個例子來說

明。假設一個物種調查計畫需要整合延伸過

往的歷史資料,在公用電腦中找出的其中一

個相關檔案名稱是030793.csv。030793若為

調查的時間,以美制表示可能是1993年3月7

日,以英制表示可能是1993年7月3日,但在

臺灣就分不清是民國93年或西元1993年。再

開啟檔案,發現資料表內有一欄變數名稱是

Area,深入查看該欄中的資料前,猜想它指

的可能是面積,但也可能是指調查的地區。

如果這個欄位的前五筆內容是2、2、3、1、

3,資料型別是整數,那它是面積的機會就高

了點,但仍無法排除它是以編號代稱樣區的

可能性。而即使所指是面積,我們還不知道

它用的量測單位,甚至根本沒有單位,因為

它可能只是倍數關係,甚至有可能是一個樣

區內數個樣點面積的平均值,只是剛好都是

整數。這樣的資料表,研究者不可能進行統

計,因為描述資料的內容不夠完整。除了找當

初的調查記錄的人員加以解釋外,不會有人能

確實知道,除非有額外的描述:譬如說欄位名

稱改為Area (hectare)或Area (serial_num),檔名

格式是MMDDYY;或是記載有調查記錄者的

姓名與有效的連絡方式;或是這些資訊通通寫

在結案報告中。無論哪一種情況,對於旁人理

林業研究專訊 Vol.19 No.1 201218

專題論述

解這一份資料才會有幫助,而描述這份資料的

資料就是所謂的元資料。

因此,元資料可被定義為:關於資料的

資訊(information about data)。是讓人理解與

資料相關的背景資訊,元資料除了可延長資

料的壽命,更能促成資料的分享與再利用。

生態原始資料加上元資料的管理方式,已達

到生態資料有效流通與保存效果,但仍無法

達成資料探索性的科學研究新典範。

具語意的資料管理

要能達成資料探索性的科學研究新典

範,得仰賴更為全面的資料語意、單一或更

容易對應的標準去解釋及描述資料。知識本

體論(ontology)是資料語意被應用的可用標

準,知識本體論的原始概念由希臘哲學家

亞里斯多德所提出,是一種關於「物質」

(substances)與「機遇」(accidents)的理論,

他以「類別」(category)的想法將「存在」

(being as being)描述為物

質與發生在物質上的機

遇;即是對存在事物特質

與關聯的客觀描述與推

論。知識本體論從哲學領

域來到資訊領域後被賦

予了新義,成為「具明

確規範的概念化事物」

(explicit specification of a

conceptualization),即為

對知識的描述與捕捉方

式;應用在資料管理上

也就是具有「語意」的

描述。資訊學上把本體

論的建立分為五個階段,包括了確認具體的

目標與範圍、對目標概念做模式化地描述、

轉為電腦可理解推論的形式、以程式實作,

以及更新維護;另外尚有三個與知識本體論

建立過程並行的動作,包括了不間斷地獲取

新知、評估以及記錄。這些讓電腦得以認知

事物的過程,最終目的是要藉著知識本體論

呈現的資料能夠便利地分享或由電腦自動操

作。就生態學研究領域,知識本體論被認為

能協助半自動或自動化的生態資料管理,進

而進行資料的整合與應用。

舉例來說,藉由知識本體論提供的語意,

電腦可以發揮比關鍵字比對更有效率的資料搜

尋,排除無關的,或是相關連只是用詞不同的

資料。例如在應用了植物相關的知識本體論資

料集當中(圖1),搜尋較精確的「樹幹(stem)」

一詞,除了直接相符的詞,亦可找到相關如

「分枝(branch)」或「主幹(trunk)」的資料;而

搜尋較籠統的「花」一詞則可找回描述與花的

圖1藉由知識本體論提供的語意,電腦可以發揮更有效率的資料搜尋,以一個林分為例,可以透過語意聯結各種調查資料集

林業研究專訊 Vol.19 No.1 2012 19

專題論述

任何部位相關的資料,亦

或是其他與分類相關的資

料。或是在應用了與量測

單位與維度相關的知識本

體論的資料集當中,若針

對密度做搜尋,能納入觀

察背景(context)中隱含的

語意,將同時具「面積」

以及「計數」語意欄位的

資料回傳。而藉由分析資

料的意義、類型、格式與

相容性等等,電腦得以自

動將資料轉換、擷取摘

要,或是將資料的欄位依

照其意義與種種相容性調

整後將之合併。

知識本體論雖有這樣的優點,但不同的

研究領域各自建立的專業知識本體論(domain

ontology)只能對該領域有所助益,要進行跨

領域研究時將又衍生出整合上的問題。如何

解決這樣的問題,生態學界提出以觀察與量

測做為基礎建立一個通用的框架(Ontology

of Ecology OBservation),簡稱為OBOE。在

OBOE的框架下,除了能以通用的模型描述

觀察與量測資料,同時藉由銜接上專業知識

本體論所描述的事物或關連以協助跨領域操

作,將資料互相組合為彼此的脈絡,讓電腦

藉由辨識出特定的格局來認知人們描述的事

物,來達到更準確的資料搜尋,或是半自動

或自動化的資料處理(圖2)。OBOE對大尺度

的生態研究與跨研究的資料分析,具有符合

第四典範所追求資料分享的理念,並使研究

者不必付出額外的討論時間及爭議。

第四典範的例子

本文要介紹的第四典範的科學研究第

一個例子,並非大型且複雜的生態學研究,

此例僅僅是一個集水區範圍的降雨量與逕流

(runoff)的簡單關係,但已充分顯示出以資料

探索的研究潛力。此例為以美國加州塞拉利

昂內華達(Sierra Nevada)地區的年蒸發量的

界定,此例顯示藉由不同研究團隊長期的歷

史資料,如何在資料探索的架構下,把數個

集水區的資料整合後界定出該地區的年蒸發

量,此推論模式並可提供作為探討氣候變遷

效應的參考值。這個例子其實是很簡單的科

學混搭(science mash-up)式的資料整合,它比

較了該地區數個集水區內長期、多資料來源

的降雨與逕流資料,資料源來自以往被認為

不相關的美國地質調查所、加州舒伯特大學

圖2以觀察與量測做為基礎的觀測本體OBOE可以把資料加上語意,以蓮花池森林動態樣區為例,調查資料所呈現的簡單語意(本圖修改自Jones 2007Data,Metadata,andOntologyinEcology)

林業研究專訊 Vol.19 No.1 201220

專題論述

(Schubert University)野外試驗站、國家氣象中

心及美國二氧化碳通量研究網等四個不同領

域,資料來源各自以具語意聯結的管理方式

發布,研究者以資料探索方式進行比較並估

測該地區的年蒸發量模式。此例在以往的研

究方式不容易輕易整合,但在語意導向的資

料管理架構下,其實是很容易作到的。

第四典範的科學研究的第二個例子是以

先進感測網(sensor network)為資料來源,進行

即時性環境監測與危險警示的例子。此例以

瑞士所進行的山谷積雪區域溫度監測,這類

環境監測在冬季積雪時格外重要,當積雪厚

度增加時,區內的溫度、濕度等氣象資料的

即時掌握分析,對於雪崩災害的警示是最佳

的工具,但這樣的研究必需借助於前端不同

的感測器組成,後端具有語意的資料管理架

構,才能透過資料探索的方式進行資料的整

合與分析。這個例子也顯示出密集性資料的

研究模式,因為使用了感測網,巨量而即時的

資料由感測器不斷的被蒐集進來,如果沒有完

善的資料管理方式,如此密集的資料無法有效

的被使用,當資料被使用及分析後,它們成為

日後仍有價值的歷史性資料,如何倉儲如此巨

量且不斷累積進來的資料,再再都顯示出語意

導向的資料管理方式的重要性。

第四典範的科學研究的第三個例子,

是美國長期生態研究網(US LTER)為了解美

國生態環境在多重因子影響下,大陸性與區

域性尺度變化的趨勢、如何解釋區域性的變

異、以及這些影響因子對未來所產生的結果

所進行的EcoTrend計畫,此計畫針對分布於

全美國的28個野外站、大尺度的國家氣候資

料中心、國家海洋與大氣觀測中心歷年所蒐

集的資料進行整合,他們以生態元資料語言

(Ecological Metadata Language, EML)作為資

料描述的共同標準,引用前述的OBOE語意聯

結分析,把不同來源的資料加以聯結後,彙

整成圖形化來解釋想探究的三個問題,此例

中海平面上升與海面溫度變化的全國性趨勢

均呈上升,但在此趨勢下的區域性的變異。

結語

科學研究的典範隨著技術與文化的變

化與演進,由經驗性典範進入了資料探索典

範,生態學也是科學研究的一個領域,是一

門重視整合與合作的科學。這個領域自上

個世紀由個人主導小尺度、短期的觀察與實

驗,快速地發展、成熟至今天大尺度、長期

且跨多個學門的計畫,也生產許多複雜的與

多樣的資料集。受到科學研究新典範的影

響,生態研究漸漸發展為以資料探索為不可

避免的樣式,這意味著生態學漸漸變為使用

資料密集且必需有良好的資料管理方式,雖

目前已發展了初步的語意網導向系統,但仍

需更進一步發展現整體性系統。