以XML建置詩的內容標誌在詩學研究上的發展性與侷限性
----以蘇軾前期詩為例


羅鳳珠•元智大學中語系

共同作者
*張如瑩、**胡筱珮、**江珮芝、**林小婷•元智大學資管*所**系
(XML、XTM建置)
翁維瓏•中央研究院電算中心(協助地理資訊製作)


摘要

詩的內容包含人事時地物,詩學研究必須從整體的詩作內容探討,本是無庸置疑的議題,然而詩作內容所述及的人事時地物之間的交互影響,以及與外在人事時地物的互動所產生的影響,也是研究詩學時不可忽略的因素。

傳統的詩學研究,在研究結果的立論上,往往因為研究範圍資料龐大,而只能以印象的、概括的方式推論結果,難以提出具體的、量化的數據做為立論的證據。以電腦作為文學研究的輔助工具,正好可以藉助電腦強大的搜尋、分析、歸納能力,協助難以單憑人力完成的工作。

電腦只能辨認字形,無法辨認字義,使電腦應用在文學研究時受到很大的限制,文章內容標誌(Content Markup)的工作,正是使電腦從辨認字形提升到辨認字義的方式之一。

本研究將以蘇軾二十四歲離開眉山入京師之〈郭綸〉詩起,至四十四歲離京赴黃州貶所〈十二月二十八日,蒙恩責授檢校水部員外郎黃州團練副使,復用韻二首〉詩止,共計1007首詩為範圍,就其詩題進行內容標誌,探討內容標誌在詩學研究上的發展性與侷限性。

詩的內容標誌包括作者、作品繫年、寫作地點、詩體、題裁、詩題、詩序、詩句等項目,本研究僅就詩題內容進行標誌,探討以XML標誌詩的內容的發展性與侷限性。詩句的內容因為涉及異體字詞、同義詞、近義詞、典故、句法、詞性等因素,需要有其他資料庫作為基礎,不列入本研究範圍。

本研究所做的標誌,將以XML(eXtensible Markup Language)可延伸式標注語言建立文章內容標誌系統(Content Markup System),以XTM(XML Topic Maps)主題圖的方式,建構有效呈現知識的理想環境。從文學研究的角度來看,將詩的內容所包含的人事時地物等主題以主題式、主從架構式的結構呈現,使用者在進行研究工作時,可以依個人需要整合、擷取各種標誌的資訊,使人事時地物的關係脈絡更清楚,使立論的數據更具體客觀;從文獻數位化的角度來看,所建立的標誌語言可以作為大量文獻自動標誌的基礎,在文獻數位化的過程中,可以節省人力的負擔;以更長遠的發展來看,以XML可延伸式標注語言建構的知識結構,再與文字之形音義結合,建構語文知識網路,可以建立具備人工智慧的檢索基礎。

正文


壹、前言

詩的內容包含人事時地物,詩學研究必須從整體的詩作內容探討,本是無庸置疑的議題,然而詩作內容所述及的人事時地物之間互相的影響,以及與外在人事時地物的互動所產生的影響,也是研究詩學時不可忽略的因素。

詩人寫詩,或抒情、或寫景、或言志、或詠史、或詠物、或應答酬唱,因此在詩題之中往往交代了這一首詩是對何人所寫?為何事而寫?寫於何時?寫於何地?所寫何物等資訊。詩人寫詩,會受到所處的時代背景、文學風氣、政治情勢、地理環境、師友往來等因素影響。詩人或因遊歷,或因仕宦,時常遷徙流動,所經地區,因自然與人文景觀的不同,對其詩作的內容與風格產生影響,遷徙流動之中,與不同文人之間的交往互動,對自身的作品,對當地的文風,也會有影響。

唐宋詩人喜歡以文會友,以詩歌相交往,因此贈答酬唱之作特別多。文人贈答酬唱時多半不直書其名,而以官銜、行第、別號等稱之;官銜又每有變動,造成後人考證上的困難。詩人於遊歷仕宦所經之地寫詩,與作品繫年結合,可據以考證詩人所經路線,所經路線也可以反過來作為作品繫年的依據,但是詩人表現地理位置,有各種不同的方式,或以當時地名,或以古地名、或以建築物入詩,造成研究上的困難,需要進一步做細項的分類。

文學研究離不開史料的蒐集與考證,詩作人名的考證工作,因前面所提的因素,考證工作非常困難,在《全唐詩》部份,已有吳汝煜、胡可先以人力搜輯資料,以《全唐詩》題目、序、注為基本資料,參校其他考證資料,逐一以人力核對,完成《全唐詩人名考》一書,成為研究唐詩的重要工具書。《全宋詩》數量十倍於《全唐詩》,加上《全宋詞》,詩人往來酬唱的作品更多,「全宋詩人名考」或「全宋詞人名考」的工作,益顯重要。然而,要依賴人力精確掌握文史資料,談何容易。

文章內容標誌的工作,就詩題內容進行人事時地物的標誌,以跨資料庫交互參照,多元整合,訂定標誌的標準,建立主題資料庫,有助於使標誌的工作由人力逐步轉為自動標誌,增加標誌的正確性與效率性。

本研究所做的標誌,將以XML(1)建立文章內容標誌系統(Content Markup System),以XTM(2)主題圖的方式,提供使用者新穎且更多強而有力的解釋和更有效的呈現知識的理想環境,透過自訂介面得以篩選、整合系統所擷取之資訊與個人電腦上原有之資訊,或其他網際網路上的所有相關資料,以達到「交互參照,多元整合」的個人知識管理功能。

一般藉由主題圖可以傳達的結構化資訊包括群組有關主題之間可尋找的資訊物件,以及主題與主題(與主題有關之聯想)間的關係,因為「主題圖」定義了多維度主題空間,換句話說,主題是指在主題圖文件(主題連結,topic link)所呈現出被題材參考的元素。主題會有一個或多個主題來源(Occurrences)、名字(name)以及和其他主題間的主題聯想(Associations)。(3),以主題圖的方式呈現知識結構,可以將與所選定的主題相關的其他主題資料,以參考元素(element)的方式呈現,成為完整的主題資訊,進一步建構有效呈現知識的理想環境。因此文章內容標誌的工作,以XML標誌,以XTM方式呈現知識結構,以此作為文學研究的輔助工具,將可建構一個比傳統的全文檢索更人性化、更智慧型的電腦輔助研究環境。

本研究將以蘇軾二十四歲離開眉山入京師之〈郭綸〉詩起,至四十四歲離京赴黃州貶所〈十二月二十八日,蒙恩責授檢校水部員外郎黃州團練副使,復用韻二首〉詩止,共計1007首詩為範圍,就其詩題進行內容標誌,探討內容標誌在詩學研究上的發展性與侷限性。

詩的內容標誌包括作者、作品繫年、寫作地點、詩體、題裁、詩題、詩序、詩句等項目,本研究僅就詩題內容進行標誌,再將標誌項目與作品繫年、寫作地點結合,探討對於詩學研究的意義。詩句的內容因為涉及異體字詞、同義詞、近義詞、典故、句法、詞性等因素,需要有其他資料庫作為基礎,不列入本研究範圍。



貳、網站的架構與功能

一、訂定內容標誌的項目以及各項目所的屬性

一首詩的完整資訊,包含作者、作品繫年、寫作地點、詩體、題裁、詩題、詩序、詩句等項目,詩的內容所述及的人事時地物資訊,通常在詩題內會出現,詩題提供的訊息不足時,詩序或詩句中會補充。

詩的各個標誌項目的屬性分列如下表:

表一:

屬性


項目

屬性

作者

全名、姓、名、朝代(朝代名、皇帝年號、年別、西元年)、身份別(古人、凡人、僧人、道人)、生卒年、字、號、小字、籍貫、親屬、及第年、官銜、封號、生平、諡號、著作、資料出處

作品繫年

朝代、帝號、年號、西元、作者年齡

寫作地點

市鎮、縣府、州路等行政區域層級

詩體

古體詩(五言古詩、七言古詩)、樂府、近體詩(五絕、七絕、五律、七律、五言排律、七言排律、其他)

題裁

抒情、寫景、詠史、詠物、詠懷、戰爭、閨怨、贈答、社會、田園、邊塞、題畫、弔挽、諷諫、旅遊、題額、遊仙、言志

詩題

人名(標誌屬性同作者)、地理、天候、天文、自然資源、飲食、節令、時間、書文名、動物、植物、稱謂、器物、典故、量詞詞性、異體字詞、通同字詞、同義字詞、近義字詞、異文

詩序

人名(標誌屬性同作者)、地理、天候、天文、自然資源、飲食、節令、時間、書文名、動物、植物、稱謂、器物、典故、量詞詞性、異體字詞、通同字詞、同義字詞、近義字詞、異文

詩句

人名(標誌屬性同作者)、地理、天候、天文、自然資源、飲食、節令、時間、書文名、動物、植物、稱謂、器物、典故、量詞詞性、異體字詞、通同字詞、同義字詞、近義字詞、異文

二、依研究需要於屬性之下分類

以詩題、詩序、詩句所包含的屬性「地理」為例,將人事時地物之「地」的屬性訂為「地理」而不訂為「地名」,是因為詩中所出現的「地」的資訊,往往不只是以地名的形式出現,而是以包含山川形勢、田野城郭等因素的形式出現,而且單就地名而言,對詩學研究的意義不如地理來得豐富周全,所以訂為「地理」(意即「地理資訊」的簡稱),可以涵蓋時間、空間、人文景觀的因素在內。時間、空間、人文景觀不同之下的地理資訊,對於詩人寫詩所產生不同的影響,詩人因為地理環境資訊的不同,以不同的方式呈現於詩文內容之中,因此若再加以分類,可使標誌更細緻,主題更明確,研究更方便。

地理資訊分類及可能值如下表:

表二:

地名分類

可能值

宮室園林

含亭、臺、樓、閣、館、殿、園林、宮、碑林、墓園 ……

寺院道觀

含寺、廟、觀、院、宮、庵 ……

山峰崖嶺

含山脈、山峰、嶺、巖、洞 ……

水澤湖泊

含河、湖、海、川、溪、泊、井、塘、潭、泉、洞 ……

行政區域

含路、州、縣、市、鄉、鎮、村、城堡、山寨 ……

關津渡口

含關口、渡口、津口、驛站、臺……

區域範圍

例如:中原、兩湖、洛下、塞外、吳中、岐下 ……

閬苑仙境

例如:芙蓉城、玉京、月宮 ……

進一步做此分類的意義,在於可據此探討詩人處於不同的地理環境之下,其作品內容與地理環境的相關度如何。可以探討詩人面對不同的自然景觀,與其寫詩時所使用的意象,詩風,有何不同?跨越山巔,行經水湄,坐擁華屋,棲身破廟,高居殿堂,漫步野寺,歡喜上任,悽愴遭貶,詩人所聞所見,所思所感,動於心,寫成詩時,有何不同?可作為提供詩學研究的素材。

其他屬性分類之可能值如下表:

表三:

分類屬性

可能值

天候

陰、晴、雪、雨、旱、澇、風、霜

天文

日、月、星辰

飲食

酒、茶、菜品、零食、食材、食器

節令

節氣

立春、雨水、驚蟄、春分、清明、穀雨、立夏、小滿、芒種、夏至、小暑、大暑、立秋、處暑、白露、秋分、寒露、霜降、立冬、小雪、大雪、冬至、小寒、大寒

節慶

春節、元宵、清明、端午、七夕、中元、中秋、重陽、冬至、除夕

季節

春、夏、秋、冬

尚未進一步分類的屬性於標誌時應保留彈性的空間,以因應不同詩作內容標誌的需求。

三、建立主題資料庫

進行文章內容標誌的過程中,可將標誌的結果建立各種不同的資料庫,如人名、地名、器物名、動物名、植物名等資料庫,也可將所切分的詞彙建立詞彙資料庫,以做為建立自動標誌功能使用。以人名、地名資料庫為例說明如下:

(一)人名資料庫

不同的詩人,不同的詩作,所使用的主題重複性很高,相同主題所使用的資料,重複性也很高,因此進行內容標誌時逐步建立主題資料庫,可作為自動標誌的比對資料。

詩的內容標誌的初期,固然需要以人工標誌建立基礎,標誌完成之後也需以人力除錯,但是標誌初期以所標誌的資料建立主題資料庫,可作為日後自動標誌的比對材料。中國是一個詩的民族,詩的數量極多,難以一一用人力標誌,而且文獻數位化的意義也在於以電腦減輕人力的負擔,提高工作的效率與品質,因此,建立主題資料庫是標誌初期需要規劃與建置的工作,資料庫累積的資料越多,資訊越豐富,自動標誌的品質與效率也會相對提高。

各種不同的主題資料之中,以人名、地名等專有名詞重複的機率最高。以人名為例,人名資料庫建立的格式如下:

表四:(以蘇軾為例)

項目

內容

項目

內容

姓名 蘇軾 籍貫 眉山人
親屬 父:蘇洵,弟:蘇轍
及第年 1057(宋仁宗嘉祐二年)
朝代 宋代 官銜 翰林學士兼侍讀……
身份別 凡人 封號  
生卒年 1036-1101 生平 略如註(4)
子瞻 諡號 文忠
東坡居士 著作 易傳,書傳,論語說,仇池筆記,東坡志林,東坡七集,東坡詞等凡數百卷
小字   資料出處 名二子說(嘉祐集14/6)舉蘇軾應制科狀(歐陽文忠公集112/11下)……

(二)地名資料庫

中國之行政區域因朝代的改變而有不同,地名亦迭有更改,建立地名資料庫除了需要依時代不同分別建立之外,還需要因所轄疆域的改變(如北宋、南宋)而各自獨立。

地名資料庫之建立,比人名資料庫複雜,其步驟如下:

  1. 建立朝代之行政區域層級分層資料庫:
  2. 以北宋為例,北宋行政層級之第一層是「路」,共有京畿路、京西南路、京西北路、京東東路、京東西路、河北東路、河北西路、河東路、永興軍路、秦風路、淮南東路、淮南西路、兩浙路、江南東路、江南西路、荊湖南路、荊湖北路、成都府路、梓州路、利州路、夔州路、福建路、廣南東路、廣南西路、成都府附近等。第二層是「州」、「道」(廣南西路特磨道)、「軍」、「監」、「府」。另有特殊層級名稱如「氏」(夔州路田氏、梓州路羅氏)、「部」(梓州路馬湖部、梓州路石門蕃部、成都府路西山野川諸部)、「黔州所領諸羈縻州」(夔州路)等。第三層是「縣」、「軍監」。第四層是「鄉」、「鎮」、「里」、「保」。(5)

  3. 依行政層級建立各層級的地名資料庫
  4. 其次再建立第一行政層級之下的第二、第三……行政層級地名資料,亦即建立每一「路」之下有那些「州」,每一「州」之下有那些「縣、軍監」,每一「縣、軍監」之下有那些「鄉、鎮、里、保」,有那些「山、水、河、湖」。以「兩浙路」及「京畿路」為例,建立方式如下表:

表五:

山、水、河、湖

鄉、鎮、里、保

縣、軍監

州、府、軍、監、部、道、氏、羈縻州

金牛山、曲阜山、百丈山、湖洑山、赭山、岩門、北山、錢塘江、宦塘河、南溪 長安鎮、臨平鎮、赤岸口、安溪鎮、南新鎮 仁和、鹽官、昌化、於潛、臨安、餘杭、錢塘、富陽、新城

杭州

兩浙路

惠民河、蔡河、廣濟河、汴河 蒲城、郭橋鎮、期城、潘鎮、陳橋鎮、圃田鎮、白沙鎮、板橋、岳臺、青城盧館鎮、赤倉鎮、朱家曲鎮、宋樓鎮、崔橋鎮、圉城鎮、馬欄橋鎮、建雄鎮、高柴鎮 酸棗、陽武、長垣、封丘、中牟、東明、考城、襄邑、雍丘、尉氏、咸平、鄢陵、扶溝、太康

開封府

京畿路




參、標誌的步驟

一、建立作品繫年資料

建立每一首詩之作品繫年資料,並且給每一首詩一個身份辨識號碼(ID),使詩題之人事時地物的關係更清楚,建立方式如下表:

表六:

ID

年齡

寫作時間

寫作地點

詩題

00013908 24 宋仁宗嘉祐四年1059年十月至十二月 自眉山,發嘉陵,下夔、巫,至荊州 郭綸
00013909 24 宋仁宗嘉祐四年1059年十月至十二月 自眉山,發嘉陵,下夔、巫,至荊州 初發嘉州
00013983 26-27 宋仁宗嘉祐六年1061年十一月至七年1062年三月 自開封赴鳳翔 和子由澠池懷舊
00014076 29 宋英宗治平元年1064年正月至十二月 鳳翔 次韻子由種菜久旱不生
00014305 38 宋神宗熙寧六年1073年1月至6月 杭州 獨遊富陽普照寺
00014507 39 宋神宗熙寧七年1074年9月至11月 杭州赴密州途中作 次韻陳海州乘槎亭

此處之ID號碼因為以「宋代名家詩全文檢索系統」(6)全部作品一起排序建立,所以不是從1號開始,同一位作者的作品以連號為原則,此處跳號因為是隨意挑選幾個例子說明,並未依照順序。寫作時間、地點依王文誥輯註,孔凡禮點校,《蘇軾詩集》資料建立。

二、將詩題內容進行詞的切分工作

進行詩的內容(詩題、詩序、詩句)標誌之「人名、地理、天候、天文、自然資源、飲食、節令、時間、書文名、動物、植物、稱謂、器物、典故、量詞」,都以詞(words)為單位,所以必須先作詞的切分工作,分詞以長詞優先為原則,稱謂與官銜若附著於人名,用以表明身份者,不予切分。詞的自動切分方法可參見拙作〈試論引用資訊科技作為詩學研究輔助工具的發展方向與建構方法〉。(7)

做好詞的切分工作所產生的詞彙資料,另外單獨建立詞彙資料庫。詞彙資料庫的建立宜以作者為單位,不同作者各自建立不同的詞彙資料庫。詞彙資料庫可作為自動切分詞彙的比對資料,依作者分別建立的詞彙資料庫,也可以據以做為研究使用。

三、進行詩題的內容之標誌

做好詩題之詞的切分工作之後,依詞進行內容標誌,標誌的項目已如前述。

以蘇軾〈是日宿水陸寺寄北山清順僧二首其一〉及〈元日過丹陽明日立春寄魯元翰〉為例,前者詩題可切分為「是日」、「宿」、「水陸寺」、「寄」、「北山」、「清順僧」、「二首其一」等七個詞,後者可以切分為「元日」、「過」、「丹陽」、「明日」、「立春」、「寄」、「魯元翰」等七個詞。詩題標誌如下。地名如有古今之別,或因改朝換代而有不同的地名,標誌時也將同義詞標上。同理,其他詞語的標注亦同時標注同義詞,成為參見檔,電腦才不會將之視為二個不同的地名,如表五之「水陸寺」又名「水陸院」、「清順」字「頤然」、「魯有開」字「元翰」,三者同義。

表七:

ID

詩題、標誌

第一層

第二層
同義詞

第三層

第四層

第五層

第六層

14257 是日 時間   宋神宗熙寧五年 1072年 8月至12月  
14257 宿            
14257 水陸寺 地名 水陸院 寺院道觀 臨安 杭州 兩浙路
14427 明日 時間   宋神宗熙寧七年 1074年 1月至5月  
14427 立春 節令          
14427            
14427 魯元翰 人名 魯有開 凡人 魯有開,
字元翰
連結人名
資料庫
 

四、從詩作內容、註解、方志等資料增補地名資料

詩人寫詩,有時以極小的地名,或以古地名,或以關津渡口建築物等入詩,這些地名需要從方志查詢,甚而需要藉助詩作的註解增補,增補的資料可以納入地名資料庫之中,以蘇軾詩為例,增補地名資料及增補方式舉例如下表:

表八:

出處

地名

行政層級

說明

〈泊南井口期任遵聖長官,到晚不及見,復來〉詩 南井口 南井監 江安縣 瀘州 梓州路 見〈查慎行註〉索引資料(8)
〈渚宮〉詩 渚宮 江陵縣 江陵府 荊湖北路   見〈渚宮〉詩:「渚宮寂莫依古郢」句下〈查慎行註〉(同8,60頁)
〈潁大夫廟〉詩 潁大夫廟 潁橋鎮 汝州 京西北路   見〈潁大夫廟〉詩題後蘇軾自註(同8,83頁)



肆、文章內容標誌的發展性

一、建立詞彙自動切分的功能

前已言及詞彙自動切分的方法,以及建立詞彙資料庫的必要性。日益積累的詞彙資料庫可以逐步提高自動切分詞彙的正確性與效率性,以蘇軾前期1007首詩為例,所切分的詞彙共計產出6115條詞彙,扣除重複部分,還有2192條詞彙,重複率極高。所以建立詞彙資料庫,可以作為自動切分時比對的資料庫。

二、文章內容自動標注的功能

從蘇軾的詩題所切分出來的6115條詞彙分析,各種類別的詞彙數量如下表,若「其他」未做分類標誌的詞彙不計,以人名詞彙830條所佔的數量最多,這830條人名詞彙扣除「用字」重複的,還有332條,分屬154人,亦即蘇軾前期詩之詩題中所提及的人數有154人,有332種不同的稱呼,以各種不同的稱謂出現在蘇軾的詩題之中830次。地名資料800條,扣除重複出現的,還有381條,以類別區分的資料庫建立之後,可作為自動標注使用。例如重複之地名,標誌行政區域層級時只需標注一次,例如「孔宗翰,字周翰」,在蘇軾前期詩出現13次,分別以「孔周翰」、「孔郎中」、「孔密州」三種不同的方式稱呼。「富陽」(杭州,兩浙路)在蘇軾前期詩之詩題出現4次,「廬山」(諸城縣,密州、京東東路)出現6次,建立地名資料及行政區域層級資料之後,二者比對,重複的地名可以自動標注,節省很多人工標註的時間,累積的資料越豐富,自動標註的效率與正確率便相對提高。

表九:

類別

人名

天文

天候

地名

自然資源

時間

書文名

動物

植物

飲食

節令

稱謂

器物

其他

總計

詞彙總量

830 8 40 800 7 107 114 22 70 51 33 100 47 3886 6115

詞彙

332 4 22 381 7 50 72 18 34 27 19 43 34 1149 2192

種數

154              

三、建立時空座標自動標注功能

「時空座標」是指詩人寫某一首詩之時間、空間座標,時間是指詩人寫作之時間,可由作品繫年得知,空間是指這首詩的寫作地點。

以蘇軾前期詩為例,依蘇軾詩題所標誌之地名資料可知,蘇軾自宋仁宗嘉祐四年(西元1059年)十月從眉州啟程之第一首詩〈郭綸〉起,至神宗元豐二年(西元1079)十二月責赴黃州之前所寫〈十二月二十八日,蒙恩責授檢校水部員外郎黃州團練副使,復用前韻二首〉詩為止,幾番遷徙調動,所經過的地區之地名如下,如在每一首詩加上其寫作時間,即可得出其詩作之時空座標。

表十:

時間 行經地點
宋仁宗嘉祐四年1059年十月至十二月 自眉山,發嘉陵,下夔、巫,至荊州
眉州→嘉州→戎州→瀘州→恭州→涪州→忠州→萬州→雲安軍→夔州→歸州→峽州→江陵府→荊門軍

嘉州→犍為→宜賓→牛口(戎州)→南井監(江安縣)→安樂山(合江縣)→渝州(恭州)→涪州→仙都(豐都)→木櫪觀(武寧縣,萬州)→夔州→巫山→巴東縣→秭歸(9)→峽州→夷陵→江陵→荊州
宋仁宗嘉祐五年1060年正月 自荊州陸行,二月至京師(依王文誥案)
依詩的繫年:荊門軍→郢州→襄州→鄧州→潁昌府→汝州→開封府:錯誤
應為:荊門軍→郢州→襄州→鄧州→汝州→潁昌府→開封府

荊州→郢州→襄陽→南陽→葉縣(汝州)→潁橋鎮(汝州)→潁昌府(京西北路)(10)→尉氏(京畿路)→封丘(京畿路)
宋仁宗嘉祐六年1061年十一月至七年1062年三月 自開封赴鳳翔
鄭州→河南府→鳳翔府
鄭州→澠池→麟游→鳳翔→寶雞→虢縣→郿縣→盩庢→太白山→橫渠鎮→盩庢→郿縣→虢縣→鳳翔
宋仁宗嘉祐七年1062年九月 鳳翔任上
鳳翔→寶雞→虢縣→陽平→斜谷→岐山→扶風→盩庢
宋英宗治平元年1064年正月至二年八月 鳳翔、華陰、開封
清平鎮(盩庢)→盩庢→五郡城(京兆府,永興軍路)岐山→鳳翔→盩庢→鳳翔→藍田(京兆府,永興軍路)→華陰(華州,永興軍路)→開封
宋神宗熙寧二年1069年二月至四年六月 開封至杭州
開封→潤州(下接神宗熙寧四年1071年6月至11月)
宋神宗熙寧四1071年6月至11月 開封到潤州(赴杭州途中)
開封(京畿路)、經陳州(京西北路)、潁州(京西北路)、鍾離縣(濠州,淮南西路,可能有誤)(11)、潁口(壽州)、鍾離縣、鳳陽縣、定遠縣(濠州)、招信縣、盱眙縣(泗州)、龜山鎮(泗州)、淮陰(12)(楚州)、山陽(楚州)、揚州(13)(揚州)
宋神宗熙寧四1071年12月 金山(潤州)、潤州(潤州)
宋神宗熙寧四1071年12月28日到杭州 杭州
宋神宗熙寧五年1072年1月至7月 杭州
孤山(泰州)、餘杭(杭州)、臨安(杭州)、杭州(杭州)
宋神宗熙寧五年1072年8月至12月 杭州
仁和(杭州)、水陸寺(仁和至臨平之間,杭州)、鹽官(杭州)、杭州(杭州)、湖州(湖州)、烏程(湖州,遊道場山、何山、天慶觀)、秀州(秀州)
宋神宗熙寧六年1073年1月至6月 杭州
杭州(杭州,吳山有美堂)、杭州(杭州,法惠寺、祥符寺)、富陽(杭州,風水洞、普照寺、妙庭觀)、新城(杭州)、龍山(杭州)、於潛(杭州)、昌化(杭州)、杭州(杭州)、餘杭(杭州)、杭州(杭州)
宋神宗熙寧六年1073年6月至9月 杭州
孤山(泰州)、杭州(杭州)、江寧(江南東路,是否親臨,存疑)、徑山(天目山北,臨安,杭州)、臨安(杭州)、餘杭(杭州,洞霄宮)、臨安(杭州,徑山、鳳凰山)、孤山(泰州,淮南東路)、杭州(杭州)
宋神宗熙寧六年1073年10月至12月 杭州
杭州(杭州)、臨平鎮(杭州)、秀水縣(杭州)、永樂縣(杭州)、常州(常州)
宋神宗熙寧七年1074年1月至5月 潤州(赴常州、潤州賑災)
丹陽(潤州)、鶴林寺、招隱寺(丹徒縣,潤州)、金山寺(潤州)、鶴林寺、招隱寺(丹徒縣,潤州)、京口(潤州,舊名須口,潤州)、焦山(潤州)、太平寺(常州)、無錫(常州)、虎丘山(蘇州)、蘇州(蘇州)、吳江(蘇州)、秀水(秀州)、仁和縣(杭州)
宋神宗熙寧七年1074年6月至9月 杭州
杭州(杭州)、於潛(杭州)、青牛嶺(新城,杭州)、於潛(杭州)
宋神宗熙寧七年1074年9月至11月 杭州赴密州
歸安(湖州)、潤州(京口,潤州)、海州(海州,淮南東路)、漣水(海州,淮南東路)、諸城縣(密州,京東東路)
宋神宗熙寧八年1075年1月至12月 密州
廬山,諸城縣(密州,京東東路)
宋神宗熙寧九年1076年1月至11月 密州14571
濰州(濰州,京東東路)、青州(青州,京東東路)、濟南(濟州,京東東路)、開封(河南府,京西北路)、宿州(淮南東路)
宋神宗熙寧十年1077年2月至12月 徐州
徐州(京東西路)、沂水(沂州,京東東路)、徐州(京東西路)、彭城(徐州)
宋神宗元豐元年1078年1月至6月 徐州
徐州(京東西路)、彭城(徐州)、徐州(京東西路)
宋神宗元豐元年1078年6月至12月 徐州
徐州(京東西路)、滕縣(徐州)、蕭縣(徐州)
宋神宗元豐二年1079年1月至2月 徐州
徐州(京東西路)
宋神宗元豐二年1079年3月至5月 徐州至湖州
徐州(京東西路)、南京(應天府,京東西路)、泗州(淮南東路)、金山(潤州)、吳城(蘇州)、松江(水名,蘇州)(自徐州經南京、泗州、金山、吳城、松江)
宋神宗元豐二年1079年5月至7月 湖州
霅上(霅水,蘇州)、卞山(烏程,湖州)
宋神宗元豐二年1079年7月至8月 湖州、開封
開封

四、提供含有時空座標之地理資訊自動標注功能

完成地名標誌之後,與作品繫年資料結合,即可於當代地圖上呈現詩人一生之中遊歷、遷徙、創作之時間與空間結合的訊息,地圖上可以清楚顯示詩人行經路線圖。此行經路線圖可以整體呈現,也可以視需要切分為只顯示某些時期。例如下圖所示,即為蘇軾自宋神宗熙寧四年1071年從開封赴杭州任,迄宋神宗元豐二年1079年在湖州被捕,押解回京為止,所行經的路線圖(14)。

圖一:

五、詩學研究上的功能

以XML可延伸式標注語言建立文章內容標誌系統(Content Markup System),以XTM主題圖的方式,建構有效呈現知識的理想環境。從文學研究的角度來看,將詩的內容所包含的人事時地物等主題以主題式、主從架構式的結構呈現,使用者在進行研究工作時,可以依個人需要整合、擷取各種標誌的資訊,使人事時地物的關係脈絡更清楚,使立論的數據更具體客觀;從文獻數位化的角度來看,所建立的標誌語言可以作為大量文獻自動標誌的基礎,在文獻數位化的過程中,可以節省人力的負擔;以更長遠的發展來看,以XML可延伸式標注語言建構的知識結構,再與文字之形音義結合,建構語文知識網路,可以建立具備人工智慧的檢索基礎。

以時間與空間結合的地理資訊標誌為例,在詩學研究上可以作為建立作品繫年的參考,也可以修正作品繫年的錯誤。以蘇軾前期詩為例,說明如下:

(一)考證移守時行經的路線,並可據以作為繫年的參考

蘇軾從開封移守杭州,途中所花費的時間長達半年(從神宗熙寧四年6月啟程,至熙寧四年12月28日到達杭州),共有35首詩,其中明確顯示寫作地點者有27首,未顯示寫作地點者8首,其中自〈龜山〉、〈發洪澤中途遇大風復還〉、〈十月十六日記所見〉、〈廣陵會三同舍,各以其字為韻,仍邀同賦:劉貢父〉、〈廣陵會三同舍,各以其字為韻,仍邀同賦:孫巨源〉、〈陵會三同舍,各以其字為韻,仍邀同賦:劉莘老〉、〈游金山寺〉這幾首詩從龜山(泗州盱眙縣龜山鎮)、洪澤(楚州淮陰縣洪澤鎮)、淮陰(楚州)、揚州(揚州)、金山寺(潤州),正好可以將蘇軾這一段路的行進路線圖顯示出來。

(二)修正作品繫年的錯誤

地理資訊的標誌可以用來修正作品繫年時詩作排序的錯誤,以蘇軾前期詩為例,依時空座標顯示的地理資訊系統考證,發覺王文誥輯註的《蘇軾詩集》有〈許州西湖〉(卷二)以及〈十月二日,將至渦口五里所,遇風留宿〉(卷十五)這二首詩的繫年順序錯誤,孔凡禮校注時未能修正。

〈許州西湖〉可由「註(10)」得知,蘇軾從荊州改為陸行北上至開封,依孔凡禮的繫年排序為:〈許州西湖〉(潁昌府)→〈雙鳧觀〉(汝州葉縣)→〈潁大夫廟〉(汝州潁橋鎮)→〈阮籍嘯臺〉(京畿路尉氏縣)。這一段路由南到北的地理位置是汝州葉縣→汝州潁橋鎮→潁昌府→京畿路尉氏縣,蘇軾從潁昌府南下汝州葉縣,再北上到汝州潁橋鎮、京畿路尉氏縣的可能性不大,應是繫年順序錯誤,正確的排序應是:〈雙鳧觀〉→〈潁大夫廟〉→〈許州西湖〉→〈阮籍嘯臺〉。

〈十月二日,將至渦口五里所,遇風留宿〉繫年順序也錯誤,《蘇軾詩集》卷六,寫於宋神宗熙寧四年,為蘇軾自開封移守杭州途中所作。蘇軾從開封經陳州、潁州、壽州、濠州等地赴杭州,時蘇轍在潁州,《蘇軾詩集》卷六從〈潁州初別子由二首〉之後,接著是〈十月二日,將至渦口五里所,遇風留宿〉→〈出潁口初見淮山,是日至壽州〉→〈壽州李定少卿出餞城東龍潭上〉→〈濠州七絕〉→〈泗州僧伽塔〉。〈潁州初別子由二首〉寫於潁州府,渦口在濠州鍾離縣,後一首〈出潁口初見淮山,是日至壽州〉再回到潁州、壽州交界的潁口,從潁口到壽州,下一首從壽州到濠州,寫〈濠州七絕〉,再從濠州到泗州,寫〈泗州僧伽塔〉,再沿楚州、高郵軍、揚州、潤州南下杭州。蘇軾赴杭,必走水路。由汴至陳,應順蔡河而下;由陳至潁,則順潁水;潁水至潁口入淮水,再溯淮水經壽州到濠州,在渦口遇風滯留,而後至泗州。

由上列敘述可知,蘇軾的行進路線為:

潁州→壽州→濠州→泗州→楚州→高郵軍→揚州→潤州。

而作品排序的行經路線是:

潁州→濠州→壽州→濠州→泗州→楚州→高郵軍→揚州→潤州。

若依作品排序的路線,蘇軾從潁州到濠州,再折返壽州,再到濠州,顯然不合理,所以〈十月二日,將至渦口五里所,遇風留宿〉與〈出潁口初見淮山,是日至壽州〉、〈壽州李定少卿出餞城東龍潭上〉排序錯誤,應該對調。孔凡禮校注時若能輔以地圖,當可發現錯誤。

這一部份作品排序的錯誤從地理資訊顯示的訊息可以看得更清楚,如下圖所示,蘇軾於神宗熙寧四年6月從開封啟程赴杭州,熙寧四年12月28日到杭州,途中所經路線如下圖(同註11):

圖二:



伍、詩的內容標誌的侷限性

電腦畢竟不是人腦,如果沒有足夠完整的資料作為標誌時參照比對的標準,電腦便無法替代人腦做自動比對、標誌的工作,這是文章內容標誌工作從人工標誌轉為自動標誌時遭遇的最大挑戰。以詩題的地名標誌為例,建立地名以及作品繫年資料的目的,在於能使地理資訊標誌自動化。而全面建立標誌分類項目的各項資料之後,更期待能全面建立自動標誌的功能。然而本研究以蘇軾前期1007首詩進行標誌的過程中,遭遇一些問題,需輔以人工校正,以地名標誌為例,筆者於拙作〈詩的內容標誌之地理資訊標誌對於詩學研究的意義—以蘇軾東南詩為例〉(15)一文中曾論及,這是目前發展詩的內容標誌的侷限,今轉引如下:

一、詩人偶以地名為對人之稱呼,易誤標為地名

文學作品,尤其是詩作之中,作者常以地名作為人名之代稱,造成自動標誌時產生錯誤。以地名為人名,如果已是眾所週知的通稱,如唐代詩人王昌齡,人稱王龍標,已成通稱,可以在人名標誌時標為參見名,便不至於誤為地名。然而,少有人知者,或只有少數作品、少數詩人以此稱呼者,便容易與地名混淆,例如蘇軾〈次韻晁無咎學士相迎〉詩有:「少年獨識晁新城」的句子,此處的「晁新城」指晁補之(字無咎),蘇軾初識晁補之於杭州任上,時晁補之隨父晁端友客居新城,故有此稱呼。「新城」是地名,切分詞語時如以地名資料庫比對,即可比對出「新城」,並將之標注為地名,而產生錯誤,又如蘇軾〈寄黎眉州〉(卷十四)詩之「黎眉州」指的是黎錞,字希聲,熙寧八年以尚書屯田郎中知眉州,所以蘇軾以「黎眉州」稱之,眉州也是地名。〈送喬施州〉(卷十四)詩之「喬施州」指的是喬敘,字禹功,曾知施州,施州也是地名。

二、專有名詞因簡稱而混淆

〈出都來陳,所乘船上有題小詩八首,不知何人有感於余心者,聊為和之〉(卷六)與〈送杭州杜、戚、陳三掾罷官歸鄉〉(卷十)這兩首詩之詩題,經過切詞之後,都含有「陳」的詞彙,「出都來陳」的「陳」是地名,指陳州,「杜、戚、陳」的「陳」是人名,指陳珪,建立詞彙資料庫,自動標注時,容易混淆。

三、回憶之作使時間座標錯誤

如果以作品繫年加上作品所出現的地名自動標注該首詩的時空座標,回憶之作便會使標注產生錯誤。例如蘇軾〈李公擇過高郵,見施大夫與孫莘老賞花詩,憶與僕去歲會於彭門折花餽筍故事,作詩二十四韻見戲,依韻奉答,亦以戲公擇云〉(卷十九),這一首詩寫於宋神宗元豐二年1079年5月至7月,時東坡在湖州任上。又如〈去年秋,偶遊寶山上方入一小院,闃然無人。有一僧,隱几低頭讀書。與之語,漠然不甚對。問其鄰之僧,曰︰「此雲闍黎也,不出十五年矣。」今年六月,自常、潤還,復至其室,則死葬數月矣。作詩題其壁〉(卷十二),這一首詩寫於宋神宗熙寧七年1074年6月,此時蘇軾已經在杭州。

四、想像(神遊)之作使空間座標錯誤

蘇軾作詩,不喜受格律限制,人人皆知,其文學作品之中,還常有「想當然耳」之語,若以之標示時空座標,便會產生錯誤,例如〈念奴嬌•赤壁懷古〉詞有:「故壘西邊,人道是,三國周郎赤壁」之語,赤壁是地名,然而蘇軾此處所寫的赤壁,並不是當年赤壁之戰的赤壁,乃其「想當然耳」之語。神遊之作,也往往會使時空座標錯亂,如蘇軾〈杭州牡丹開時,僕猶在常、潤,周令作詩見寄,次其韻,復次一首送赴闕〉,蘇軾便是在常、潤地區想像自己與好友周邠等人同在杭州賞牡丹時作這一首詩。

五、記(寄、懷、和)友人之作使空間座標產生錯誤

因記、懷、和友人之作而產生時空座標混亂的狀況最多,如〈和章七出守湖州二首〉(卷十三),這一首詩寫於宋神宗熙寧八年,時蘇軾在密州。〈送魯元翰少卿知衛州〉(卷十五)、〈次韻子由送蔣夔赴代州學官〉(卷十五),這二首詩寫於宋神宗熙寧十年1月至2月,時蘇軾在濟南至徐州的路上。如果以電腦自動標示,會誤為是蘇軾往湖州、衛州或代州。

六、地名不見於詩題者,須輔以其他資料考證

多數與地理位置相關的詩作,地名訊息會顯示於詩題,以上述方法均可標誌。若於某一定點停留的時間比較長,詩題或詩文中並未顯示地名者,也可以從作品的繫年與生平資料得知寫作的地點,然而有些作品寫於行進途中,地名亦未顯示於詩題,只顯示於詩句,則須依詩句標誌,例如〈十月十六日記所見〉(卷七),這一首詩寫於宋神宗熙寧四年1071年6月蘇軾從開封赴杭州途中,可以從:「風高月暗雲水黃,淮陰夜發朝山陽」詩句得知當時蘇軾在淮陰往山陽途中,淮陰在楚州。下一首詩〈廣陵會三同舍,各以其字為韻,仍邀同賦:劉貢父〉(卷七),這一首詩寫於宋神宗熙寧四年1071年6月蘇軾從開封赴杭州途中,詩題與詩文內容均未顯示地名,可以從詩之「合註:載:熙寧四年五月,錢公輔知揚州,先生十月過揚與之相會也。」得知寫於揚州。

七、以神話傳說之地名入詩

以神話傳說的地名入詩者亦有,如蘇軾〈芙蓉城〉詩便是。蘇軾於〈敘〉文中說:「世傳王迥子高與仙人周瑤英遊芙蓉城。元豐元年三月,余始識子高,問之,信然。乃作此詩,極其情而歸之正,亦變風止乎禮義之意也。」芙蓉城乃仙境也,但是若不看敘文或註解,很容易誤以為是某地之地名,這首詩文中有:「因過緱山朝帝廷,夜聞笙簫弭節聽」句中之「緱山」亦非人境。


陸、結語

無論就文獻數位化的意義,或從建立詩學研究的電腦輔助環境,從引用電腦作為詩學研究工具以開拓新的研究方法的角度來看,各種方式都是值得嘗試的。

當資訊學界不斷的發展新的技術,當各個領域不斷以新的資訊技術應用在該領域的研究時,人文領域也可以從中思考,如何藉助電腦開拓新的研究方法與新的研究方向。

以XML可延伸式標注語言建立文章內容標誌系統,以XTM主題圖的方式,建構有效呈現知識的理想環境,是本研究的一個嘗試。初步從中建立標誌的方法,嘗試訂定標誌的標準,在研究的過程中發現了一些問題,也從中思考應用在詩學研究的可能性。由於實驗的範圍只限於蘇軾一半的詩作,並不足以作為建立標誌標準的完整樣本,但建立初步的標誌方法,日後擴大標誌範圍時便有了可以參考的的基礎。在標誌過程中所發現的問題,在擴大標誌的範圍,各種分類資料庫逐步建立,可參照的資訊日益豐富,電腦具備更多的「語文知識」之後,這些困難可望逐步減輕,凡此種種,都值得文學界與資訊學界攜手合作,共同開創新的研究領域。


致謝

感謝中研院資訊所謝清俊教授所領導的文章內容標誌研究小組所有成員在「詩的內容標誌」研究過程中給予很多寶貴的意見,中研院近代史研究所范毅軍教授、計算機中心嚴漢偉、翁維瓏先生協助地理資訊製作,業師黃啟方教授指導,元智大學資管系所張如瑩、胡筱珮、江珮芝、林小婷同學協助XML、XTM建置。


註解

(1)XML是一種可擴展的標示語言 (Extensible Markup Language,縮寫為 XML) 用來描述一種稱為XML文件的資料物件,同時也部分地描述了處理這些資料物件的程式設計方式。XML 是 SGML (標準通用標示語言〔ISO 8879〕) 在應用上的一個子集合,或為 SGML 的某種限制形式。根據制定規格的定義,XML文件是符合規格的 SGML 文件。

(2)XTM(XML Topic Maps)主題圖最初被稱為主題導覽圖(Topic Navigation Maps),起源於十年前,由Steve Newcomb的描述,於1997至1998年在華盛頓、巴黎、芝加哥的會議上引起熱烈的討論。主題圖是一個國際性標準的標誌,用來定義有關資訊來源的主題以及主題彼此間關係之可交換性陳述資訊,是一個組織、維護和導覽資訊的範例。主題圖以SGML呈現和使用HyTime結構化文件中的定址,於1998年10月通過ISO標準,之後由一非正式的TM工作群組發展其XML版本,稱為XTM,並於2000年12月5日公佈。主題圖相關資訊可參考:「XTM TopicMaps.org,http://www.topicmaps.org/」以及「topicmaps.com,http://www.topicmaps.com/

(3)參見Steve Pepper,“Navigating haystacks and discovering needles , Introducing the new topic map standard”,1999。

(4)參見《宋人傳記資料索引》4312-4324頁所載蘇軾資料:「蘇軾:(1036-1101),字子瞻,號東坡居士,眉山人,洵長子。博通經史,隨父來京師,受知於歐陽修,嘉祐二年試禮部第二,遂中進士,……歷端明殿翰林侍讀兩學士……建中靖國元年七月卒,年六十六,諡文忠。……有易傳,書傳,論語說,仇池筆記,東坡志林,東坡七集,東坡詞等凡數百卷。又善書,兼工繪事。」昌彼得、王德毅、程元敏、侯俊德等編著,鼎文書局印行,1984年4月增訂二版。

(5)參見拙作〈詩的內容標誌之地理資訊標誌對於詩學研究的意義—以蘇軾東南詩為例〉所引「北宋行政區域層級分層表(中央研究院電算中心製作、提供)」,2001年PNC會議,香港城市大學主辦,2001年1月15-20日。

(6)「宋代名家詩全文檢索系統」,網址:http://cls.admin.yzu.edu.tw

(7)參見拙作〈試論引用資訊科技作為詩學研究輔助工具的發展方向與建構方法〉,2000年6月29日至7月1日,2000年第三屆國際漢學會議,中央研究院主辦。

(8)參見清•王文誥輯註,孔凡禮點校,《蘇軾詩集》,北京中華書局,1982年2月出版,頁14,〈泊南井口期任遵聖長官,到晚不及見,復來〉詩題後之〈查註〉所引。

(9)參見《蘇軾詩集》卷一40頁〈昭君村〉詩註解,昭君村在興山,但昭君出生於秭歸,蘇軾沿江而下,經秭歸,不經興山,但或許是稱謂習慣不同。 (10)〈許州西湖〉詩繫年順序有誤:參見《蘇軾詩集》卷二81頁,〈許州西湖〉應置於〈潁大夫廟〉與〈阮籍嘯臺〉之間。許州西湖在京西北路潁昌府,潁大夫廟在汝州潁橋鎮,阮籍嘯臺在京畿路尉氏縣,蘇軾自荊州陸行北上至開封,行經荊門軍→郢州→襄州→鄧州→汝州→潁昌府→開封府,孔凡禮所列的順序是〈許州西湖〉→〈雙鳧觀〉→〈潁大夫廟〉→〈阮籍嘯臺〉。

(11)〈十月二日,將至渦口五所遇風留宿〉與〈出潁口初見淮山,是日至壽州〉順序可能有誤。渦口在鍾離縣,蘇軾不可能從潁州到濠州的鍾離縣再折返壽州,再回到濠州。參見《蘇軾詩集》卷六,281頁。

(12)淮陰從〈十月十六日記所見〉:「淮陰夜發朝山陽」得知。參見《蘇軾詩集》卷六,293頁。

(13)揚州從〈廣陵會三同舍,各以其字為韻,仍邀同賦:劉貢父〉詩之「合註:載:熙寧四年五月,錢公輔知揚州,先生十月過揚與之相會也。」參見《蘇軾詩集》卷六,294頁。

(14)本地圖由中央研究院電算中心翁維瓏先生依據譚其驤主編,《中國歷史地圖集》,上海地圖出版社,1982年出版之地圖集為底本製作。

(15)參見拙作〈詩的內容標誌之地理資訊標誌對於詩學研究的意義—以蘇軾東南詩為例〉,2001年PNC會議,香港城市大學,2001年1月15-20日。