試論引用資訊科技作為詩學研究輔助工具的發展方向與建構方法

羅鳳珠•元智大學中語系

摘 要

古籍數位化的發展已經有十多年,數位化的古籍資料已經累積幾億字,以經部、史部的數量最多,其次是子部,集部最少;相關的研究大抵以發展中文電腦技術及解決中文字形問題為主;應用方面的研究以計算語言學佔的數量最多,應用於文學上的研究比較少。

全文檢索是利用電腦強大的搜尋檢索功能,協助使用者尋找相關資料,可以節省很多搜尋資料的時間,但是,詩是一種特殊的文學形式,以電腦作為詩學研究的工具,全文檢索的功能已經不敷使用需求,因此,如何透過一些語文知識的標示,進而藉助資訊科技,建立語文知識網路系統,讓電腦具備思維能力,是藉助資訊科技建立詩學研究輔助工具的過程中可以努力的方向。

以電腦作為文史研究的工具,電腦做得比人好的部份,交給電腦做,人去做電腦還不能做的事。處理全文檢索等規則的訊息,對現今之電腦而言,只是雕蟲小技,已「能」做得比人好上千萬倍,但是模仿人的思維與感發的心靈活動,電腦還「不能」取代人腦。

本文試圖要探討的主題,是如何建構一個可供詩學研究的電腦輔助工具與環境,如何在電腦「能」做的與「不能」做的中間,透過自動斷詞工作,文字形、音、義關係的標示工作,建立語文知識網路,再利用電腦強大的儲存、分析、歸納、檢索能力,建立一個更人性化的詩學研究之電腦輔助工具,拉近人與電腦之間「能」與「不能」的距離,讓工具為人所用,而不是人去遷就工具的侷限,讓資訊科技與詩學研究建立最符合使用需求的模式,成為詩學研究的輔助工具,進而提高其研究效益,擴充其研究範圍,產生新的研究方法,創造新的研究成果,這是本文試圖探討的方向。

本文所提到的「詩」,泛指廣義的「詩」,亦即指全部的韻文。


本 文


壹、 前言

古籍數位化的發展已經有十多年,數位化的古籍已經累積幾億字,以經部、史部的數量最多,其次是子部,集部最少;相關的研究大抵以發展中文電腦技術及解決中文字形問題為主;應用方面的研究以計算語言學佔的數量最多,應用於文學上的研究比較少。

中文字形的演變有一定的脈絡可循,語言學也可以歸納出一定的規則,而文學則複雜得多。文學的形式,經過許多的演變,文學的內容,因為作者的不同、時代的不同、環境的不同、甚至於君王好惡態度的不同,而呈現多樣的風貌。文學的內容又包含了人的思維與感情,藝術表現手法等。各種不同的文學形式中,又以詩學最為精緻凝練,所以,引用電腦科技作為文學的研究工具,有一定的困難度,作為詩學的研究工具,困難度更高。

詩是一種特殊的文學形式,以聲律與對偶表現其形式之美,以典故豐富其內涵,以比喻、象徵、意象展現其技巧,詩講究「言有盡而意無窮」、講究「不著一字而盡得風流」,因此充分應用了文字的形、音、義之變化,形成一個繁富瑰麗的文學殿堂。

本文將以現有的文學資料庫的功能為起點,探討未來可以發展的方向,以及對於文學研究將能產生何種幫助為著眼點。首先從形音義標示的需要以及文學研究的需要二個角度提出自動斷詞的必要性、其次從形音義自動標示的方法與功用、自動斷詞的方法、自動斷詞提供的功能、自動斷詞附加的功能、建構語文知識網路的方法等幾個角度探討如何建構一個詩學電腦研究環境,最後提出預期可以應用在文學研究的方向。

貳、 現有的文學系統功能

現有的文學系統,大多數具有全文檢索的功能,這些系統或者套用通用性的檢索工具,或者自行研發。前者在進行檢索時,無法細分檢索項目,檢索的精確度較低。以《全唐詩》為例,若套用通用性的檢索工具,輸入欲檢索的關鍵字詞執行檢索功能,系統會將該關鍵字包含於作者、詩題、詩句、詩序的所有資料都列出,而使用者需要的資料可能只限定在作者或詩題或詩句欄位的資料,使用者便需要再以人工將不需要的資料剔除,在研究上的用處有限。

自行研發的檢索工具,能夠針對使用者的需要設定功能,比起通用性的檢索工具,能夠提供更個性化、更人性化的需求。以筆者所主持的【宋代名家詩網路系統】為例〔1〕,所提供的檢索功能包含下列各項(如附圖一):

  1. 作者檢索:可以輸入作者本名、別名、字號等資料檢索。
  2. 詩題檢索:輸入詩題任何一個以上的字,即可檢索出相關的資料。
  3. 詩序檢索:輸入詩序任何一個以上的字,即可檢索出相關的資料。
  4. 詩句檢索:輸入詩句任何一個以上的字,即可檢索出相關的資料。
  5. 綜合檢索:可將作者、詩題、詩句等三個欄位的資料全部輸入,或二個以上欄位的資料輸入,縮小檢索範圍,提高檢索速度與準確度。
  6. 布林檢索功能:進行上述之作者、詩題、詩句檢索時,提供「OR」、「AND」、「NOT」布林檢索功能。
  7. 限定搜尋詩句範圍功能:可以將檢索之搜尋範圍設定在特定的位置,例如搜尋範圍包含全詩文、搜尋範圍只限於出現在第「?」聯者、搜尋範圍只限於出現在句首者、搜尋範圍只限於出現在單數句句尾者、搜尋範圍只限於出現在雙數句句尾者。
除了以「宋代名家詩」為檢索範圍之外,基於研究上文史資料相通的需求,也設計一個名為【唐宋文史資料庫】的整合型研究資料庫(如附圖二),資料內容包含《全唐詩》、《宋代名家詩》、《唐宋詞》、《新唐書》、《宋史》、《唐宋文學研究論著資料》等,整合為可以選擇單一資料庫,或搭配二個以上不同的資料庫作為搜尋範圍的檢索功能。跨資料庫檢索功能的設計,提高使用的方便性。

參、 本文嘗試探討的方向

以上所述文學系統之檢索功能雖云完備,以之應用於資料的搜尋檢索,似已足夠,但是對於應用在文學的研究仍有不足。中國文字大多數具有多音多義的特性,文字字體經過長期的演變,也存在著古今字、通俗體字等一字多形的異體字詞現象,在詩詞裡還有通同用字詞的問題,例如「遊」與「游」通用,「繞」與「遶」通用,「徘徊」與「裴回」通用,「彷彿」與「仿佛」通用。也有一些字詞在當作某些特定的解釋時通用,如「原」與「元」、「不」與「否」。使用者親自閱讀時固然可以分辨,但以電腦作為檢索工具時,電腦無法分辨,因為電腦只認得「字形」,不能分辨「字義」。對電腦而言,不同的「字形」即是不同的「符號」,有不同的「內碼」,不同的「符號」與「內碼」所代表的是不同的「字形」,電腦無法分辨「字形」與「字義」的關係,所以無法辨別異體字詞,如此一來,當使用者以「繞」檢索,便會遺漏「遶」的資料,以「徘徊」檢索,便會遺漏「裴回」的資料。

以上這兩種通同字的用法,或已約定俗成,或已廣被接受,容易分辨,使用者在查詢時也能因為已有的語文知識之認知,選擇關鍵字詞檢索時能同時輸入,但是在講究修辭技巧的詩詞作品中,同一事物,會有各種不同的方式表現,如以人工閱讀,能逐一分辨挑選,如以電腦之搜尋工具檢索,電腦無法分辨,便會遺漏很多資料。

中國詩詞數量龐大,使用者若要進行某些主題研究,傳統的方法是逐一翻檢典籍,尋找符合該主題的資料,逐一記錄、整理、分析。翻檢典籍搜尋資料的時間,往往佔去研究時間的一半以上,而且未必能搜尋完整,或者有些需要進行大量的資料分析、統計,以作為研究主題的佐證數據時,因難以單憑人力完成,研究者只好放棄,殊為可惜。

電腦較之於人腦,其搜尋、分析、統計的能力千萬倍於人腦,如何利用電腦優於人腦的部份,讓電腦做得比人好的,交給電腦做,人去做電腦還不能做的工作,並進一步想辦法讓電腦學習人的能力,拉近電腦「能」與「不能」之間的距離。

從電腦的「不能」發展到接近人腦的「能」,可以嘗試的方法是透過文字形、音、義的標示,經過適當的標示後建立語文知識網路,建立電腦辨識的基礎資料,讓電腦判斷的品質更接近人腦,讓電腦在學習判斷的過程中,累積訊息,進而成為學習「思辨」的基礎,其中的過程可以分為認知、分別、思辨三部份。「認知」是認得字形,「分別」是電腦能進一步區分百分之百完全相對應的異體字詞與同義字詞之間的關係,「思辨」是電腦對於不是百分之百完全相對應的異體字詞與同義字詞,能進一步區分並做出適當的判斷。

「認知」是全文檢索功能目前能做的階段,當使用者輸入某些字詞作為關鍵字詞檢索時,電腦只能就使用者輸入的條件,檢索出字形相同的資料,但是無法檢索出同義字詞,例如以「繞」作為檢索的關鍵字,無法檢索出「遶」字的資料,以「寂寞」作為檢索的關鍵字,無法檢索出「寂莫」的資料;「分別」是指在建立異體字詞資料庫與同義字詞資料庫的前提下,電腦能進一步區分異體字詞與同義字詞之間的關係,例如電腦內若先建立「繞=遶」、「寂寞=寂莫」、「蝴蝶=胡蝶=胡蜨」的資料,使用者輸入其中一種資料,電腦便可檢索出與輸入條件相等的資料,例如輸入「蝴蝶」、「胡蝶」或「胡蜨」,三種資料都可同時檢索出。「思辨」是指在建立語文形音義資料的前提下,電腦能依形音義之間的關係,建立語文知識網路,使用者進行搜尋檢索工作時,電腦能夠從已建立的語文知識網路資料做出適當的判斷(思辨),檢索出符合語文知識的適當資料,提供給使用者,例如「不」與「否」二個字各有二個以上的字義〔2〕,其中某個字義相通,「不」讀為「ㄈㄡ3聲」時同「否」,使用者若以「不」(ㄅㄨ4聲,當不要、不可、不能等否定詞解),則二種資料都會出現,使用者只能再以人工過濾掉「不」(讀為「ㄈㄡ3聲」)的資料,反之亦然。以【宋代名家詩系統】為例,以「不」字為關鍵字進行檢索,以「宋代名家詩」全部詩文為檢索範圍,共計檢索出詩文含有「不」字的資料為「15847首詩,24830句詩文」。「不」當作「否」解時,常出現於句尾,「不」字用於句尾時通常作「否」解,當檢索範圍限定在「只限於出現在單數句句尾者」時,共計檢索出詩文出現在單數句句尾,含有「不」字的資料為「5首詩,5句詩文」;當檢索範圍限定在「只限於出現在雙數句句尾者」時,共計檢索出詩文出現在雙數句句尾,含有「不」字的資料為「63首詩,63句詩文」。但是「不」當作「否」解釋的用法,不只是出現在句尾,還可能出現在句中,出現在句中時便需進一步加上形音義的標示,以利分辨。

肆、 建構詩學電腦研究環境的方法與步驟

本文嘗試建立的形音義標示以自動標示為目標,並且透過形音義標示建立語文知識網路,以提高全文檢索的完整性,使能更符合詩學研究的需要。為了提高形音義標示的效率與正確性,需先做斷詞的工作,斷詞的正確率亦需仰賴形音義的標示,二者可說是相輔相成。自動斷詞除了提高形音義標示的效率與正確性,還可以提供詩學研究的需要,分別說明如後:

一、 自動斷詞的必要性:自動斷詞與形音義的標示可以相輔相成
(一) 形音義標示的需要
  1. 異體字詞標示的功用:
    異體字詞標示的功用,主要是讓電腦認得異體字詞之間的關係。馬文熙、張歸璧等編著的《古漢語知識詳解字典》把文字的字形依應用方式的不同,區分為「分別文」(分別字、區別字)、「古今字」、「異體字」(或體、重文)、「繁簡字」、「正字」(正體)、「假借字」、「通假字」、「通用字」、「別字」(白字)、「偽字」(誤字)、「俗體」等類型。〔3〕這些同義異體字詞可以歸納文獻已有的用法,建立異體字詞的對應關係,以解決異體字詞對應的問題。然而,在詩詞中還存在同音異體字詞之同義詞的問題。
  2. 同義詞標示的功用:
    同義詞分二種,一種是詞彙不同但詞義相同,一種是詞彙不同但存有同音異字關係,前者如「菡萏」為「荷花」的別名,與「荷花」同義自無疑義;後者如「蒲萄=葡萄」、「鞦韆=秋千」等詞彙,組成這些詞的字並不存在異體字的關係,如「蒲」與「葡」二字,雖然「蒲」通「匍」,但不通「葡」;「鞦」與「秋」、「韆」與「千」,彼此並不存在異體字的關係,所以無法以異體字對應關係涵蓋、判斷,但組成詞之後卻構成同義異體詞的關係。又如「婉轉=宛轉」,因「婉」與「宛」都有「曲」的詞義,可以從詞義相同的角度取得對應關係,所以「婉婉=宛宛」,但「宛若」就不能寫作「婉若」,因此同義詞的標示,若先經過適當的斷詞,可以提高對應的準確度。
  3. 讀音標示的功用:
    中國文字多音字佔百分之25.68,比例很高,以《辭源》所收12,890字的讀音,加上倚天注音輸入系統的文字與讀音增補,共計13,051個字分析,其多音字所佔比例如下表:
  4.  

    常用字一

    次常用字二

    次常用字三

    總計

    百分比

    一字一音

    3760

    2522

    3417

    9699

    74.32%

    一字二音

    1232

    671

    785

    2688

    20.60%

    一字三音

    303

    124

    96

    523

    4.01%

    一字四音

    74

    13

    18

    105

    0.80%

    一字五音

    21

    3

    0

    24

    0.18%

    一字六音

    11

    0

    0

    11

    0.08%

    一字七音

    1

    0

    0

    1

    0.008%

    總計

    5402

    3333

    4316

    13051

     

    文字讀音的標示,在本研究的應用上,除了可以作為平仄以及韻腳標示之用,還可以提高字詞義自動標示的正確率。中國文字大多數一字多義,由字組成詞之後,字詞義的變化更豐富多樣,讀音標示的功用,可以依據音隨義轉的通性,不同的讀音,對應不同的字詞義,以提高字詞義標示的正確率。多音字音隨義轉的通性,使不同讀音的字與其他字組成一個詞,以「大」字為例:

    讀音

    詞彙(括弧內為該詞之詞義,引自《辭源》,台灣商務印書館)

    1

    ㄉㄚ4聲

    大才、大士、大千、大凡、大斗、大方、大戶、大內、大風(強勁的風)……

    2

    ㄉㄞ4聲

    大夫(官名、爵位名、職官等級名、宋朝醫官的官階名)、大面(面具,也指戴面具的樂舞)、大王(對王的尊稱)……

    3

    ㄊㄞ4聲

    大卜(掌管占卦的官吏)、大人(周代占夢之官)、大士(官名,殷代掌管神事的官吏,為天官六大之一)、大上(1.指德行最高者2.上古)、大王(指古公亶父)、大風(西風)……

    由此表可知,「大」字與不同的字構成不同的詞,不同的詞有不同的讀音,不同的讀音代表不同的字義,如果在標示讀音之前先做好斷詞的工作,電腦在標示讀音之前可以先檢查所形成的詞彙,正確的標出讀音。但是,從這個例子可知,相同的詞彙也可能因為詞義的不同而有不同的讀音,如上表的「大王」、「大風」,各有二個不同的讀音,分別代表不同的詞義,因此提高讀音自動標示的正確率,除了事先需要先斷詞之外,字詞義的標示也有助於正確率的提高。
  5. 字詞義標示的功用:
    作為建立人工智慧與與語文知識網路系統的基礎,在電腦只能認得字形,無法分辨字義之前,為每一個字詞標示字詞義,使電腦從認得字形進步到能分辨字義,進而能分析不同字詞之間字詞義的關係,構成一個語文的知識網路,將可使電腦成為更有效的文學研究輔助工具。字詞義自動標示之前,若能先斷詞,可以提高字詞義標示的正確性。因為有些長詞是由短詞組合,所組成的短詞含有該短詞的原意,組成長詞之後成為新的詞,含有新的詞義,以電腦自動標示詞義,若先經適當的斷詞,可以提高標示的正確率。例如「麒麟竭」,是藥名,又名「血竭」,是麒麟竭木的脂液。「麒麟竭」可以拆成「麒麟」與「竭」二個詞,若不先經過斷詞,以電腦自動標示詞義時,便有可能分開標示。又如「青溪小姑曲」是樂府神弦歌曲名,是專有名詞,也很容易被拆成「青溪」、「小姑」與「曲」三個詞,而使詞義標示錯誤。字詞義的標示亦有助於提高字形、字音標示的正確率,由此可知,以電腦建立自動標示形音義與自動斷詞的工作可以相輔相成。
(二) 詩學研究的需要
詩是一種特殊的語言形式,王力於〈略論語言形式美〉一文曰:「語言形式所以能是美的,因為他有整齊的美、抑揚的美、回環的美。」〔4〕王力並進一步針對〈詩的語言〉論述曰:「詩是語言形式美的集中表現。在律詞和詞曲中,對仗就是整齊的美,平仄就是抑揚的美,韻腳就是回環的美。」(同〔4〕)詩人們為了達到詩的語言形式美並兼顧詩的意境,往往會創造詩的語言,何謂詩的語言?王力說:「所謂詩的語言,可以從兩方面看,從內容上看,有些散文的語句充滿了詩意,可以說是詩的語言;從形式上看,有些詩句就只能是詩句,如果放到散文中去,不但不調和,而且不成為句子。這裡講詩的語言,是指後者說的。」(同〔4〕)王力又引葉聖陶的話說:「詩之句型,大別為二。一為平常的句型,與散文及口頭語言大致不異。一為特殊句型,散文絕不能如是寫,口頭亦絕無此說法,可謂純出於人工。我以為凡特殊的句型,必對仗而後成立。」(同〔4〕)綜此可知,詩是一種有別於其他文體的文學,詩以最精緻凝練的語言,展現其形式與意境之美。

正因為詩是一種特殊的語言,因此很多的詩語在其他的文體裡不曾出現,北京大學計算語言學研究所於2000年曾進行一項古詩計算機輔助研究,從四百八十一萬字的唐詩、一百六十萬字的宋詩、三百萬字的宋詞中提取出四萬一千七百三十二條唐宋詩詞的多字詞詞彙,其中共有一萬七千五百二十八條詞彙未被《辭源》收錄,這些詞彙往往就是詩的特殊語言。〔5〕

詞是組成文學作品的基本單位,組成詩詞的詞彙,小自一字詞,長至五字詞都有,例如蘇軾〈次韻秦觀秀才見贈,秦與孫莘老、李公擇甚熟,將入京應舉〉:「故人已去君未到,空吟河畔草青青。誰謂他鄉各異縣,天遣君來破吾願。」語出蔡邕〈飲馬長城窟行〉:「青青河畔草,綿綿思遠道。遠道不可思,夙昔夢見之。夢見在我旁,忽覺在他鄉。他鄉各異縣,展轉不可見。」其中「河畔草青青」、「他鄉各異縣」便是五字詞。

詩人們變化著中國的文字,造就出一篇篇形式、內容皆美的文學作品,後人研究前人作品的風格、主題、修辭技巧,或比較不同作者的差異,或探討不同時代作品的演變軌跡,傳統的研究是逐一閱讀作品,仔細分析內容,歸納出結論。若作品數量不多,人力足以勝任,但若作品數量龐大,人力便難以關照周全,人力一旦難以周全關照分析,往往只能提出印象式的推論作為立論的基礎,無法提出科學的數據作為佐證,使得立論的說服力較為薄弱。例如蘇軾的詞被評為「以詩為詞」,詩與詞的分別若可以「詩莊詞媚」別之,何謂「莊」?何謂「媚」?蘇軾「以詩為詞」是否指其詞語「莊而不媚」?或指其常以詩語為詞語?李白與杜甫的詩風,相對的比較上,一般認為李白詩飄逸而杜甫詩沉鬱,風格的區別除了概括性的印象之外,能不能從二人的修辭技巧、語言風格上提出科學的數據?文學史上也常指出某人的詩風受某人影響,或某人刻意學某人?這些評論的立論基礎往往是從局部抽樣所得的概略印象,而不是具體的、全面的分析歸納。詞是組成文學作品的基本單位,詩人用語的分析歸納可以作為詩學研究立論的具體佐證。

詩的修辭技巧,常常是評論詩人成就的一項指標,如葉聖陶所言,詩的語言「純出於人工」,杜甫作詩,為了鍛字練句,而引來「拈斷數莖鬚」的戲謔傳言,因此創發性的詩語,也成為詩人成就的一項指標,但那些詩語創始於那一位詩人,很難以人力分析考證,透過詩詞斷詞、進而分析比較,即可得出客觀的數據。

二、 形音義自動標示的方法與功用
(一) 異體字詞的標示:前已述及,馬文熙、張歸璧等編著的《古漢語知識詳解辭典》將異體字詞依應用方式的不同區分為十一種〔6〕,以唐宋詩詞為例,這十一種異體字詞在詩詞中互相替代的方式可分為:雙向互相替代、三向互相替代、詞與詞互相替代、單向替代四種,分述如下:
  1. 雙向互相替代:指本字與替代字雙向互見者,其替代方式可歸納為八種:
  2. 替代方式

    例子

    替代方式

    例子

    ?同?

    瓶同缾、粗同麤、仙同僊

    ?通?

    才通材、雋通俊

    ?也作?

    庵也作菴、浥也作裛

    ?本作?

    箇本作個、針本作

    ?俗作?

    藥俗作葯

    ?古籍作?

    《說文》作埽、值古籍多作直

    ?別作?

    痋A棋的別體

    ?訛作?、存疑

    「衣夸」,古作「褌」,又訛轉作褲

  3. 三向互相替代:指本字與替代字三向互見者,例如「雕、彫、凋」,凋,古籍中通作雕、彫,三個字互相替代。
  4. 詞與詞互相替代:指互相替代的都是兩字詞,可分為雙向替代與三向替代,雙向替代如「子細=仔細」、「水精=水晶」、「孝弟=孝悌」、「展轉=輾轉」、「落莫=落寞」等等;三向替代如:「姮娥=嫦娥=常娥」、「暗澹=暗淡=黯淡」、「落拓=落魄=落泊」等等。
  5. 單向替代:指文本所用的字有其他通同異體替代字,但作者只用這個字。
  6. 替代方式

    例子

    替代方式

    例子

    1.?同?

    2.?作?解時同?

    1. 燦同粲,蘇軾詩只用粲
    2. 槌,當作敲擊解時,同搥、捶,杜牧詩只用搥

    1.?通?

    2.讀為?通?

    3.以及?作?解時通?

    1. 夸通誇,蘇軾詩用「夸」
    2. 女讀為ㄖㄨ3聲時通汝,晁補之詩用「女」;不讀為ㄈㄡ3聲時通否,蘇軾詩用不
    3. 伎作歌女、舞女解時通妓,李商隱詩用妓

    1.?亦作?

    2.?也作?

    1. 赧亦作「赤皮」,李白詩用「赤皮」
    2. 勖也作勗,李白詩用勗

    1.?本作?

    2.?為?的本字

    1. 甫,本作父,李商隱詩用父
    2. 景為的本字,蘇軾詩用景

    ?俗作?

    1.砂,沙之俗字,蘇軾詩用

    ?為?簡化字

    1.丰,豐的簡化字,李白詩用丰

    ?或作?

    1.兩,當作量詞,指計鞋的單位雙時,或作緉。緉指計鞋的單位雙,蘇軾詩用緉

    1.?古籍作?

    2.?某典籍作?

    1. 值,古籍多作直,李白詩用直
    2. 黧,《韓非子》續注本作犁,色黑也,李白詩用犁

    若純粹是因字形演變及避諱的因素所產生的異體字關係,可以選擇一本字書作為建立異體字詞關係對應表,但是若因字義變化而產生的異體字詞,就需要再進一步建立音義標示的資料,以為標示的輔助。字形標示在執行全文檢索的功用,主要是協助使用者檢索出形義完整的資料。
(二) 字音的標示:字音標示的方法與校正的步驟如下:
  1. 以字為單位,建立文字完整的讀音資料,並將使用頻率最高的讀音放在第一位置。
  2. 以詞為單位,建立詞彙完整的讀音資料。
  3. 以電腦自動標音時優先選擇使用頻率最高的讀音。
  4. 以自動斷詞功能輔助,依音隨義轉的特性,以詞彙讀音資料庫作第一次的修正。
  5. 如所欲標示的讀音並無現有的詞彙讀音資料可資對應時,以所在位置的平仄格律判斷,近體詩講究平仄格律,因此遇到使用頻率相當的字,如「長」字,讀為「ㄓㄤ3聲」及讀為「ㄔㄤ2聲」的頻率不相上下,便可以依該字所處位置應為平聲或仄聲判斷。如該字所處位置在韻腳的位置,還可以依所押的韻更精確的標出平、上、去三個音,入聲字因已散入國語的一、二、三、四聲,難以依平仄分辨。〔7〕
(三) 字詞義的標示
字詞義標示的方法,比字形與字音複雜,本研究以一部詞書為基礎,建立資料如下表:

本字

讀音

字義

作?解時通?

通?之本字

讀音

全部字義與通「?」之字義

ㄈㄛ2聲

  1. 輔佐
  2. 佛教的創始人
       

ㄈㄨ2聲

  1. 相似、2.違背,乖逆

作「違背、乖逆」解時通「拂」

ㄈㄨ2聲

1.撣,除去塵垢、2.掠過、3.擊,斫、4.振動、5.逆,違背、6.農具名

ㄅㄧ4

矯正,通「弼」

ㄅㄛ2聲

1.興起

作「興起」解時通「勃」

ㄅㄛ2聲

1.突然、2.興起、3.變色、4.盛貌

ㄅㄟ4

通「悖」

ㄅㄧ4

1.輔佐

作「輔佐」解時通「弼」

ㄅㄧ4

1.輔佐、2.輔正、3.違背

ㄩ3聲

  • 給予、2.讚許
  • 1.作「給予」解時通「與」、2.作「贊許」解時通「與」

    ㄩ3聲

    1.親附,跟從、2.同類,同盟者、3.給予、4.援助、5.偕,及、6.替,為、7.如、8.與其、9.意通「舉」

    ㄩ4聲

    1.參與、2.稱譽

    ㄩ2聲

    語助詞

    ㄩ2聲

    作「我」解時同「余」

    ㄩ2聲

    1.、2.農曆四月的別稱、3.通「餘」

    ㄒㄩ2聲

    余吾,古水名

    由上表可知,「佛」字有四個讀音,其中三個讀音的詞義或某些詞義,因為分別與另三個字的某些詞義相同而通用,而相對應的三個字也都各有二個以上的讀音,詞義,彼此相對應的詞義,其讀音往往相同。因此將每一個字的形音義都加上音義的標注,建立形音義資料庫,電腦在進行檢索工作時,便可據此資料庫「思辨」只有某些字詞義相同的字詞,有助於提高檢索的完整性。系統也可以透過更細緻的功能設計,給使用者更多的選擇,例如:使用者執行全文檢索功能時,系統提供「特定名稱」與「任意名稱」二種查詢條件。「特定名稱」是指系統執行檢索時,只檢索出與所輸入條件「字形相同」的資料,「任意名稱」是指系統執行檢索時,能檢索出與所輸入條件「字形與字義相等」的資料。

    三、 自動斷詞的方法
    中國的古典詩以五言與七言最多,句子短,因此短詞比長詞多,尤以二字詞所佔的數量最多。句數都是奇數,所以單字詞比其他文體多,加上詩之語言形式的特殊性,使詩的斷詞方法異於其他文體。詩人為了豐富詩的內涵與意境,常用典故,為了生動,常用使動詞修飾,為了合乎平仄,也常用倒裝句,凡此種種,都增加了詩斷詞工作的困難度,也使得已發展的斷詞方法不能完全適用於詩的斷詞工作。

    本研究所建構的方法,首要的考慮是提供給文史研究者使用,因此在功能上,將優先考慮使用方法的方便性,提供一個親和力較高的使用介面,即使是不熟悉電腦操作的使用者,也很容易學會使用;其次是使用方式的彈性,既是提供給研究者作為研究的工具,系統應是提供釣竿、釣線、魚餌,而不是直接供應釣物。使用者可以依自己的需要,自由搭配不同的工具,使工具為人所用,而人不受工具所限。因此系統提供使用者可以自由選擇與搭配使用條件的空間,以符合研究者個別性的需要。基於這些考慮,本研究所建構的斷詞方法分為下列幾個步驟,在優先順序上以「長詞先斷」為原則(如附圖三、四):

    1. 從標點符號斷詞:句尾與句中的標點符號,可作為斷詞的點自是無庸置疑,自動斷詞的第一個步驟先從標點符號斷開。
    2. 以句法斷詞:多字詞的詞彙以二字詞為最多(見下「中研院上古漢語語料」、「辭源語料」表),二字詞之中有雙聲詞、疊韻詞、複疊詞,詩詞文體使用雙聲詞、疊韻詞、複疊詞的比例又比其他文體為多。五言詩以「2、3」或「2、2、1」或「2、1、2」句法居多,七言詩以「2、2、3」、「2、2、2、1」或「2、2、1、2」句法居多,因此五言詩可以先以首二字「2」的句法斷句,七言詩以首四句「2、2」句法斷開,後三字分別各以「1、2」以及「2、1」各斷一次,或者五言詩以「2、3」、七言詩以「2、2、3」斷句,其次再將整首詩以「中研院上古漢語語料」〔8〕、「辭源語料」〔9〕、「詩詞典故語料庫」〔10〕、「專有名詞語料庫」〔11〕(地名、人名、官銜等)比對,依長詞優先,以及現有語料優先、前後二句句法相對等原則重新斷句。今舉唐代張祜〈集靈臺〉二首之二:「虢國夫人承主恩,平明騎馬入宮門。卻嫌脂粉污顏色,淡掃蛾眉朝至尊。」為例,自動斷詞如下:
    3. A

      虢國

      夫人

      承主恩

      平明

      騎馬

      入宮門

      卻嫌

      脂粉

      污顏色

      淡掃

      蛾眉

      朝至尊

      B

      虢國

      夫人

      承主

      平明

      騎馬

      入宮

      卻嫌

      脂粉

      污顏

      淡掃

      蛾眉

      朝至

      C

      虢國

      夫人

      主恩

      平明

      騎馬

      宮門

      卻嫌

      脂粉

      顏色

      淡掃

      蛾眉

      至尊

      D

      虢國夫人

      主恩

      平明

      騎馬

      宮門

      卻嫌

      脂粉

      顏色

      淡掃

      蛾眉

      至尊

      說明:A欄為以「2、2、3」句法斷句,B欄為以「2、2、2、1」句法斷句,C欄為以「2、2、1、2」句法斷句,D欄為經過《辭源》語料比對。《辭源》有「虢國夫人」、「夫人」、「平明」、「騎馬」、「宮門」、「脂粉」、「顏色」、「蛾眉」、「至尊」等詞彙,依長詞優先以及前後句對應的原則,可斷如D欄。

      若詩句之句法比較特殊者,其斷詞的正確率相對降低,如蘇軾〈酴醾洞〉:「長憶故山寒食夜,野酴醾發暗香來。分無素手簪羅髻,且折霜蕤浸玉醅。」為例,第二句「野酴醾發暗香來」是「1、2、1、2、1」句法,斷詞如下:

      A

      長憶

      故山

      寒食夜

      野酴

      醾發

      暗香來

      分無

      素手

      簪羅髻

      且折

      霜蕤

      浸玉醅

      B

      長憶

      故山

      寒食

      野酴

      醾發

      暗香

      分無

      素手

      簪羅

      且折

      霜蕤

      浸玉

      C

      長憶

      故山

      食夜

      野酴

      醾發

      香來

      分無

      素手

      羅髻

      且折

      霜蕤

      玉醅

      D

      長憶

      故山

      寒食

      酴醾

      暗香

      分無

      素手

      羅髻

      且折

      霜蕤

      玉醅

      說明:A欄為以「2、2、3」句法斷句,B欄為以「2、2、2、1」句法斷句,C欄為以「2、2、1、2」句法斷句,D欄為經過《辭源》語料比對。《辭源》有「寒食」、「酴醾」、「暗香」、「素手」、「玉醅」等詞彙,所以修訂了「野、酴醾、發、暗香、來」的句子,也因「且折霜蕤浸玉醅」這一句的句法為「2、2、1、2」,確定了相對應的前一句「分無素手簪羅髻」的句法相同,因此斷為「分無、素手、簪、羅髻」。但是遇到「句法對應」與「長詞優先」「語料比對優先」的三個條件同時出現時,「句法對應」的排序在最後,因為有些詩人會用特殊句法。

      不將雙聲、疊韻、複疊詞等列為優先斷句,是因詩詞中前後同時連續出現的兩個字,雖然正好符合雙聲、疊韻、複疊詞的形式條件,但不一定是雙聲、疊韻、複疊詞。晁補之作詩喜用複疊詞,以晁補之詩為例,若將兩個相同的字,「前後同時連續出現」定義為讓電腦檢查的複疊詞條件,將會出現不具意義的詞組,以電腦分析晁補之詩全文為例,得到一百二十九條複疊詞,但其中有「井井、牛牛、坐坐、車車、門門、雨雨、南南、城城、根根、馬馬、睹睹」等十一個詞組,符合複疊詞形式條件的定義,但這些詞或為無意義的詞組,或在晁補之詩中非以詞的形式使用者,如:「門門」的原文是「梁門門西狹斜陌」(〈長安行贈郭法曹思聰〉),是二2、2、1、2的句法,應斷成「梁門、門西、狹、斜陌」。「南南」的原文是「北山之南南山北」(〈題李偁推官頤齋〉),是2、2、2、1的句法,應斷成「北山、之南、南山、北」。〔12〕

      五言詩也有「3、2」句法的詩,七言詩也有「3、2、2」句法的詩,但所佔數量較小,以這一類的句法作詩,第一句往往是專有名詞,因此輔以專有名詞語料比對、優先的功能,亦可斷出此類句法的三字詞。例如李益〈夜上受降城聞笛〉:「迴樂峰前沙似雪,受降城外月如霜。不知何處吹蘆管,一夜征人盡望鄉。」前二句便是以三字詞起句,這二個三字詞都是專有名詞。

    4. 以中研院上古漢語語料斷詞:收單字4861字,多字詞80526條,共計85387條。
    5.  

      單字詞

      二字詞

      三字詞

      四字詞

      五字詞

      六字詞以上

      總計

      字數

      4861

      47667

      24862

      7338

      483

      176

      單字詞:4861

      多字詞:80526

      總計:85387

      多字詞百分比

       

      59.20

      30.87

      9.11

      0.60

      0.22

      全部百分比

      5.70

      55.82

      29.12

      8.59

      0.57

      0.21

    6. (四) 以《辭源》語料斷詞:收單字詞12890,多字詞82802條,共計95692條。
    7. 詞彙別

      數量

      多字詞百分比

      全部百分比

      詞彙別

      數量

      多字詞百分比

      全部百分比

      單字

      12890

       

      13.47

      二字詞

      66087

      79.81

      69.02

      三字詞

      9216

      11.13

      9.63

      四字詞

      6763

      8.17

      7.07

      五字詞

      443

      0.53

      0.46

      六字詞

      155

      0.19

      0.16

      七字詞

      57

      0.07

      0.06

      八字詞

      62

      0.07

      0.06

      九字詞

      7

      0.008

      0.0073

      十字詞

      6

      0.007

      0.0062

      十一字詞

      1

      0.0012

      0.001

      十二字詞

      3

      0.004

      0.0031

      十四字詞

      1

      0.0012

      0.001

      十六字詞

      1

      0.0012

      0.001

      總計 單字詞:12890 + 多字詞:82802 = 95692

    8. 專有名詞語料庫:詩詞中常以地名、人名、官銜等專有名詞入詩,專有名詞資料庫的建立,有助於提高斷詞的正確率。
    9. 詩詞典故語料庫:詩詞常以典故修飾用語,豐富內涵,但同一個典故,不同的詩人會以不同的字詞修飾,如秦之東陵侯召平於長安東門種瓜的典故,詩人引用這個典故,曾用過的詞有「東陵侯、東陵瓜、東門瓜、召平瓜」等四種詞語,詩詞典故資料庫的建立,一方面有助於提高斷詞正確率,一方面可以作為判斷同義詞之用。今人整理出版之典故辭典有《全唐詩典故辭典》、《全宋詞典故辭典》〔13〕,可作為典故詞語的基本資料。

    四、 自動斷詞系統提供的功能

    北京大學計算語言所進行的「古詩計算機輔助研究系統及應用」研究,在古詩詞詞彙自動提舉的方法中,統計古詩詞的多字詞時,提出「相對共現度」、「統計距離」、「多維度統計抽詞模型」的觀念與方法(同〔5〕)得出很好的結果,為大批詩詞資料的斷詞工作提供了有效的方法,但是詩的特殊語言與特殊句型的特性,往往使得詩文中有很多詞彙在其他文體中不被使用或不能使用,也有很多共同出現的字,雖有一定的「相對共現度」,但因特殊句法的關係,並不成為詞,例如前所舉晁補之的詩中連續共同出現的:「井井(3、2)、牛牛(1、1)、坐坐(3、2)、車車(0、3)、門門(6、8)、雨雨(0、8)、南南(2、5)、城城(8、2)、根根(0、2)、馬馬(4、1)、睹睹(0、1)」(括弧內的第一個數字是在《全唐詩》系統出現的次數,第二個數字是《宋名家詩》系統出現的次數)等十一個詞組在晁補之詩中的用法都不是詞,但在唐宋詩共同出現的次數有些多達十四次(門門),檢視這些詩使用的「複疊」字,對應原文可以判斷,這些「複疊」字有些是詞,也些不是,不是詞的部份,以詩詞的句法可以判斷。

    本研究以有別於北京大學計算語言所的斷詞方法,進行詩詞自動斷詞的研究,除了嘗試以不同方法進行實驗之外,主要的目的有五,其一為避開前述不能顧及詩詞句法特性的缺點;其二為提供給個別使用者具有多元功能選擇性的空間,使之更個別化、更人性化;其三為區別詩詞特殊用語,經過幾個現有詞庫比對,仍無法斷出的詞語,顯然是詩詞特殊詞語;其四為可以清楚提舉單字詞,其五為提供以人工再行校訂的使用介面。

    本研究所研發之自動斷詞系統,安置於可以連結網際網路的平台,提供下列功能:

    1. 自由選擇範圍:使用者可以選擇一個以上的作者、詩題,作為進行自動斷詞的範圍。
    2. 自由選擇斷詞步驟:使用者可以依實際的需要,選擇斷詞的步驟。自動斷詞的步驟分為標點符號、句法、辭源語料、上古漢語語料、專有名詞語料、典故語料等步驟,使用者可以自由選擇斷詞步驟。
    3. 列出結果:完成斷詞後,以不同的方式列出結果,其一為以WORD檔案形式列出,以不同的顏色或字體標出不同斷詞步驟所斷出的詞以及無法斷出的詞。其二為以EXCEL檔案形式列出,列出所產生的語料,並列出經過上列步驟仍無法判斷的字詞,顯現的方式是列出該句的作者、詩題、該資料所屬之詩句,以便另以人工判斷。
    4. 律詩能單獨以頷聯與頸聯為斷詞範圍,列出頷聯與頸聯的詞彙。
    5. 以不同範圍進行斷詞的結果,能比對其結果的異同。
    6. 以不同範圍進行斷詞的結果,能統計其詞頻。
    7. 能從斷詞結果再進一步篩選出專有名詞與典故資料。
    8. 建立新的語料儲存及回饋資料庫:使用者每次透過系統斷出的語料,系統提供一個語料庫儲存區存放,並且可以成為下一次斷詞的比對資料。詩詞語料被重複使用的機率很高,因此儲存已斷出的語料,提供比對,將有助於提高斷詞的效率。

    五、 自動斷詞系統提供的附加功能

    前已言及,自動斷詞可以提高自動標音的正確率、提高自動標示詞義進而進行同義字詞判斷的正確率,並透過韻腳的自動標注,判斷詩體,以提供律詩之頷聯與頸聯的詞彙,進行對仗的研究。因此,自動斷詞系統提供下列附加功能。

    1. 自動標示讀音:標示方法已如前述。
    2. 自動標示韻腳:自動標示每一首詩押何韻。
    3. 自動標示詩體:詩體可以分為近體詩(五、七言絕句,五、七言律詩)、古體詩(樂府、古詩)。古體詩與近體詩的押韻方式、句式不同,透過韻腳標示與句式特徵,可以判斷詩體。
    4. 自動標示異體字:建立異體字對應資料,標示異體字。

    六、 建構語文知識網路的方法

    前已言及中國文字的特性,建立語文知識網路,需先對文字的形音義加以標示,字音、字形、字義的個別標示方法已如前述,建立詩詞語文知識網路的標示方法,除了以現有辭書為基本工具之外,還需加上增補詩詞語料以及建立同類詞檔案的功能。分述如下:

    1. 形音義語文知識標示
    2. 本字

      讀音

      詞義

      異體字

      通同字

      詞彙

      ㄐㄧ2

      1.簿冊2.門籍3.登記4.沒收入官5.6.皇位,通「阼」7.

      古籍中「籍」、「藉」兩字互用

      當「皇位」解時,通「阼」

      籍田、籍沒、籍甚、籍馬、籍貫、籍籍

      ㄐㄧㄝ4

      通「藉」

      古籍中「籍」、「藉」兩字互用

      通「藉」

      籍在

      ㄐㄧㄝ4

      1.薦,草墊2.坐臥其上3.4.撫慰5.含蓄6.假設之詞

      古籍中「籍」、「藉」兩字互用

       

      藉口、藉手、藉蒿、藉蔭

      ㄐㄧ2

      1.踐踏,凌辱2.進貢3.繩,繫4.通「籍」,古籍中「籍」、「藉」兩字互用

      古籍中「籍」、「藉」兩字互用

      通「籍」,古籍中「籍」、「藉」兩字互用

      藉田、藉靡、藉藉

      由本表可見,「籍」與「藉」各有兩個讀音,分別有不同的字義,系統設計時透過固定的欄位標示與用詞標示(如:只有某一個解釋與另一個字相通時,統一的格式是「當『?』解時,通『?』」,並且將異體字與通用字的欄位分開。異體字是完全相等的字,通用字是指只在某些字義之下通用的字。由表中亦可知,因為「籍」與「藉」通用,所以所產生的詞條「籍田=藉田」、「籍籍=藉藉」。

    3. 增補詩詞語料:語文知識網路的形音義標示以《辭源》之資料為基本資料,而唐宋詩詞中有些詩詞的用語未被收錄於《辭源》,需要另外增補,以使語文知識網路的資料更完備。
    4. 建立同類詞:詩詞中固然常以同義詞來作為修辭的方法,但在同義詞之外也常將修辭範圍擴充到同類詞。在研究上除了需要搜尋同義字詞之外,有時需要擴充到同類詞,才能使資料更完整。建立這一類的資料可以參考《藝文類聚》、《廣群芳譜》之類的工具書。或如《詩韻全璧》附錄〈詩學含英〉將詩詞用語分為天文、時令、節序、地輿、宮室、君道、人倫、麗人、遊眺、飲食、器用、百花、百穀、飛禽十四類,每一大類之下再分細項,每一項下整理出同義或同類詞,如百花類,描寫牡丹的詞有「姚黃、魏紫、美肌、膩體……」,描寫桂花的詞有「玉犀、金粟、古香、寒馥……」等,建立同類詞表,使用者檢索資料,可以從同義字詞擴充到同類字詞。同類詞資料的建立,還有助於詩詞習作時豐富詞彙參考之用。
    伍、預期可應用在文學研究的方向

    文學的研究應以文本為重,詩詞的研究亦是,然而有些詩人作品數量極多,熟讀原典,已不容易,若涉及二家以上的研究或同一個時期、同一個朝代、甚至跨朝代,那就更不容易。《全唐詩》有四百八十萬字,《宋詞》有三百萬字,《全宋詩》的數量十倍於唐詩,要熟讀這些原典,進而就其內容分析、比較、研究,需要有適當的工具協助,才有可能做到。本研究即嘗試以電腦作為文學研究的輔助工具,嘗試建立詩學的電腦研究環境,以進行需要大量資料分析、比對的研究主題,今試論幾個可以探討的方向:

    1. 不同文體用語區別研究:詩詞是唐宋文學的主流,唐宋時很多文人都能詩、能詞、能文,但也有些文人能文不能詩,究竟詩、詞、文的創作有何異同?文人對這些作品的批評中,有「以文為詩」、「以詩為詞」、「詩似小詞」的說法,如李清照於《詞論》評蘇軾詞曰:「蘇子瞻學際天人,作為小歌詞,直如酌蠡水於大海,然皆句讀不協之詩耳。」〔14〕陳師道於《后山詩話》評韓愈文與蘇軾詞曰:「退之以文為詩,子瞻以詩為詞。如教坊雷大使舞,雖極天下之工,要非本色。」〔15〕《坡仙集外紀》:「東坡問陳無己:『我詞何如少游?』無己曰:『學士小詞似詩,少游詩似小詞』」〔16〕。究竟什麼是「文語」?什麼是「詩語」?什麼是「詞語」?可以藉著詩詞斷詞的工作,具體比較詩、詞、文用語的不同,以客觀論證韓愈是否「以文為詩」,蘇軾是否「以詩為詞」,秦觀是否「詩似小詞」。
    2. 詞語的創新:修辭的技巧是評論詩詞的一個重要指標,詩人們或以豐富的學養,或以敏銳的直覺創造出形象繁複的詩詞語言,創造出優美的詩歌,這些語言甚至於因此而成為一個固定的意象,如「綠窗」、「南浦」、「板橋」、「東籬」等,或因此而有了別緻的情韻,或成為固定的象徵,吸引後世詩人引用。〔17〕自動斷詞的工作可以作為詞語創新研究的輔助工具,透過可以分列朝代、分別作者的斷詞功能,很容易可以分析出詩詞語最早出於何人筆下?後世引用情形如何?後人引用時其詞義是否有變動?
    3. 文學風格與修辭的特色:嚴羽《滄浪詩話》曾就李白與杜甫詩風的異同評曰:「李杜二公,正不當優劣,太白有一二妙處,子美不能道;子美有一二妙處,太白不能作」〔18〕,又說「子美不能為太白之飄逸,太白不能為子美之沈鬱。」(同〔18〕)這二段文字正說明了詩人各有其不同的風格,使其詩作產生不同的意境。袁行霈於〈中國古典詩歌的意境〉一文曰:「因為意境中有詩人主觀的成分,所以好詩的意境總是個性化的。詩人獨特的觀察事物的角度,獨特的情趣和性格,構成意境的個性。」(同〔17〕,頁25-55)而形成不同風格的因素很多,因個人修辭特色的不同,引用不同的事物,營造不同的意象,形成不同的風格,產生不同的意境,因此,研究詩人風格的不同,可從其修辭特色著手,將作品的用語先經過斷詞,再經過適當的分類,可據以分析詩人用詞的特色,並對其文學風格進行評論時,能提供更客觀的數據作為立論的基礎。
    4. 互相的影響:在文學批評上常說,某人之詩風受某人之影響,某人之詩風影響及於後世,卻很難具體指出影響的證據。形成詩風的因素及評論詩風的範圍很廣,但是修辭特色是其中可以據以判斷的項目之一。劉大杰的《中國文學史》說:「在杜甫到元、白這一新樂府運動的主要潮流中,另有幾位詩人,在風格上別成一派,比起詩歌的思想內容來,他們比較偏重藝術的技巧,並且對於後代的詩人也發生很大的影響,是由孟郊、韓愈代表的奇險冷僻的一派。賈島、盧仝、馬異、劉叉,都是這一派的詩人。」〔19〕劉大杰進一步分析孟郊的詩「用字造句,費盡苦心。」、「務去陳言,立奇驚俗」、「這種詩的好處,是能救平滑淺露之失,而其弊病,卻又冷僻艱澀。」分析韓愈的詩,也認為韓愈喜歡「用奇字,造怪句」、「務去陳言,富於獨創」,對於賈島的詩,評其「過於刻畫,過於求新求奇,所以總是佳句多而佳篇少。」這些評論都以他們的詩詞用語做為評論的方向,因為他們之間的用語有「務去陳言」的共同特色,因此斷定有互相影響的關係。由此可知,透過詩詞自動斷詞,再分析其用語,可以成為詩人之間是否互相影響的證據之一。
    5. 文學風格:蘇軾於〈祭柳子玉文〉評論元稹、白居易、孟郊、賈島的詩,有「元輕白俗,郊寒島瘦」〔20〕之語,都是從他們詩作的用語出發,因此分析詩人用語有助於分析其風格。
    6. 詩語的演變研究:各種詞語在不同的朝代,不同的文體,出現的時間、頻率不同,自動斷詞的功能將有助於作為詩語演變研究的有效工具。

    陸、 結論與未來的發展

    在古籍數位化工作發展了一段時間之後,嘗試建構一個可供詩學研究的電腦輔助工具,是一項新的實驗。詩是中國文學的主流,在歷代均佔有極重要的份量,唐宋兩代是中國文學成就最高的時代,詩詞又是唐宋文學的代表作,在中國文學的領域裡佔有舉足輕重的地位,結合資訊科技,建構一個更好的詩學研究環境,對於詩學研究工作將有莫大的幫助。

    詩詞豐富的內涵,多變的詞語,高遠的意境,造就一個瑰麗繁複的文學殿堂,透過自動斷詞、形音義標示的工作,建立詩學的語文知識網路,只是在全文檢索的基礎上往前邁進一小步。工具的開發,還需要不斷的實驗與多角度的驗證,才能更臻完美,期待這一小步的實驗,能吸引文學研究者實際應用這個工具從事詩學的研究工作,在應用的過程當中發現問題,作為下一次改善的基礎,使電腦的「不能」與人的「能」,在不斷的實驗論證中,找到最好的契合點。

    本研究的自動斷詞工作,優點是可以給予使用者較大的「彈性使用方式」的空間,可以清楚分別一般典籍用語及詩詞用語的不同,可以取得比較正確的單字詞,缺點是大批資料在網路上斷詞的速度比較慢,如能與北京大學計算語言所「古詩計算機輔助研究系統」的斷詞工作互相結合,彼此截長補短,將可取得更好的成果。

    在全文檢索方面,從十年前的單機版全文檢索系統,到近十年來網路版的全文檢索系統,使用者從只能在固定的某一台已安裝全文檢索系統的電腦查詢,發展到使用者只要在任何一台可以連結網路的電腦上,都可以進行檢索工作。現在更可以利用無線通訊協定(WAP, Wireless Application Protocal),以手機或個人數位助理(PDA, Personal Digital Assitant)撥接上網查詢,使用者在任何地方,只要有WAP手機或PDA,都可以上網查詢資料,不再受限於身邊是否有可以上網的電腦,本研究也將進行以WAP手機或PDA上網的實驗,初步遇到的瓶頸是查詢速度受到頻寬的影響,速度較慢,下載資料受到畫面容量的影響,無法下載大量的資料,但是這個侷限即將因為藍芽技術(Bluetooth)的發展而解決,多家製作筆記型電腦的廠商正將藍芽技術應用在可以無線上網的筆記型電腦,畫面容量的問題便可解決,可以預期的是在硬體設備方面的問題,將是比較容易解決的。

    致謝:

    感謝元智大學資訊管理研究所謝超煒同學協助自動斷詞程式設計,張如瑩同學協助使用WAP技術應用的開發以及介面設計,李錫捷教授協助指導。本研究計畫過程結合了與北京大學計算語言學研究所的合作計畫項目,感謝俞士汶教授共同指導,胡俊鋒同學協助。寫作過程當中,多蒙北京大學袁行霈教授、家師黃啟方教授在詩學相關問題上給我很多指導,伊利諾大學鄭錦全教授在語言學方面給我很多指導,中研院謝清俊教授在中文數位化方面給我很多指導,謹此致謝。

    附註:

    1. 羅鳳珠主持,【唐宋文史資料庫----宋代名家詩】,內含蘇軾、晁補之、陸游、范成大、楊萬里、王禹偁、范仲淹、晏殊、梅堯臣、歐陽修、蘇舜欽、蘇洵、王安石、蘇轍、鄧忠臣、秦觀、黃庭堅、賀鑄、陳師道、張耒、李廌、晁說之、王令等宋代名家詩全文,共計約500萬字。網址:http://cls.admin.yzu.edu.tw/tasuhome.htm。
    2. 「不」字與「否」字之音義如下表,由表中可知,「不」共有四個讀音,「否」共有二個讀音,「不」讀為「ㄈㄡ3聲」,同「否」:
    3.  

      「ㄅㄨ4聲」,否定詞,表示相反意。

      「ㄈㄡ3聲」,同「否」

      「ㄈㄡ1聲」,姓。

      「ㄈㄨ1聲」,花萼。

      「ㄈㄡ3聲」,不,不然。

      「ㄆㄧ3聲」惡……。

         

    4. 馬文熙、張歸璧等編著,《古漢語知識詳解辭典》,(北京中華書局,1996年10月第一版)。
    5. 王力著,《王力詩論》,(廣西人民出版社,1988年8月出版)。
    6. 參見北京大學計算語言研究所,《古詩計算機輔助研究系統及研究》鑑定材料,2000年2月)。
    7. 詳見拙著,〈談唐宋詩的用字現象與在數位化過程中衍生的問題及解決之道〉,中央研究院「電子古籍中的文字問題」研討會,8年6月14-16日
    8. 參見穗志方、俞士汶、羅鳳珠,〈一個古詩自動注音系統的設計與實現〉,《中文信息學報》,第12卷第2期,1998年2月,頁44--53以及羅鳳珠,〈音韻自動標注對詩學研究的意義〉,1998年11月9-11日,1998年台灣區網際網路研討會(TANET'98),東華大學。
    9. 中央研究院上古漢語語料庫包含:尚書、毛詩、周易、儀禮、周禮、禮記、春秋公羊傳、春秋穀梁傳、春秋左傳、國語、戰國策、論語、孟子、墨子、莊子、荀子、韓非子、呂氏春秋、老子、商君書、管子、晏子春秋、孫子、大戴禮記、韓詩外傳、吳子、尉繚子、六韜、司馬法、慎子、文子、關尹子、鶡冠子、公孫龍子、鄧析子、尹文子、鬼谷子、燕丹子、列子集釋、孝經、爾雅、周髀算經、九章算經、黃帝內經素問、黃帝內經靈樞、難經、古本竹書紀年輯證、逸周書、穆天子傳、孔子家語、孔叢子、吳越春秋、越絕書、山海經、楚辭、史記、漢書、新書、新語、春秋繁露、淮南子、新序、說苑、列女傳、鹽鐵論、法言、西京雜記、前漢紀等六十八種古籍的語料,網址:http://www.sinica.edu.tw/ftms-bin/ftmsw3
    10. 「辭源語料」:以陸爾奎主持編纂,吳澤鹽、黃秋耘、劉葉秋編纂,的大陸版《辭源》修訂本為基礎,將《辭源》所收辭條作為基本資料,《辭源》修訂本,(台灣商務印書館發行,1993年。)
    11. 「詩詞典故語料庫」:以《全唐詩典故辭典》及《全宋詞典故辭典》所收詩詞典故為基本資料,參見〔13〕。
    12. 「專有名詞語料庫」:包含地名、人名、官銜等專有名詞,地名資料以譚其驤主編,《中國歷史地圖集》,地圖出版社出版,1982年,所收中國歷代地名為基本資料。人名資料只收宋代,以昌彼得等主編,《宋人傳記資料索引》,鼎文書局,1977年12月增訂版之人名資料為基本資料,官銜資料以黃本驥編著,《歷代職官表》,(洪氏出版社,1983年11月再版)之歷代職官資料為基本資料。
    13. 詳見拙著,《晁補之及其文學研究》,(樂學書局出版,2000年3月出版),頁241-263。
    14. 范之麟、吳庚舜主編,《全唐詩典故辭典》,(湖北辭書出版社,1989出版)、范之麟主編,《全宋詞典故辭典》,(湖北辭書出版社,1996出版)。
    15. 李清照著,《詞論》,收於胡仔纂集 廖德明校點《苕溪漁隱叢話》前集卷三十三,(北京人民文學出版社,1984年出版)。
    16. 陳師道著,《后山詩話》,收於何文煥編訂,《歷代詩話》,(台北市藝文印文館,1991年出版)。
    17. 蘇軾撰、李贄評輯,《坡仙集十六卷》,明萬曆庚子(二十八年)繼志齋刊本,收於烏石山房文庫。明神宗萬曆28年(1600年)刊印。
    18. 參見袁行霈著,《中國詩歌藝術研究》上編〈中國古典詩歌的多義性〉,(五南圖書出版公司,1989年5月台灣初版),頁3-24。
    19. 嚴羽著,《滄浪詩話》,台北市 金楓書局出版,1986年。
    20. 劉大杰著,《中國文學史》,(華正書局,1980年5月出版),頁494-495。
    21. 蘇軾著,〈祭柳子玉文〉,收於《蘇軾文集》,(北京中華書局,1986年出版),卷63,頁1938。
    附圖

    附圖一:【宋代名家詩網路系統】 附圖二:【唐宋文史資料庫】

     

     

    附圖三:宋詩自動斷詞系統主畫面 附圖四:宋詩自動斷詞系統斷詞結果