与罗老师合作研究的记忆

俞士汶  朱学锋

北京大学计算语言学研究所 

 

 

823日惊悉罗凤珠老师于22日英年早逝的噩耗,悲怆不已。罗老师在与恶魔胰腺癌搏斗的年月中,仍念念不忘学术研究,一直在同我们交流、切磋,Email的字里行间从不见重病患者的苦痛与哀怨。在罗老师仙逝前1个月,罗老师还和我们通信(721日):

俞:“10月份在山东烟台开两岸学者汉语语言学研讨会,我应邀出席,拟写与罗老师合作体会的有关文章。真希望罗老师能继续发挥作用。大家都觉得要永远与罗老师在一起。”

罗:“論文的事,目前恐怕都使不上力。這一個多月來,我無法坐起,更無法下床,非常抱歉。[1]

俞:“千万不要操心论文的事。重读你的《穿过云雾迎来朗朗晴空》[2],对提交鲁东大学10月份会议的论文有了灵感。考虑写《两岸学者共建成语-典故知识库的收获》,与一般学术论文不同,我想增加一些在长期交流合作中,我们从你身上学到了什么的有关内容。”

罗:“非常好的構想,我無法參與撰稿,但寫完請寄給我,由彥廷[3]印出來,我便可以看。

722日,罗老师再次来信:“俞老師,題目的『收穫』二字,若改為『雙贏互惠策略』,可好?彥廷回來幫我處理很多雜事。剛才中醫來看我,說我脈象穩定很多,請代我向團隊成員報告,我繼續努力。”这是我们收到的罗老师的最后一封Email

现在,罗老师休息了。我们追忆与罗老师合作研究的历程,仍有岁月峥嵘之感受。

与罗老师合作研究,取得的最后一项成果是“汉语成语-典故知识库”。访问罗老师建的网站 http://cls.hs.yzu.edu.tw/DLKB/Idiom_Index.aspx20134月启用),呈现“分阶多语成语典故知识库”页面,选择 http://cls.hs.yzu.edu.tw/DLKB/Img/idiom_Index/Idiom__05.jpghttp://cls.hs.yzu.edu.tw/DLKB/Img/idiom_Index/Idiom__06.jpg http://cls.hs.yzu.edu.tw/DLKB/Img/idiom_Index/Idiom__09.jpg http://cls.hs.yzu.edu.tw/DLKB/Img/idiom_Index/Idiom__10.jpg  分别进入不同语言的版本。在“中文版”的页面上,可进行成语检索。在提示“成语:”后的空白处键入繁体字的“嫣然一笑,就可以检索出一条该成语的简明信息, 进一步点击上表中的“嫣然一笑”,还可以获取该成语的详细信息。若不方便输入繁体字,可借助“索引”功能直接选取欲检索的成语。这个网站可以帮助用户更深刻地理解成语,更准确地运用成语。

这个分阶多语成语典故知识库网站是两岸学者共同研制的“汉语成语-典故知识库”的展示平台,也体现了罗老师关于分阶段循序渐进与多语言对照的成语学习理念。“汉语成语-典故知识库”是蒋经国国际学术交流基金会支持的“历代语言知识库建置计划”的一项成果,为这个网站提供了内容支持。

“历代语言知识库建置计划”是罗老师生前主持的最后一个国际合作研究项目。

长期的学术交流让罗老师和北京大学计算语言学研究所(以下简称计算语言所)的每一位成员都很熟悉。罗老师一直期望同计算语言所的年轻的学术骨干有实际的深度的合作,于2009年提出共同申请蒋经国国际学术交流基金。基于对双方研究基础和志趣的了解,我们建议开展“历代语言知识库”的研究。罗老师常年致力于中国古典文学研究与信息技术的结合,在两岸学术界都有广泛影响,其成果集中反映网站“网路展书读”http://cls.hs.yzu.edu.tw/中。计算语言所在自然语言处理领域长期积累的一项成果“综合型语言知识库”(简称CLKB)为以汉语为核心的语言信息处理的原创性研究和应用开发做出了重要贡献。CLKB是现代汉语共时研究的成果,在其基础上开展语言知识的历时研究是自然的发展方向之一。我们的建议得到罗老师的赞同,随即组织团队。团队组成,不仅体现了两岸合作,而且是国际合作。罗老师以“历代语言知识库建置”为计划的题目,撰写计划书,向蒋经国国际学术交流基金会提交申请,获得批准,执行期间为20107-20136月。计划的主持人为罗老师,联合主持人为北京大学王厚峰教授、香港理工大学陆勤教授、日本早稻田大学砂冈和子教授和韩国西江大学姜柄圭博士。在罗老师的主持下,各位成员互助合作,工作紧张有序,成果逐步积累。从计划批准的2010年起,罗老师每年都召开并主持全体成员的研讨会。第3次于20128月在北大召开。一如既往,总结前两年的进展,规划后一年的任务,还特别讨论了2013年结案后成果发表的有关安排。罗老师忙碌了整整两天,与会者谁也没看出罗老师与往年有什么变化。其实几个月前罗老师已确诊罹患癌症。为了这次会议,罗老师推迟了手术。会议结束后,罗老师才把这个消息告诉了部分同仁,还嘱咐大家不必担心。2012911日罗老师的助理邱筱榆发来Email: 各位老師好:羅老師的手術因臨時決定在11號下午提前動刀 怕各位老師擔心 遲至今日才向各位報告 手術已經結束 目前在病房靜養中 請各位老師放心 若有任何問題需要代為轉達的 可以先寄mail給我 老師養病的期間 麻煩各位老師多擔待了 謝謝 。大家都祝愿罗老师手术顺利,早日康复。可没料到,20日罗老师亲自来信报告病情:“一、十一日外科開刀手術的結果,因我的胰臟腫瘤與主要的大血管纏繞太緊,無法剝離,醫師判斷若強行剝離會造成大出血死亡,因此只做切片檢查,便縫合傷口。二、切片化驗結果確定我是罹患胰臟癌裡的胰腺癌。三、病況險惡處是與血管纏繞太緊,無法以外科切除手術治療(外科切除手術治療是胰臟癌根治的最好方法)。四、病況安全處是我的癌細胞目前沒有擴散跡象。五、所以我已於二天前從外科病房轉到腫瘤科病房。六、我的腫瘤科主治醫師已經幫我擬定化療治療方案,分三階段進行,第一階段三個月。第一階段化療完成後,若腫瘤能有效與血管剝離,便再次進行外科切除手術,若仍無法分離,便進行第二階段化療加電療的治療。總之,我的病情算是險惡,但仍有機會,醫師要趕在我的癌細胞擴散前進行化療。我開刀的傷口已經癒合,體力也恢復六、七成,所以可能今、明天便開始化療。我在台灣最好的私人醫院長庚醫院治療,請各位老師放心。”出于对罗老师健康状况的忧心,我们也曾建议找人替代罗老师计划主持人的角色,罗老师当即回复:“俞老師和各位老師:謝謝。住院前我已經請教過蔣基會能否由其他老師代理主持一段時間,蔣基會說,因為我們的計畫是從台灣地區提出申請,代理主持人必須是在台灣地區,所以不能請其他地區的老師暫代。醫師鼓勵我,體力允許範圍內,可以做一點平時做的事。我今晚六點開始輸入化療藥劑,現在輸入第三劑,目前為止都還好。現在大概是我這一生最平靜、樂觀、開朗的時候,請大家放心。鳳珠”就这样,在此后的3年间,罗老师一直保持着这样的平静、乐观、开朗的心态,在与死神共舞的同时,继续主持研究,按要求结案,并亲自编撰了长达174页的成果报告书。“历代语言知识库建置计划”的网站是http://cls.hs.yzu.edu.tw/DLKB/Index.aspx

在“历代语言知识库建置计划”的诸多工作中,我们直接参与了汉语成语-典故知识库的研制,与罗老师交互频繁,获益良多,记忆犹新。

我们建议开展历代语言知识库研究的初衷是期望探讨语言演化的脉络及其同社会环境变迁的关系。对此项研究,计算语言所研制的“汉语成语知识库”和罗老师建置的“诗词曲典故资料库”提供了基础语言资源。

“成语”是词汇中的一类特殊词语。《现代汉语词典》将它解释为人们长期以来习用的、简洁精辟的定型词组或短句。”汉语的有些成语含有罕用字或罕用词,有些必须知道出处、背景故事才能懂得它的确切词义,因此成语较普通词语难理解,难掌握,但成语又有言简意赅、寓意深刻、形象生动、琅琅上口等特点,在现代汉语中使用频率并不低。面向中文信息处理技术发展的需求,计算语言所研制了汉语成语知识库(CIKB)。CIKB实际上是一个关系数据库文件,文件的每个记录包含一个成语及多种属性字段信息。例如,CIKB中成语“倾国倾城”及其部分属性字段列在表1中。

 

1 汉语成语知识库中成语“倾国倾城”及其部分属性字段

成语

变体

近义成语

反义成语

直译英文

出处

倾国倾城

倾城倾国

国色天香,出水芙蓉

奇丑无比

be extremely beautiful so that to overrun cities and ruin countries

东汉·班固《汉书·外戚传下·孝武李夫人》:“北方有佳人,绝世而独立,一顾倾人城,再顾倾人国。”

 

《现代汉语词典》对“典故”的解释是“诗文里引用的古书中的故事或词句。” 典故同成语相同,都是汉语中有出处、有背景的特殊语汇形式。不过,典故与成语也有所区别,成语的词形基本上是凝固的;典故因多用于韵文,受限于诗词曲的字数、押韵、平仄等格律要求,词形不固定。例如,同样出自《汉书》的典故“倾城倾国”在诗词作品里,就有“倾国倾城”、“一顾倾城”、“倾城国”、“倾人城”、“倾人国”、“名花倾国”、“绝代佳人”等多种变化。而作为成语,“倾国倾城”和“倾城倾国”虽互为变体,就没有其他变化了。因此,典故的辨识、理解与运用比成语更困难。

相对于成语已有大量的出版物,典故资料显得稀缺。罗老师看准了学术界的需求,为提升人的语言能力,特别是提升对古典文学作品的鉴赏能力,积多年之努力,从中国古典文学唐诗、宋词、元曲中收集典故近2,并发挥跨学科的优势,研制了诗词曲典故资料库,也采用数据库格式,设有描述典故的“类别”(分语典、事典、语事混合典3类)、“同义典故”、“相关典故”、“参见典故”、“朝代”、“人物”、“典籍”、“典籍内容节录”等属性信息字段。罗老师秉承信息共享的理念,研制之初,便建置了诗词曲典故网站http://cls.hs.yzu.edu.tw/orig/2诗词曲典故资料库中典故“绝代佳人”的部分属性字段信息。

 

2 诗词曲典故资料库中典故“绝代佳人”及其部分属性字段

典故

書目作者朝代

出處書目

內文

绝代佳人

《漢書》卷九十七上〈外戚傳•孝武李夫人〉

……延年侍上起舞,歌曰:「北方有佳人,絕世而獨立,一顧傾人城,再顧傾人國。寧不知傾城與傾國,佳人難再得!」……

 

某些成语和典故之间有共同的渊源,字面或意义有某种程度的相似性,将成语知识库和典故资料库进行连接,可以实现信息相互补足,两个知识库相得益彰,发挥一加一大于二的作用。由于两个知识库又都采用关系数据库文件形式,数据结构相同,连接不仅有必要性,而且提供了计算机辅助实现的便利性。

实现成语知识库和典故资料库连接的关键是计算出成语I所在的记录和典故A所在的记录(以下简略为“成语I和典故A”)之间的相似度。当相似度大于某个设定的阈值δ0£δ£1)时,才在成语I和典故A之间建立连接。成语和典故的字形本身自然是相似度的重要因素,成语“倾国倾城”和典故“倾国倾城”字形、字序完全相同,相似度通常最高;成语“倾国倾城”和典故“倾城倾国”的相似度也很高;成语“倾国倾城”和典故“一顾倾城”、“倾城国”、“倾人城”、“倾人国”、“名花倾国”也有不低的相似度;甚至成语“倾国倾城”和典故“绝代佳人”也有一定的相似度,其原因在于它们的字形虽然完全不同,但各自所在记录的其他字段仍有重合的成分。全面比对成语和典故所在记录之间有关字段值的字面、意义、文献属性,对不同字段设定不同的权值,可以综合性地计算出成语和典故的相似度。

考虑到成语的词形稳定,而典故的词形变化较多,罗老师决定以成语库为基础,吸纳对应典故的信息,这样便可以构建完整的“成语-典故知识库”。不过,即便有计算机辅助,要实现记录数以万计的成语数据库和典故数据库的全面连接,工作量也过大,在本期“历代语言知识库建置计划”内,只建成了一个小型的样板库。在罗老师的主持下,王雷博士首先从北大成语库中挑选出3000多个大陆常用的成语,郑锦全院士协助罗老师统计了这些成语在台湾中研院500万字平衡语料库中出现的频次,砂冈教授、姜柄圭博士分别调研了这些成语在日本、韩国的使用情况。罗老师根据这些数据,精选出2005个成语,综合成语库与典故库的信息,并增加对译的日语字段和韩语字段,建成以2005个成语为登录项的“成语-典故知识库”。

同样,基于知识共享的理念,罗老师在建设“成语-典故知识库”的同时也建立了分阶多语成语典故知识库网站 (http://cls.hs.yzu.edu.tw/DLKB/idiom_indexlist.aspx。这个网站还贯彻了罗老师在长期的中国古典文学教学实践中萌生的多种先进的网络教学策略:多语双向对应、相似词查询、一词泛读、延伸文本阅读、工具书及相关网站查询

“历代语言知识库建置计划”是罗老师与我们合作进行的最后一个研究项目,固然记忆犹新,而早期的合作记忆仍历历在目。1993年海峡两岸中国古籍整理出版现代化技术研讨会在北京召开。就在这次会议上第一次见到了当时还算是年轻人的罗凤珠老师。她用当时还比较稀罕的笔记本电脑演示多媒体红楼梦检索系统,给我们留下深刻印象。1995年在中国古籍整理研究出版现代化国际会议(北京)上,罗老师对北大计算语言所硕士研究生刘岩斌在大会上的报告《古诗研究的计算机支持环境》极为赞赏。交流促成了合作。1996年计算语言所与罗老师开始了第一次合作,共同研制“宋代名家诗网络检索系统”。1997年该系统在美国华盛顿大学(西雅图)进行了演示,获得好评。过程与成果都让双方感觉合作愉快,获益匪浅,且建立了互信,此后20年间双方的交流与合作从未间断。

2003年夏令在北大,罗老师同郑锦全院士、北大袁行霈教授和我们在一起交流,产生了召开文学与信息科技国际研讨会的想法。2004年罗老师便在元智大学成功召开了第一次,并把接力棒交给北大。第二次会议200512月在北大召开,郑老师担任大会主席。11月初罗老师与郑老师应南开大学周荐教授之邀请出席“第一届海峡两岸现代汉语问题学术研讨会”,两位老师利用这个机会先到北大与我们商定第 二次会议的议程,两位为会议的成功做出了重要贡献。就在周荐教授派车来北大接两位连夜赶赴天津的路上,他们遭遇了一段罗老师称之为“毕生难忘的惊险经验”。这个故事记录在罗老师的佳作《穿过云雾迎来朗朗晴空》中。2014年,周荐教授邀请罗老师为《我们一起走过的十年——“海峡两岸现代汉语问题学术研讨会”琐忆》一书写一篇文章。《穿过云雾迎来朗朗晴空》便是罗老师的馈赠。我在2014914日便读到了这篇佳作。罗老师仙逝之后,郑老师再次把这篇文章发给罗老师的生前友好,可见郑老师也十分赞赏这篇佳作。我们认为罗老师在重病期间,竟然写出这样的文章,实在是难能可贵,不仅立意新颖,文笔流畅,且“穿过云雾迎来朗朗晴空”的经历反映了罗老师的信念。

罗老师珍视生命,从生活中发现情趣,对朋友挥洒真情。在治疗过程中,她总是给我们报告好消息。201312月“术中放疗”方案提出,15日罗老师已准备好接受手术,然而医生评估,风险过大,再次取消手术。18日她给我们的信这样说:“暫緩開刀,讓我有撿到一些時間的感覺。現在期待我們新的計畫能順利通過,又能一起合作。 在与癌魔搏斗的3年间,罗老师继续主持“历代语言知识库建置计划”,直至圆满结案,亲自编撰长达174页的成果报告书。可以说这是罗老师生命的最后乐章的主旋律。除此之外,罗老师还做了多少事,大概是常人难以想象的。

20136月国际中国语言学学会第21届年会在台湾师范大学召开,罗老师借此机会,筹划了“历代语言知识库的建构与应用”专题工作坊,来自大陆、香港、美国、台湾的10多位学者于67日出席了工作坊。第21届年会的大会主席郑锦全院士还亲自赶来主持工作坊。68日罗老师又召开了团队全体成员的第四次工作会议,议题包括成果汇总、以专著形式出版成果的筹划以及第二期研究计划的酝酿与组织。连续3天,罗老师穿梭于桃园与台北之间,精神饱满,不见倦容,8日晚间还陪同我们到中国文化大学校园高处观赏台北夜景,不无风趣地说:“你们几位来自大陆最高学府,我带你们到台北最高学府来看看。”

尽管每次化疗之后都“有一段奄奄一息的日子”,但罗老师挺过之后,又抖擞精神,继续劳作。20131220日罗老师来信:“十二月又是臺灣學界向國科會提出計畫(研究項目)的時間,我正在寫意象標記及分類的研究計畫,十二月底以前交完稿,交稿後便可接續俞老師寫完論文。20129月已经知晓病情的严重性。从201210月至20142月这1年多的时间内,罗老师还与我们合作完成了3篇论文且均已在学术期刊上发表的 。作为第一作者,罗老师是真正的执笔人。即便是第二作者,罗老师也倾注了大量的心血、智慧与知识,然而罗老师在2014217日给联合作者的信中写的却是“計畫結束了,各位老師還是努力研究,一起討論,我好感動。”据我所知,2013年、2014年、2015年罗老师给汉语词汇语义学国际会议都提交了论文,由于分别在郑州、澳门、北京召开,罗老师不能亲自与会,便做好PPT,请人代为报告。我们不知道罗老师在病榻上究竟撰写了多少文稿,敲了多少字,但我们知道罗老师曾写道“做研究是我的動力。……後來比較改善,體力稍好,又能工作時,常讓我忘了自己是病人。”我们认为,罗老师把在键盘上敲出的每一个字符都看作是射向该死的癌细胞的子弹。

我们在同罗老师的合作中,还学到了很多中国古典文学的知识,更学到了罗老师一丝不苟的严谨学风。我在合作文章中引用了成语库中的例子“嫣然一笑”,其直译英文原为“(of a woman) to give a charming smile”。我只以为“嫣然一笑”是描写女人姿态的,当然不能发现这样的直译有什么不妥。可罗老师指出:“在詩詞裡,嫣然一笑用來形容花比用來形容人多很多。”经罗老师指教,王雷博士将译文修改为“a charming smile (usually of a female)”。关于成语两岸读音有差异的现象,最初也是罗老师发现的。台湾使用注音字母,为了便于比对,罗老师将2005个成语的注音字母转换为汉语拼音,并将其中读音有区别的一一挑了出来,再交给北大的老师校对。罗老师一丝不苟的精神实在让我们感动,可惜罗老师还是没来得及把北大校对的结果放到分阶多语成语典故知识库网站中,留下了遗憾。  

     罗老师,你休息吧!你永远活在我们记忆中!

 

2015922日于北京褐石园



[1] 本文中蓝色繁体字的语句都是引自罗老师或其助理发给我们的Email

[2] 载于周荐、董琨主编的《我们一起走过的十年——“海峡两岸现代汉语问题学术研讨会”琐忆

[3] 沈彦廷是罗老师的独生女。