所谓的“大树”,天然是指北大,指信息科学技术学院,指计算机科学技术系。计算语言学是一门交叉学科,而且是文理交叉,这对学者的知识背景提出了很高的请求。北大文理联合的上风以及强盛的学科力气,为计算语言学的发展供给了良好的环境。与此同时,以信息科学技术学院,尤其是计算机系作为壮大的后盾,也为计算语言学研究所的存在和发展打扫了后顾之忧。自此,计算语言学研究所踏上了新的征程,获得了一个又一个骄人的成绩。
近年来,实现计算机的智能化已经在海内外掀起了研究高潮。1997年,IBM的计算机“深蓝”和国际象棋世界冠军卡斯帕罗夫的世纪人机大战便在寰球引起了无数关注。2011年,IBM再度推出超级电脑“沃森”(Watson),其中的深度问答(DeepQA)这一核心技术又一次将计算性能否实现智能这样的问题推到了科学的前端。“国内国外对这一研究领域的器重阐明这项技术存在产业需要,所以我想,20多年前我们选定的这个方向在现在赶上了大好的发展机会。”计算语言学研究所的穗志方教授说到。
20多年前,当“计算语言学”在中国还是一个冷僻的术语时,计算语言学研究所便于1986年在北大成立。出乎意料的是,计算语言学研究所的开创人不是进行计算机研究的学者,而是当时北大中文系的朱德熙教授。“朱先生很有目光,他当时就意识到了计算语言学这个学科的主要性,与北大计算机系的马希文教授配合,独特建立了计算语言学研究所。”在这样的情况下,一个文迷信者、一个理科学者,一个所长、一个副所长,计算语言学研究所便起步了。
远景辽阔:路漫漫其修远兮
“1986年开始决议做计算语言学的时候,我们重要想做的是机器翻译”,俞士汶说道,“看似简略的机器翻译,其实是计算机技术上一个很大的困难,之前有很多预备工作,好比切分词,而这只是机器翻译筹备步骤中良多步的一小步。”计算语言学研究所的切分软件开发出来后,即时被应用到了互联网的搜索引擎中,对网络信息检索起到了重要的增进作用。显然,这些造诣并不是久而久之就能取得的,它凝集了计算语言学研究所师生们十多年的心血。
在谈到计算语言学的发展前景时,学者们都信念满满。“互联网85%以上的信息都是以文字情势浮现的,只有与语言信息处理相关的,就跟计算语言学相关。”计算语言学的王厚峰所长如是说。当前,信息的海量处理对计算机来说已经不是问题,而接下来,让计算机实现智能的信息处理,又成为了计算语言学研究所的下一个目的,金融资本。“要让计算机进行智能的语言剖析,就需要用到语言信息处理技术。”
实在早在2007年,CLKB就已通过教导部组织的技术鉴定。鉴定看法对CLKB的评价是:其规模、深度、品质和利用后果在我国语言工程实际中是前所未有的。该成果是以汉语为中心的多语言知识库建设中最全面、最重要的研究成果,总体上到达了国际当先程度。
1995年底,计算语言学研究所潜心研制了10年的《古代汉语语法信息词典》初具范围,通过电子部的技巧鉴定,1996年便有了包含微软公司总部(美国西雅图)在内的第一批用户。尔后 16年,包括这部词典的综合型语言常识库始终得到业界的认可,有偿转让协定签署已逾200份。
包括8万词、360万项语法属性描写的《现代汉语语法信息词典》,实现词语切分并标注词类跟义项的2800万字的现代汉语多级加工语料库,含10万个概念的多语言概念词典……这些组成了计算语言学研究所最具代表性的结果——综合型语言知识库(CLKB)。
前瞻之策:成破盘算语言学研讨所
然而1989年,朱德熙与马希文传授接踵赴美国讲学,这导致刚树立没多久的计算语言学研究所一下子陷入了是去是留的窘境。而当时,在计算语言学研究所进行研究的俞士汶教学看准了这个学科的良好发展前景,为了将先辈的血汗保存下来,也为了这个学科在北大的连续发展,俞士汶同陆俭明一起,争夺到了学校当时的常务副校长王义遒的支撑,计算语言学研究所得以保留,并挂靠到了计算机系,还请计算机系主任杨芙清院士担负了所长。用俞士汶的话说,这叫“大树底下好纳凉”。
在北大理科一号楼四层的一个走廊里,“计算语言学研究所”的牌子宁静地挂着。径直往里走,便能看到办公室里学者们繁忙的身影。固然附属于号称“北大第一大院”的信息科学技术学院,但计算语言学研究所却鲜为人知,“计算语言学”这个学科也被冠以“冷门”的名号。“信息科学技术如同一条奔跑的长河,而计算语言学不外是一条小溪,但支流也自有其水光山色”,这便是计算语言学研究所俞士汶教授对这个学科的评价。
俞士汶曾在一篇文章中写道,“我招的最后一名硕士生,名字就叫‘支流’。我常带点玩笑口气说,‘我是从非主流开端,到支流停止’。”然而不论是主流还是支流,无论是穿插学科仍是边沿学科,计算语言学研究所这棵二十多年前的小树苗已经在风霜雨露的催生下长成了一棵大树,枝繁叶茂,他们的成就已经引人注目。咱们有理由信任,这棵大树未来必定会结出更丰富的果实。(文/汪莹)
成果辈出:酒香不怕巷子深
回想这二十多年的发展过程,穗志方也不无感叹。“计算语言学是一个文理交叉学科,它对学者的知识背景要求自身就很高,我们的成果也须要长时光的踏实积聚,但当前社会对这个学科的评估体系还不够完美,比方,在论文评估时毕竟将其纳入文科评价系统还是理科评价体制首先就是一个问题。我盼望有一天,学术界在评价体系上能解决这些迷惑。”
“我们进行过统计,到2009年,国家在这些名目上的所有投入是400万元左右,而成果转化后的收益在没有贸易推广的条件下就达到了近2000万,正所谓‘酒香不怕巷子深’,这一点也让我们觉得快慰,至少我们不白花国家的钱,没有挥霍征税人的钱”,俞士汶如是说,“从1986年到1996年,我们进行了十年的研究,1996年开始我们才对外转让科研成果应用权,一直到当初,十六七年了,在一日千里的信息技术领域,一项科研成果可能有如斯长的性命周期,实乃常见。”
CLKB在学术界发生了宏大影响,相关规范和论著被普遍援用,两篇全国优良博士学位论文在这里产生;与此同时,它还发明了良好的社会效益与可观的经济效益,免用度户数以万计,签约用户遍布美、日、德、法、俄、英、韩、瑞典、新加坡和中国大陆、台湾、香港和澳门,包括从事相干研究的有名企业、大学和研究所。自1996年开始应用以来,这十六年中,CLKB作为语言信息处置技术与工业的基本设施,为机器翻译、智能搜寻、语音处理、信息提取、人机遇话等各方面运用提供标准化的语言知识和核心软件,也为我国少数民族语言处理、聋人手语主动翻译、汉语国际传布做出了行之有效的奉献。
2011年,计算语言学研究所的综合型语言知识库(CLKB)再创光辉,荣获了国度科技提高二等奖。这个系列化语言知识库涵盖词、词组、句子、篇章各单位和词法、句法、语义各层面,从汉语向多语言辐射,从通用范畴深刻到专业领域。
相关的主题文章:- 第一届C-H键活化国际学术研究会胜利举行
- 生工生物在北大性命迷信学院设破奖学金
- 性命迷信学院胡家志荣获2012年度吴瑞奖学金
- 王海燕教学荣获首届国际肾脏病学会前驱者奖
- 濮祖荫教学荣获2012年度美国地球物理学会“国际奖”
- 深圳研讨生院科研结果亮相第十四届中国国际高新技巧成果交易会
- 机器鱼首次“北极”试航胜利
- 朱国钟教学有关家庭资产配置实践研讨的论文在国际顶尖学术杂志发
看过本文的访客还看过下面的文章:
上一篇:第一届C-H键活化国际学术研究会胜利举行
下一篇:光华治理学院张炜教学在ISB-Ivey 案例大赛中获奖