中文信息处理专题-中国计算机学会信息网

     什么是中文信息技术?在1987年本专委会成立之初即确定了“中国语言文字处理的计算机系统”和“以计算机为工具研究语言文字处理技术”两个主要研究方向;目前中文信息技术的主要研究工作包括(或涉及)中国各民族语言文字的自然语言处理、机器翻译、信息抽取、数据挖掘、信息检索、智能问答、语音识别与合成、社会网络计算等众多学术领域,以及中文计算,即中国语言文字处理的应用技术领域。本专业领域涉及的应用技术非常广泛,从汉字编码与输入、字形计算、文字处理、数字出版与数字印刷乃至信息安全,以及搜索引擎、移动阅读以及社会计算等数字时代的崭新应用,不但深入百姓的生活,在新闻出版、教育、文化、互联网等重要产业同样具有举足轻重的影响力。

  在过去三十年,以激光照排技术为代表的“汉字信息处理与印刷革命” 在二十世纪中国重大工程技术成就中排名第二,并两度入选年度十大科技成就,解决了计算机处理中文信息的多个重大科技问题,推动和普及了中文在信息化和网络时代的广泛应用,并使中文信息处理技术成为我国为数不多的具有世界领先地位的IT技术。

  二十一世纪以来,随着企业信息化、互联网和移动数字终端的快速发展和普及,中文信息技术面临大数据、开放域、异构异质以及协同创建与传播(互动)等诸多新特征,因此,在当前条件下研究中文信息技术具有更大的挑战性。面对挑战,既要深化自然语言处理的基础研究,也要探索利用互联网等新平台助力学术研究以及开发和原创性地应用领域技术的方法。为此,本专题选择了基础研究、前沿创新、成果实例、应用技术和行业动态等方面的五个工作以及获得国家科技奖励的两项成就介绍给大家,还包括了本领域研究机构自发共享的研究成果,希望相关研究和应用开发者有所收获、有所启发。
本期执行主编
赵东岩
  北京大学计算机科学技术研究所研究员,博士生导师,CCF中文信息技术专业委员会秘书长。主要研究方向:文本挖掘、语义信息处理、数字出版技术。
 
技术动态专题回顾:
 
人工智能(专题第7期)
国家科学技术奖(专题第6期)
优博(专题第5期)
CNCC(专题第4期)
王选奖(专题第3期)
乔布斯(专题第2期)
文化遗产数字化(专题第1期)



       • 基础篇 —— 汉语多层次结构分析研究
       • 前沿篇 —— NLP2.0 自然语言处理的新策略
       • 成果篇 —— 自然语言处理与数据挖掘研究的两个应用成果
       • 应用篇 —— 自然语言处理让输入法变得更聪明
       • 行业篇 —— 把握数字出版的明天
       • 最新成就 —— 北京大学的综合型语言知识库介绍
                ——  让藏文驰骋在信息高速路上
        • 成果共享 —— 中文语言合成系统
                   —— 概率主题模型高性能求解工具
        • 学术活动信息  ——  第一届自然语言处理与中文计算会议征文通知
                                          ——  CCF中文信息专委会征集开放课题
                                          ——  中文微博情感分析&词汇语义关系抽取评测通知

     基础篇 —— 汉语多层次结构分析研究
作者:周国栋、李中国,  日期:2012年4月
互联网的迅速发展和普及改变了人们的生活和工作方式。然而,极其丰富的网络内容在给人们带来极大便利的同时,也带来了若干问题。自然语言作为人类信息、文化和智慧的载体,如何利用好互联网这一大环境给自然语言深度计算带来了新的挑战,解决这一问题对于提高信息服务质量、传播中华文化和集成人类智慧具有极其重要的意义。目前自然语言处理对文本内容及其关系表示缺乏系统深入的研究,使得自然语言处理研究难以深入进行,相关资源和技术都难以积累和扩展。因此,汉语多层次语言结构表示与分析模型研究是实现中文信息深度计算的基础。
<全文>   <回到顶部>


     前沿篇 —— NLP2.0 自然语言处理的新策略
作者:周明 微软亚洲研究院,  日期:2012年4月
利用互联网、WEB2.0和社会关系网络,可有效地支持自然语言处理的研究。互联网已经成了最大的数据资源和最大的人际关系网络。WEB2.0通过众包方式,可以建立庞大的数据库和知识库,并且进行低成本的标注。社会关系网络给我们提供了用户个性化的信息,其朋友关系也有助于提高文本处理和搜索的相关性。在这样的时代下,过去的自然语言处理的方法(我们称之为NLP1.0)需要重新调整。作为在研究方法论上的一个尝试,我们提出了NLP2.0。
微软对联演示版:   duilian.msra.cn
英库在线词典和翻译演示版:  www.engkoo.com
<全文>   <回到顶部>


     成果篇 —— 自然语言处理与数据挖掘研究的两个应用成果
作者:唐杰、李涓子 清华大学,  日期:2012年4月
ArnetMiner通过研究者合作关系建立起来的社会网络挖掘与搜索系统。系统采用自然语言处理和社会网络分析与挖掘技术,提供研究者语义信息抽取、面向话题的专家搜索、权威机构搜索、话题发现和趋势分析、基于话题的社会影响力分析、研究者社会网络关系识别、即时社会关系图搜索、研究者能力图谱、审稿人推荐在内的众多功能,能够为研究者提供更全面的领域知识和更具针对性的研究话题和合作者信息,为科研的更好发展提供服务。
NewsMiner是一个采用中文信息处理和文本挖掘技术实现的面向事件的新闻挖掘与搜索系统。系统从新闻本身的特点(5W1H)出发,以事件为核心,利用话题分析与知识关联技术,从事件、话题、实体三个层面组织新闻,为用户提供一个更深入、更便捷的新闻事件理解和搜索服务。NewsMiner包含4个组件:数据采集、新闻挖掘、数据存储与索引、服务平台。
Aminer演示版:  http://aminer.org
NewsMiner演示版:  http://newsminer.net
<全文>   <回到顶部>


    应用篇 —— 自然语言处理让输入法变得更聪明
作者:王砚峰、贾剑峰、张扬 搜狗公司,  日期:2012年4月
随着电脑的普及和互联网的发展,输入法已经成为了人们生活和工作中最不可或缺的工具软件。用户使用输入法目的,是打出为了表达自己意图所需要的字词句,那么输入法的聪明程度,也就是输入法对用户意图的猜测能力,实际上决定了用户输入的效率;进一步的,在以文字为交流载体的信息社会中,更聪明的输入法实际上代表了更先进的生产工具,它意味着更大的经济效益和社会价值。因此,虽然当前的输入法软件尚没有上好的商业模式,不能带来直接的商业利益,但各大互联网IT公司仍然不遗余力的投入到这个看似不大的战场上进行角逐,并且各自宣称,自己的输入法是“最聪明的”。那么,究竟什么样的输入法是一个“聪明的”输入法呢?输入法又是如何变聪明的呢?本文就将带你走进自然语言处理技术的世界,为你揭开输入法智能性的神秘面纱。
<全文>   <回到顶部>


     行业篇 —— 把握数字出版的明天
作者:梁瑛、易文飞,  日期:2012年4月
过去的几年时间里,数字出版不断生长着,完善着自身的发展,发生了“翻天覆地”的变化。无论是传统出版行业、内容运营商、软硬件提供商、三大运营商还是数据加工商都将注意力集中在这个领域,力求占据更多的市场份额。在2011年,国家在“十二五规划”中也对数字出版有了明确的部署,政府部门给予了极大的支持。在数字出版行业快速跟进的背后,一方面,由于技术的推动,让传统的出版内容有了除“纸张”之外的“电子设备”载体;另一方面,三网融合的加速和3G网络的发展,让网民在网络上消费“内容”变得更加的方便和快捷;此外,网民的阅读习惯也发生了改变,“网络化阅读、无纸化阅读、移动化阅读”成为新的阅读趋势。正是在上述三大原因的影响下,推动了数字出版行业的飞速发展。 虽然有如此多的数字出版从业企业,有着多种多样的商业模式,但几个不容忽视的问题依然摆在面前-“用户从何而来?”、“产品如何送达?”、“上游如何获益?”,数字生活馆将回答这些问题。http://e.dangdang.com/
<全文>   <回到顶部>


     最新成就 —— 北京大学的综合型语言知识库介绍
作者:北京大学计算语言学教育部重点实验室,  日期:2012年2月
北京大学计算语言学研究所俞士汶等人研制的综合型语言知识库(Comprehensive Language Knowledge Base,简称CLKB)荣获2011年度中国国家科学技术进步奖二等奖。CLKB项目组立足于北大文理结合的基础,发挥对母语知识和文化的认知优势,从1986年起开始研究汉语计算模型和语言知识形式化描述方法,并实际构建语言知识库。历时20余年,建成综合型语言知识库。2007年教育部对CLKB组织的鉴定认为“其规模、深度、质量和应用效果在我国语言工程实践中是前所未有的。该成果是以汉语为核心的多语言知识库建设中最全面、最重要的研究成果,总体上达到了国际领先水平”。
<全文>   <回到顶部>


     最新成就 —— 让藏文驰骋在信息高速路上
作者:欧珠 西藏大学,  日期:2012年2月
由西藏大学提交的“藏文软件研发与推广应用”项目荣获国家科技进步二等奖。这是西藏大学第一次获得这一国家奖, 也是藏文信息化发展中具有里程碑意义的大事,标志着藏文化的重要载体——藏文已驶上信息高速路。长期以来,藏族和汉族、藏族地区与内地之间的信息化水平存在较大差距,“数字鸿沟”正在形成并逐步加深。同时由于我国藏族地区的特殊和敏感性,藏文软件和藏文信息化问题一直受到国外的高度关注。达赖分裂集团影响力较强的某些欧美国家一直在加紧研发藏文信息技术及产品,并向我藏族地区免费赠送。近几年,藏文信息技术研究中心研发了10余项藏文软件,编制了等8项较为完备的藏文信息处理国际/国家标准。目前,我国的藏文信息化水平已超过国外的发展水平。特别是藏文信息技术的各种标准都掌握在我们手中,维护了藏文的文字主权。
<全文>   <回到顶部>


     成果共享 —— 中文语言合成系统
中科院自动化所模式识别国家重点实验室,  日期:2012年4月
在国家课题的长期支持下,中科院自动化所模式识别国家重点实验室在语音合成、人机交互等相关研究上做了一定的积累,为了更好的将研究成果服务于相关研究,决定将中文语音合成系统SkyVoice SDK公开发布,在网上注册就可以下载,欢迎大家使用!希望能对您的工作有帮助。 我们诚恳的希望您能向我们反馈发现的问题或者建议,以更好的帮助我们提高系统的性能。注册下载地址为:http://www.speakit.cn/download.jsp
附件为软件下载和流程介绍。
<回到顶部>


    成果共享 —— 概率主题模型高性能求解工具
中国科学院软件研究所基础软件国家工程研究中心,  日期:2012年4月
以LDA(Latent Dirichlet allocation)为代表的概率主题模型是一类重要的文本建模方法,在信息检索、文本挖掘、自然语言处理等领域中获得了广泛应用。然而,由于概率主题模型求解算法一般都具有较高的复杂度并且通常是基于串行设计的,不利于在大规模文本处理任务中应用。我们研发了一套较为完整的概率主题模型高性能求解工具,目前包含LDA模型和CTM模型。这套工具集的特性如下表所示:跨平台——linux和windows;多环境——单机、集群和超级计算机;多模式——并行、分布、混合。可从“http://124.16.139.201:1024/HP-LDA.php”下载部分windows平台上的并行LDA模型求解工具试用,如需其他环境(如超级计算机)和模式下求解工具,请联系工具开发人员:李文波,中国科学院软件研究所-基础软件国家工程研究中心,wenbo@nfs.iscas.ac.cn
<回到顶部>


    学术活动信息 ——  第一届自然语言处理与中文计算会议征文通知
来源:中国计算机学会中文信息技术委员会,  日期:2012年4月
自然语言处理与中文计算会议(以下简称NLP&CC)是由中国计算机学会(CCF)主办的CCF中文信息技术专业委员会年度学术会议。NLP&CC专注于自然语言处理及中文计算领域的学术和应用创新,致力于推动该领域学术界和工业界研究、创新与应用的发展,成为覆盖全国、具有国际影响力的学术与创新交流平台。NLP&CC 2012以“互联网创新与应用”为主题,重点关注基于互联网、移动终端的自然语言处理与中文计算,包括Web挖掘、搜索与广告、数字出版、社会网络、机器翻译、智能问答等学术界与工业界的研究与技术创新问题,欢迎学术界和工业界同行围绕相关研究、理论及应用现状、标准、技术实现、工业界应用与用户实践等议题投稿,且论文内容具有创新性(从未发表也未处于任何会议与期刊的评审状态)。
<全文>   <回到顶部>


    学术活动信息 ——  CCF中文信息专委会征集开放课题
来源:中国计算机学会中文信息技术委员会,  日期:2012年4月
2012年度CCF中文信息技术开发课题征集活动正式启动!对于具有应用创新价值的好题目,专委会将积极寻找合适的赞助机构,落实经费资助。相关课题将以指南形式通过CCF学会的平台进行发布,并鼓励企业和科研院所的年轻人来申请课题。
<全文>   <回到顶部>


    学术活动信息 —— 中文微博情感分析&词汇语义关系抽取评测通知
来源:中国计算机学会中文信息技术委员会,  日期:2012年4月
中文微博情感分析&词汇语义关系抽取评测是2012年CCF自然语言处理与中文计算会议(NLP&CC 2012)的一部分,含有两个独立的评测任务:面向中文微博的情感分析任务和中文词汇语义关系抽取任务。参评者可以两个都参加或选择其中任何一个。评测结束之后,参评者可以在NLP&CC 2012上交流经验和技术。本次评测的主办单位为中国计算机学会中文信息技术专业委员会(CCF TCCI)。
<全文>   <回到顶部>


 

CCF《技术动态》中文信息处理专题版权所有:中国计算机学会,转载请注明出处
CCF《技术动态》编辑部,info@ccf.org.cn,电话:010-62562503-20    


版权所有 中国计算机学会 技术支持:北京中科辅龙计算机技术股份有限公司
联系电话:(+86)10 6256 2503 邮件:ccf@ccf.org.cn  网站分辨率建议:1024×768
京ICP备13000930号-4  京公网安备11010802017125号