欢迎访问翻译网!

翻译网

您现在的位置是: 首页 > 翻译公司 >详情

语言大数据联盟在青岛正式成立时间(语言大数据 青岛大学)

发布时间:2024-01-08 13:04:53 翻译公司 837次 作者:翻译网

2016年4月8日,语言大数据联盟在青岛语言大数据开放2016大会上正式成立。青岛市副市长栾鑫等领导,全国100余所外语院校负责人、科研院所专家、互联网企业代表、大数据分析师等200余名现场嘉宾以及近5000名观众在线观看大会直播,见证成立仪式。中国出版集团公司副总裁潘凯雄,中国国际翻译有限公司总经理、中国翻译协会常务理事黄松,天津外国语大学校长、翻译学会副会长修刚中国翻译协会、北京第二外国语大学副会长、中国翻译协会副会长邱明会长,四川外国语大学副校长、中国翻译协会副会长董宏川,西安国际翻译协会副会长国大党正胜与青岛大学副校长王利明共同触屏启动语言大数据联盟。

语言大数据联盟由全国翻译专业学位研究生教育指导委员会、中国国际翻译有限公司联合20余所重点大学共同发起。联盟将联合世界各地的大学、科研机构和企业,就语言大数据的建设、共享和协同创新进行广泛的交流与合作。还将为全民提供智库支撑,将联盟打造成语言大数据建设的领跑者。

语言大数据联盟在青岛正式成立时间(语言大数据 青岛大学)

成立仪式上,中译语通科技(北京)有限公司(以下简称中译语通)CEO于洋向与会人员介绍了语言大数据开放计划。中译语通将向联盟成员单位开放数十亿级语料库、机器翻译(MT)、计算机辅助翻译(CAT)、翻译项目管理(TMS)、语言资产管理、语音识别等先进技术和平台资源,为联盟成员单位提供高端技术和平台资源。为高等院校、科研机构、企事业单位的语言服务教学、实践、科研、业务等提供支持,开展深度合作。会议期间,数十所高校表示希望加入语言大数据联盟。

4月9日,语言大数据联盟第一次理事会召开,就联盟成员的加入和管理以及联盟内各垂直专业领域实验室的设立等问题进行了深入讨论。

【关于语言大数据联盟】

语言大数据联盟是一个基于大数据资源开放共享平台的全球性、多领域、多语言的科学研究与应用联盟。是为政府、企业、大学、研究机构等多方合作、资源共享而搭建的开放平台,旨在为高等院校的教学、实践、科研、业务发展等提供支撑、科研机构、政府机关、企事业单位通过开放亿级语料资源、技术资源、平台资源等。

中国出版集团副总裁潘凯雄

中国出版集团的主营业务是出版。其子公司中国国际翻译公司主要提供跨语言翻译服务。它成立于1972年,专门翻译联合国文件。随着时代的发展,中译语通公司于两年前成立,提供语言翻译服务。服务科技化。我们将通过语言共享计划/语言大数据联盟提供智能语言服务。

天外秀刚校长

大数据是国家发展战略,关系国家未来发展。大数据具有体量大、种类多、更新快的特点。每个数据都是由各种语言组成的。面对“一带一路”的发展,需要的不仅仅是英语。例如,与印度尼西亚谈判时,高层官员使用英语,而进一步谈判则需要懂当地语言的人。未来的联盟是开放的。在外语教学中,未来将更加需要技术,尤其是大数据技术来辅助。语言大数据可以做很多事情。希望语言大数据能够加速国别研究。外事二局成立中日韩研究中心。面向未来的国家研究离不开大数据。外语研究也需要大数据。语言大数据将进一步服务翻译发展。

中译语通CEO于洋

互联网、大数据、人工智能

一个月前的人机智能战争中,当所有人都认为AlphaGo可以战胜机器时,这一次机器学习、大数据、人工智能技术彻底击败了人类。如今,宇通一直在研发的自然语言处理技术和大数据技术能否战胜野蛮人。 AlphaGo使用复杂的计算策略来执行运算,实现深度、速度和准确性。但老司机还是老司机,创造人工智能的依然是人类,制定战略网络、价值网络的依然是人类。从人工翻译到计算机辅助翻译,看似机器在进步,但实际上是人的进步,是工作方式的进步。

在当今的大数据时代,每秒产生22TB的数据。截至目前,汉译翻译云已经拥有31亿句对,相当于600亿个单词。到2016年底,句子对将超过40亿个。

因此,今天提出了跨语言大数据。机器翻译放大了大数据的规模和价值。当我们使用百度搜索引擎时,我们得到的是中文搜索结果,主要是中文。当我们使用Google搜索英语时,我们得到了英语结果。对于机器来说,语言不是障碍。当我们使用搜索引擎的时候,其实当我们搜索中文的时候,应该会出现更多的语言信息。今天,我们需要在大数据的基础上,深入探索跨语言大数据的美妙之处。

互联网给我们带来了很大的影响。最典型的是,从总理到老百姓,每个人都在谈论大数据和互联网思维。最终目标是回归语言。这个行业诞生了很多平台。对于平台来说,用户、流量、交易是核心。没有用户、没有流量、没有交易的平台最多只能称为网站。

当我们遇到互联网泡沫时,资本一直在追逐互联网。移动互联网并没有消失。如今它已经成为我们生活、学习和工作的一部分。互联网已经成为我们工作的基础设施。在这样的环境下,我们应该考虑如何将语言学习、翻译教学与大数据、人工智能紧密结合起来。跨境电商给我们行业带来了很多需求,而这个需求往往需要机器来完成。

阿里巴巴网站上有超过2亿种产品,4000亿字的翻译是一个巨大的翻译量。中国翻译公司需要几千年才能完成,所以这需要机器来完成。

机器翻译是自然语言处理的一部分。它处于最顶层,集成了很多技术。很多人都在讨论机器翻译能否取代人类,有人说可能需要十年、几十年。机器翻译最早诞生于IBM。当时语料库的发展受到硬件的限制,机器翻译也受到语料库的限制,所以机器翻译的效果也有限。谷歌发布了基于统计的机器翻译,百度于2007年发布了百度翻译,微软随后也发布了它。现在,机器翻译已经大规模使用。机器永远无法取代人类。过去很长一段时间,语言服务公司、翻译公司的翻译量一直在增加,但却跟不上大数据的发展。机器翻译代替人类完成的翻译量是没人预料到的。因此,机器翻译是更好的帮助人类翻译的工具,让人类看到不一样的世界。

30亿为我们这个行业提供了一个支点。这个语料库本身就是一个海量的数据。机器翻译作为支点,进一步利用大数据在各个领域的应用。这对我们来说是一个非常重要的话题。作为语言服务行业,机器翻译的进步依赖于现有的数据。有专家曾经说过,机器翻译不了诗歌,但是如果我们把所有唐诗的翻译都收集到我们的语料库里,那么这个语料库就会比99%的人都能翻译好。只要未来语料库的质量足够好,机器翻译的质量也就足够好。如此庞大的数据将帮助我们将来做出更好的翻译。

对于语言服务,我们可以实现毫秒级的语言检索,系统具有实时发现能力,可以不断发现新的数据。

大数据中,有结构化数据和非结构化数据。非结构化数据占比超过80%。如何深度挖掘非结构化大数据和跨语言大数据给我们带来了巨大的挑战。我们需要为这些数据构建标准、顺序和视觉呈现方法,以便可以预测未来。

“十三五”期间,机器翻译的技术发展成就和成熟度远远超出人们的想象,将广泛应用于各个行业。不少智能厂商已经进入人工智能芯片的制造领域。一块小小的芯片可以与各种设备甚至人体集成。机器翻译必然会进入芯片级开发,嵌入到所有设备中提供语言服务。

试想一下,当我们早上醒来时,机器人可以帮助我们了解世界新闻和国际头条新闻。大数据可以帮助我们检索最需要的新闻。实现的时间并不长,也许3-5年,甚至更短。

人工智能时代,跨语言大数据可以给我们带来无限的想象空间。中译宇通持续投入跨语言大数据的研发。我们希望与各大学、企业、专家分享我们的经验。我们需要更多的智慧来为我们提供更多的知识储备,涉及到语义。分析和数据分析算法需要大家共同完成。我们打造一个开放、共赢的跨语言大数据生态社区,希望联合科研院所和企业共同来做这件事。我们希望能够实现从一个词到全世界的共享。

我们对所有联盟成员开放平台、开放语料、开放技术。我们将发布新的计算机辅助翻译平台和语音识别平台,向高校全面开放,通过共享共建实现更多海量大数据。除了技术平台之外,我们还将共享超过1亿句对的语料库,并且每年都会开放更大规模的语料库。对于外语院校来说,我们可以开放更多学术研究项目的数据,非常有利于共享。每年不少于2亿字的翻译任务向大学即语言实验室开放,形成自生成、可循环的状态。优秀学生毕业后可以留在实验室继续发展,为学院的发展提供可持续的空间。

我们将提供从个人到团队、从普通到专业的全力支持。我希望今年年底不少于20所海外大学加入,一些大学会成立专业委员会,比如政法大数据委员会、国学大数据委员会等。未来数据可以共享,规模会更大,这将为教学和科研带来更多机会。

文字稿/韩林涛/北京语言大学高级翻译学院