阿里巴巴达摩法院成立近两年后,做了什么?

  2019-07-11 阅读:184

在达莫研究所成立近两年后,机器智能技术实验室展示了它的成就。

2017年10月,阿里成立了达摩学院,涵盖5个研究领域和14个实验室。除上述“机器智能”外,达摩研究所的研究方向还包括数据计算、机器人、金融科学与技术、X实验室。

机器智能技术实验室主要从事人工智能相关技术的基础研究。它包括语音实验室、视觉实验室、语言技术实验室、决策功能实验室和城市大脑实验室。

最近,达摩学院机器智能技术实验室召开了一次小型媒体沟通会。几位技术专家向外界介绍了最新的成果和进展。

具有表现力和稳定性的语音合成技术

首先,机器智能技术实验室正式发布了一种新的语音合成技术kan-tts(kan是指知识感知神经)。TTS(文本到语音)是一种将文本转换为语音的技术。智能演讲者和个人虚拟助理需要这种技术。

达摩大学机器智能语音实验室高级算法专家雷明表示,工业上商用系统的合成语音与原始音频记录的接近度通常在85%到90%之间,而基于Kan-TTS技术的合成语音则在85%到90%之间。OGY可以将数据增加到97%以上。

简而言之,kan-tts合成语音更像是人类的声音,“接近人类节奏的感觉”。

“我们的新一代TTS解决方案基于对不同领域的深入了解,与传统TTS和端到端TTS进行了深入集成。”Thunder介绍说。

所谓端到端TTS,不依赖领域知识,基于强大的深度学习模型和海量数据生成音频,具有极大的节省设计工作量,获得更流畅、更具表现力的合成语音的优点,但需要大量的计算支持,会出现失词、漏词等不稳定情况。.google的tacotron和deepmind的wavenet是典型的端到端TTS模型。

传统的TTS需要大量的时间和精力来理解相关的领域知识。设计难度大,但合成语音更稳定。

Kan-TTS将传统的TTS与端到端的TTS相结合,综合了两者的优点,充分利用了不同领域的深层知识,综合了声音,具有良好的表现力和稳定性。

针对不同的需求,机器智能技术实验室提供“开箱即用”的TTS产品,涵盖五种场景(一般场景、客户服务场景、儿童语音场景、英语场景和方言场景),拥有34种高品质的语音。

除了“开箱即用”的语音,达摩学院的语音合成程序还允许专业用户自定义语音。

传统的语音合成定制需要10个多小时的数据记录和标记,对录音机和录音环境的要求很高。开始定制和最终交付需要半年时间。达莫学院采用多说话人模式与说话人感知高级转移学习相结合的方式,将语音合成的定制成本降低10倍以上,循环压缩3倍以上。

也就是说,一个标准的TTS定制可以完成一个小时的有效记录数据和不到两个月的生产周期。

此外,普通用户也可以自己定制“人工智能语音”。手机录制声音只需10分钟,就可以获得与录制声音高度相似的合成声音。

在语言、自然语言和视觉方面取得了新的成就

除了宣布新的语言综合方案外,机器智能技术实验室也取得了新的成就。

根据机器智能技术实验室的统计,阿里人工智能在国际顶级技术竞赛中获得40多项世界一等奖,并评选出近400篇国际顶级会议论文。特别是在细分领域,机器智能技术实验室近年来取得了不同的成就。

在语音领域,2019年1月,机器智能技术实验室在国际顶级对话系统评估大赛(DSTC-7)中获得双材料冠军,将人机对话精度的世界纪录提高到94.1%。2019年7月,记录背后的人机对话模型ESIM向Source开放。

事实上,该算法模型已经提出两年多了,已经在包括谷歌和Facebook在内的200多篇国际学术论文中得到应用。

在自然语言理解方面,机器智能技术实验室在6月份的Marco女士文本阅读理解挑战中击败了Facebook和Microsoft,创造了阅读理解测试的新记录,在开放领域问题和ANS中超越了人类阅读水平。WER任务。

Marco Challenge是人工智能阅读理解领域的权威竞争。参与组织提供的人工智能模型需要在搜索引擎返回的Web文档中找到100万个问题的正确答案。

阿里介绍,阿里人工智能模型的突破在于基于“结构化信息集成伯特模型”的“深度级联机器阅读模型”。它可以模仿人类阅读理解的过程。首先,它快速浏览文件,判断它,然后集中阅读相应的段落,并根据自己的理解。“回答问题。

达摩学院机器翻译技术团队已完成48个语言翻译方向,支持俄语、西语、法语、阿拉伯语、土语、泰语、印度尼西亚语、越南语等语言翻译。电子商务覆盖了大部分的语言方向和场景,超过了谷歌和亚马逊,每天有17.9亿个电话。

在机器视觉领域,机器智能技术实验室在图像搜索、大规模图像识别、视频分析、离线视觉智能等领域取得了一定的成就。在图像搜索领域,阿里人工智能的矢量引擎比Facebook快6倍。

在6月刚刚结束的Webvision比赛中,阿里·艾以82.54%的认知度击败了世界上150多支球队并赢得了冠军。根据机器智能技术实验室的数据,阿里人工智能目前识别了100多万个物理实体。

Webvison是图像识别领域最权威的竞争对手之一。它以对象识别为重点,被称为图像网络的大规模图像识别竞赛。

7月,阿里人工智能在CVPR2019举办的LPIRC(低功耗图像识别挑战)在线图像分类任务中获得第一名。在挑战赛使用的训练数据集上,阿里人工智能的分类准确率达到67.4%,比官方基线高出3.5%。

值得注意的是,以上只是达摩学院机器智能技术实验室的进展和成果。到2019年10月,达摩法院成立2周年纪念日将更加全面。


打赏

免责声明:
本站部份内容系网友自发上传与转载,不代表本网赞同其观点;
如涉及内容、版权等问题,请在30日内联系,我们将在第一时间删除内容!

购物指南

支付方式

商家合作

关于我们

微信公众号

Copyright © 2019-2020 增值电信业务许可:鲁B2-20180030 网站备案号:鲁ICP备16002437号-1