行业新闻_新闻中心_洛阳VR全景拍摄|洛阳VR全景展示|洛阳360度全景制作|洛阳VR全景航拍|洛阳720 VR全景漫游制作|洛阳720度VR全景航拍|洛阳VR全景视频|洛阳三维实景扫描拍摄|洛阳360度环物拍摄制作|洛阳三维全景制作|南京通望数字科技

您的位置：首页新闻中心行业新闻

AI 在语音识别方面优于人类

2021-03-25

经过一次对话和转录，正是人工智能（AI）研究中最大的挑战之一。卡尔斯鲁厄理工学院（KIT）的研究人员首次成功地开发了一种计算机系统，该系统在识别这种自发性口语时，其延迟程度优于人类。这是在arXiv.org。

KIT信息学教授亚历克斯·威贝尔（Alex Waibel）说："当人们互相交谈时，会有停止、口吃、犹豫，比如'呃'或'嗯'，笑和咳嗽。通常，单词发音不清楚。这使得人们甚至难以准确记录谈话。"到目前为止，这对人工智能来说更加困难。KIT的科学家和员工，一家来自KIT的初创公司，现在已经编程了一个计算机系统，它比人类更好地执行这项任务，并且比其他系统更快。

威贝尔已经开发出一种自动现场翻译，可将大学讲座从德语或英语直接翻译成外国学生使用的语言。自 2012 年以来，该"讲座翻译"一直在 KIT 的讲堂中使用。Waibel 解释道："自发语音识别是这一系统最重要的组成部分，因为识别中的错误和延迟使翻译难以理解。在对话性演讲中，人为错误率约为5.5%。我们的系统现在达到 5.0%。然而，除了精度之外，系统产生输出的速度同样重要，这样学生就可以现场听课了。研究人员现在已经成功地将这种延迟缩短到一秒。威贝尔说，这是迄今为止语音识别系统所达到的这种质量最小的延迟。

使用标准化的、国际公认的科学"总机基准"测试来测量误差率和延迟。这个基准（由美国NIST定义）被国际人工智能研究人员广泛用于竞争，以制造一个机器，接近人类识别自发语音在可比条件下，甚至优于他们。

威贝尔认为，快速、高精度语音识别是进一步下游处理的重要步骤。它使对话、翻译和其他 AI 模块能够提供更好的基于语音的计算机交互。

原文转载自：https://baijiahao.baidu.com/s?id=1682249130263134596

通望科技全景制作

VR头显真的需要到180Hz吗？

2020-05-13

前HTC CEO周永明发布了一体式VR头显Mova

2020-05-27

全球首次！圆周率科技5G+VR直播带你“云登顶”世界屋脊

2020-05-28

数字化虚拟景区：未来必然趋势

2020-05-15

iPad Pro：HoloLens 2第三人称视角的最佳解决方案

2020-05-13