8000 Merge pull request #63 from chenquan/master · opensourceai/spark-plan@03067c1 · GitHub
[go: up one dir, main page]

Skip to content

Commit 03067c1

Browse files
author
Chen Quan
authored
Merge pull request #63 from chenquan/master
Add 百度有一种新的技巧可以教AI语言的含义
2 parents 7196eb2 + 44f2c5f commit 03067c1

File tree

1 file changed

+69
-0
lines changed

1 file changed

+69
-0
lines changed
Lines changed: 69 additions & 0 deletions
Original file line numberDiff line numberDiff line change
@@ -0,0 +1,69 @@
1+
*作者:Karen Hao*
2+
3+
*地址:https://www.technologyreview.com/s/614996/ai-baidu-ernie-google-bert-natural-language-glue/*
4+
5+
*译者:muzhoubai*
6+
7+
**百度有一种新的技巧可以教AI语言的含义**
8+
9+
10+
11+
___受中英文差异的启发,它展示了人工智能研究如何从多样性中获益___
12+
13+
本月早些时候,一家中国科技巨 10000 头在人工智能领域的竞争中悄然取代了微软和谷歌。这家公司是百度,中国最接近谷歌,而竞争对手则是通用语言理解评估,也就是俗称的胶水。
14+
15+
GLUE是一个被广泛接受的标准,用来衡量人工智能系统对人类语言的理解程度。它包括九个不同的测试,比如在一个句子中找出人和组织的名字,当有多个潜在的先行词时,找出“It”这样的代词指的是什么。因此,一个靠胶水得分很高的语言模型可以处理不同的阅读理解任务。满分100分的人,平均分在87分左右。百度现在是第一个以其模式厄尼(ERNIE)超越90的团队。
16+
17+
GLUE的公共排行榜在不断变化,另一个团队很可能很快就会超过百度。但百度的成就值得注意的是,它说明了人工智能研究如何从众多贡献者中获益。百度的研究人员不得不开发一种专门用于中文构建ERNIE的技术(ERNIE是“通过知识集成增强表现力”的缩写)。不过,碰巧的是,同样的技巧也能使它更好地理解英语。
18+
19+
20+
21+
**ERNIE的前身**
22+
23+
___为了欣赏厄尼,考虑一下它的灵感来源:谷歌的BERT。(是的,他们都是以芝麻街的人物命名的。)___
24+
25+
在BERT(“来自Transformer的双向编码器表示形式”)于2018年末创建之前,自然语言模型并不是那么好。它们善于预测句子中的下一个单词,因此非常适合诸如Autocomplete之类的应用,但它们不能 即使是很小的一段话,也无法保持单一的思路。这是因为它们不理解含义,例如“它”一词可能指的是什么。
26+
27+
但是BERT改变了这一点:以前的模型通过仅考虑出现在单词前后的上下文来学习预测和解释单词的含义绝不会同时出现,换句话说,它们是单向的。
28+
29+
相反,BERT一次考虑单词前后的上下文,使其成为双向。它使用一种称为“遮罩”的技术来做到这一点。在给定的文本段落中,BERT随机隐藏了15%的单词,然后 试图从剩余的预测中进行预测。这使它可以进行更准确的预测,因为它具有两倍的工作线索。例如,在“男人去##买牛奶”这句话中,无论是开头还是结尾。 句子的结尾提示缺少的单词。##是您可以去的地方,也是可以购买牛奶的地方。
30+
31+
使用遮罩是对自然语言任务进行重大改进背后的核心创新之一,并且是诸如OpenAI臭名昭著的GPT-2之类的模型可以撰写极具说服力的散文而又不偏离中心论题的部分原因。
32+
33+
34+
35+
**从英语到汉语的循环过程**
36+
37+
当百度的研究人员开始开发他们自己的语言模型时,他们希望建立在屏蔽技术的基础上。但是他们意识到他们需要调整它以适应汉语。
38+
39+
在英语中,单词充当语义单位,意思是完全脱离上下文的单词仍然包含意义。汉语中的汉字也不能这么说。虽然某些字确实有内在的含义,如fire (火, *huŏ*), water (水, *shuĭ*), or wood (木, **),但大多数字直到与其他字串在一起才有意义。例如,字 灵 (*líng*)可以表示clever (机灵, *jīlíng*) or soul (灵魂, *línghún*),这取决于它的匹配。像波士顿(Boston)或美国(US)这样的专有名词中的字符一旦分开,就不意味着同一件事。
40+
41+
因此研究人员对ERNIE进行了训练,使其在隐藏字符字符串而不是单个字符的新版本的遮罩上进行了培训,并且还对其进行了区分有意义的字符串和随机字符串的培训,从而可以相应地掩盖正确的字符组合。 掌握单词如何用中文编码信息并更准确地预测缺失的片段,这被证明对诸如文本文档的翻译和信息检索等应用很有用。
42+
43+
研究人员很快发现这种方法实际上对英语更有效,尽管英语不如中文多,但英语中也有类似的词串,其含义与部分和的含义有所不同。 像“chip off the old block”之类的东西不能通过将它们分成单个词来有意义地解析。
44+
45+
所以对于这句话:
46+
47+
哈利·波特(Harry Potter)是由罗琳(J. K. Rowling)创作的一系列奇幻小说。
48+
49+
BERT可以通过以下方式屏蔽它:
50+
51+
[mask]波特是J[mask]罗琳的系列[mask]幻想小说[mask]
52+
53+
但是ERNIE会这样屏蔽它:
54+
55+
哈利·波特是[mask] [mask] [mask]的幻想小说。
56+
57+
因此,ERNIE基于含义而不是统计单词用法模式来学习更可靠的预测。
58+
59+
60+
61+
**思想的多样性**
62+
63+
ERNIE的最新版本还使用了其他几种训练技术,例如考虑句子的顺序和它们之间的距离以理解段落的逻辑进展,但是最重要的是,它使用一种称为连续训练的方法使它能够训练新数据和新任务,而又不会忘记以前学到的知识,这使得它在不断地执行各种任务的过程中变得越来越好,而对人类的干扰却最小。
64+
65+
百度积极使用ERNIE为用户提供更多适用的搜索结果,在新闻源中删除重复的故事,并提高其AI助手Xiao Du准确响应请求的能力,并且还将在ERNIE上发表的论文中描述ERNIE的最新架构。明年,人工智能促进协会会议将以他们的团队以Google与BERT的合作为基础,研究人员希望其他人也将从ERNIE的合作中受益。
66+
67+
68+
69+
“当我们第一次开始这项工作的时候,我们正特别考虑中文的某些特点,”百度研究的首席架构师郝天说。“但我们很快发现,它的适用范围超出了这个范围。”

0 commit comments

Comments
 (0)
0