搜狗发布AI合成主播 背后技术“搜狗分身_同时浮出水面

admin 移动互联 2023-11-27 09:11:52 0 我们 媒体 技术

11月8日,在11月7日开幕的第五届世界互联网大会上,搜狗正式发布了与新华社共同开发的全球首个全模拟智能合成主机“AI合成锚”,并宣布搜狗未来人工智能核心技术“搜狗分身”也受到了广泛关注。

据报道,观众只要将现有的新闻文字输入到“AI合成主播”中,就会在屏幕上看到合成新华社的新闻主播,他不仅会使用与真人相同的声音进行广播,而且嘴唇、面部表情也能完全匹配。这样的视频效果,无论是看起来还是听起来,都和新华社主播自己的实际广播没有太大的不同。

在合成锚的开发过程中,搜狗公司相关技术人员和新华社新闻锚进行了各种探索尝试,在“搜狗分割”技术的支持下,通过人脸关键点检测、人脸特征提取、人脸重构、唇部识别、情感传递等多种前沿技术,并结合语音、图像等多模态信息进行协同建模训练。“AI合成锚”正式诞生了。

同时,搜狗智能语音事业部总经理王燕峰表示,“搜狗拆分”技术是搜狗人工智能的核心技术之一,是在搜狗“自然交互+知识计算”的人工智能理念下诞生的。该技术利用搜狗的AI能力,在图像表示、语音语言习惯、逻辑思维等层面将AI拟人化,克隆并创造人类的AI分身,帮助人类提高信息表达和传递的效率。这项技术是支撑“AI合成锚”正常运行的核心。

发布会结束后,搜狗CEO王小川接受了腾讯科技等媒体的采访,以下是部分采访记录(删减原文意图不变)

记者:就像我说的,他失业了吗?

王小川:首先,人工智能技术可以分为感知技术和认知技术。感知有声音和图像在感知技术的方向上,机器基本上可以做得和人类一样好。但是,在这个方向上,推理、思维、以核心为核心的东西的能力是有限的,当涉及到这一高度时,它现在是不可能的。

媒体:有可能吗?

答:我们没有这种技术。法律或医学等特定领域的垂直领域越窄,机器在特定领域接近人类的可能性就越大。人工智能不是一个大术语,人工智能有很多含义。在这种情况下,人工智能被提升到与人类认知相关的东西,而机器只能辅助,没有办法取代人类。但是,就像Face++和SenseTime一样,如果你只听声音或看图像,机器已经可以取代你的部分感知。当涉及到人类的高级活动时,机器不可能取代人类。高水平的活动称为认知,低水平的活动称为感知,而现在的机器可以进行感知,这是一个大盒子。

媒体:人工智能合成锚,你如何看待人与机器的关系?交流还是合作?

王小川:这个名字是新华社决定的人工智能合成锚,这项技术包括语音合成、表情合成、唇合成,特别是唇合成三种合成。虚拟这个词,画漫画也叫虚拟,当你叫虚拟锚的时候,别人很容易诚实,你说怎么叫这个东西叫虚拟,所以我们称之为人工智能合成锚。人工智能合成锚与人的关系取代了这个问题,或者合作,如果是感知的问题,不写背后的语言组织或深度手稿,你就能更接近真人。

记者:你的意思是写新闻稿,剩下的就交给自己了?

王小川:如果你想精确地做,那么在哪里生气,在哪里温柔,等等,机器很难做到。这是因为你不理解手稿的内容机器。如果仅仅用视觉和听觉来表达,人工智能合成锚可以更接近真人,而与内容的相关性越高,机器的作用就越弱。

媒体:搜狗的AI合成锚和微软小冰锚有什么区别?

王小川:搜狗的人工智能合成主播是真人形象,小冰赋予了化身,声音与真人不同,面部表情和嘴唇没有变化。人工智能合成锚在真正合成之后,就可以起到真人的替代作用。

媒体:除了锚定领域之外,这项技术在其他场景中是否有应用?

王小川:例如,我现在正在和凯叔叔聊天。凯叔叔一直在谈论这个故事,也许他以后会成为爸爸妈妈,给我们讲故事。在我们的大概念之下,锚是其中的一部分,我们必须将其个性化并将其转化为其他人。

你的狗想知道现在该怎么做吗?

王小川:关于即将到来的搜狗进入方式的方向,我以前说过,叫辅助对话,帮你说话。去年搜狗上市的时候,我一天就收到了3000个祝福。如果我用的是语音,我也想说3000,发的消息的人也不一样,有些记者朋友,有些老同学,回复的内容也不一样。这一次,你可以用你的个性来帮助你说话,这将有助于你做机械的,重复的劳动。搜狗有两个想法,一个是让机器成为你的另一个自我,另一个是让机器成为你的助手,一个搜索狗成为你的助手。这是狗的两个主要方向。

记者:语言门槛不是很高吗?

王小川:语言门槛很高,当高德地图合成林志玲的声音时,林志玲读了很多句子。这不是一个固定的“向左向右拐”句子。搜狗现在只需要10分钟的数据量就足够了,它可以用非常小的数据合成一个人的声音。

媒体:为什么?在算法上有什么突破吗?

王小川:所谓的小数据其实是和大数据分不开的,机器看到很多声音,发现这个人的声音特性和别人不一样,所以小也大。婴儿说他们学得很快,但当他们看到照片时,他们看到了很多照片,然后又看到了另一张照片。因此,对于特定域,数据越小越好,但对于一般域,您需要足够的数据。因此,这里涉及的技术可以训练大量的语音,同时使用较少的语音数据训练特定人的语音,这存在技术障碍。

媒体:合成锚的商业化步伐是否会比以前做过的其他人工智能项目快一点?

王小川:如果第一次翻译最快,就需要翻译。除了翻译宝,搜狗搜索还支持用中文搜索全球信息,用中文阅读全球信息。这是一种翻译技术的应用。翻译是搜索犬的任务之一,输入方式可以将中文翻译成外语,搜索可以将外语翻译成中文。翻译是非常重要的,因为我们自己做信息桥梁的公司,这是最早落地的技术。首先是语音,然后是图像,然后是翻译,翻译后是另一个自我,训练一个人的数据,然后帮助他表达。最后,你有一个私人助理来帮助你回答问题。对于消费者来说,这是一条技术演进的道路。

媒体:搜狗做一般训练时,语音素材是怎么得到的,是正常语音输入时的语音,又怎么样?

王晓昌:我们有很多合作。例如,我们现在与喜马拉雅山合作,我们可以利用他们所阅读的内容来收集尽可能多的不同声音。

媒体:搜狗除了医疗保健之外,还从事法律相关的内容搜索,这一领域的选择标准是什么,以及你下一步扩大垂直搜索的计划是什么?

王小川:首先,最大的医疗,法律在中间有着明显的知识结构能力,这种知识的界限是比较权威和规范的,在这种情况下,我们可以做出选择。“医疗保健比法律好得多。

狗狗是否会进入其他领域?

王小川:在其他领域,我希望能让百科全书成为一个更权威的真理。简而言之,在某些领域,互联网上的信息是不够的。我希望我们能够以一种新的方式做到这一点,无论是通过人工智能技术还是其他方式。

媒体:为什么要做狗号,这个内容是什么样的,为什么要介入这个市场?

小川王先生:因为今天做平台,就像头条和抖音一样,一个是用户消费,一个是生产者是合作关系,这种合作不仅可以签署合同,实际上可以使平台,但搜索引擎没有,搜索模式被抓住,大意愿的标题或这样的搜索狗号,这意味着我们希望增加合作的比例,更加标准化。这将提高协作的内容和质量,从而改善用户体验。

记者:你觉得为时已晚吗?

王小川:这不会是一个战略突破。

媒体:这种信息流的变化会给狗带来可观的回报吗?

王小川:有些信息流广告主要是基于APP、搜狗APP或浏览器,还有一些补充。如果一个应用程序很大,那么好处就很大了。

媒体:之前你总是刷振动,刷标题,说容易上瘾,搜狗能改变这一点吗?

王小川:我们做了很大一部分的工作,不仅仅是信息流,还有搜索服务。第二,有一些东西不会改变,比如游戏,我们不会,对我们来说,游戏从我们的兴趣经验来看并不是游戏,游戏是一样的,你得到了一个虚拟的世界,去满足你沉迷于里面,有太不现实的风景表达这样的概念,人们是需要的,但是如何引导你。我们并没有创造一种指导能力,我们愿意在自己擅长的地方发挥我们的优势,我们让信息表达更容易。我们将担任口译员,在此期间,我们将进行问答技术。

媒体:你对搜索后的流量渠道和客户获取水平有什么看法?

小川王:渠道有两件事,一个地方是使用自己的流量渠道,比如用户输入的方式。如果他有这样的意图,我们可以直接向他提供更好的信息。甚至要分享,这个问题,我们还有很大的改进空间,把搜索和输入行为联系起来,第二,我们希望在搜索结果中有更好的差异化或权威性。现在,我们很重视医疗健康内容,希望内容有差异化,而不是依靠合作,QQ浏览器和手机厂商,让用户积极使用,成本会下降。

媒体:搜狗AI战略仍然相对聚焦,但你是否考虑到相关的多样化或更多的AI软件或科研或硬件?

小川王先生:不,我认为我们是很开放的,我们在信息文明时代的核心是对知识或语言的理解,做AI我遇到了几篇文章,说今天AI属于大公司,有几家大公司,第一个场景,有数据,所以如果你做AI,没有场景,就没有数据,就只做技术。这是很难做到的,我们的数据和场景都是做的,用户的表达和信息获取,输入和搜索,围绕场景二是中间需要有持续的投资,很多创业公司和没有商业模式的企业今天都是这样投资的,如果市场不开放,这件事很有可能会掉下来。我们有足够的资金来投资,但我们希望与有形的商业价值相匹配,我们不考虑做翻译的业务,正在扩大,我们最近支持共500个同声传译,我们正在努力扩展到外部,无论是在商业问题,还是在我们的使命中,方便信息的表达和访问,这是一个未来,机器将部分取代人类或提供服务。

媒体:简单的同时通讯问题:机器能取代人类吗?

王小川:我不能。如果你使用的是一个好人,机器无法跟上,但你没有优秀的同声传译或出国旅行,所以有很多地方。在这种情况下,机器能起作用,翻译容易走是一种重复劳动,但真正好的翻译是有知识、有思想的,你让他思考一些事情,机器没有人是强者,开放思维,如果它在棋盘上封闭思维,机器可以围棋,运行,但是开放的环境,单靠机器是不够的。

媒体:你会考虑多媒体搜索布局吗?

王小川:搜索的核心是基于语言。即使你保留了文本,仅仅绘制它是不够的。我们有图像搜索功能,语音搜索功能,但核心点是阅读理解,这不是我们受益最多的地方,也不是最大的突破,我们的突破在于语言理解,这比5G更难。

媒体:从硬件产品来看,未来有可能做OEM吗?

王晓川:这是可能的,但是现在,通过自己的东西做,再打开,像亚马逊一样,在做Echo音箱之前,自己做,有机会和别人一起玩,否则第一天是B2B2C,不知道客户在哪里,或者没有和客户形成积极的习惯,对C公司不够好,先做自己,再做一次,再做一次。他们发现自己的能力不够,并重新打开。

媒体:我们需要多长时间才能实现真正的人工智能个人助理,以及我们需要在哪些方面取得突破?

王小川:20年前,我们称之为信息时代,每个时代都有一个起点,就像第一个轮子的发明一样,农业时代,轮子的发明可以推动一辆小型汽车进入农业,这就是它的由来。然后有蒸汽机,进入工业时代,有计算机和互联网,进入信息时代,信息时代的特点是信息可以在地理、时间、空间上传递信息。像电子邮件和IM这样的东西可以远程与人交流,在线发布信息,搜索信息,在这种情况下,输入方式,搜索引擎,通信软件是新时代的核心应用程序,你刚才提出的问题对未来20年的人工智能个人助理来说至关重要。

媒体:你需要多长时间才能真正学会帮助别人?

王小川:垂直区域是缓慢的。真正的助手,也是AI助手,给普通人做翻译。过去,我们依赖人类,但现在我们依赖机器。然后,就像我们的垂直场景一样,我们也在做机器来帮助我们做出自动响应。他已经开始这样做了,但他需要现场的支持。这不仅是因为你训练了你的思维能力,而且是因为你训练了你的知识。接下来,我们将以数据驱动的方式做到这一点,它只会帮助人们,他现在并没有取代人们,虽然技术无法取代人们,但帮助人们的事情已经开始发生。

记者:这是一个销售解决方案吗?

王小川:我们是C。它使消费者更容易使用。

媒体:AI合成锚或未来AI合成图像,未来的使用场景是什么?

王晓川:合成锚赋予了我们今天进行对话和提问的核心功能,可以是互动的,所以在医学、法律等一些人机交互中,起到了更友好的沟通作用,但真正的服务内容是面对面的内容。另一个场景今天传到了新华社,他们有一个编辑来写原稿,机器只是阅读角色,不是单向的,而是双向的,所以他是一种自然的互动,而在知识计算中,并没有把这种能力投入。

媒体:搜狗未来的战略是AI+IoT(物联网),你知道吗?

王小川:物联网只是一个接口。我们不能把IoT提升到更高的水平。人工智能是核心,为了帮助人们获取信息,物联网可以帮助表达他们获取信息的入口。

狗为什么不做智能扬声器?

王小川:这款产品的核心点不是技术驱动的,而是足够便宜、便宜。它没有这个功能,它只是资金驱动,没有人工智能。就像出租车外卖一样,相当于卖钱亏了,我们实际上是不会做它的能力的。

媒体:人工智能什么时候能赚钱?

王小川:他们说人工智能是一种技术,技术赚钱,但这个词不成立,它必须成为一个企业,才能赚钱。小企业面临的挑战更大,尤其是因为人工智能技术需要数据驱动。这是一个场景,可以是额外的,这不是我们从转折点看到的。所以,这是一个大的社会分工,允许数据交换,让小企业向大企业提供技术服务,看看目前的趋势,人工智能真的是大企业的事。另一个原因是,政府发布数据可能会带来新的投资机会,中小企业有机会访问数据,如果政府发布数据,这可能会带来新的机会。

媒体:科技领域有新的发展,你会投资几家公司吗?你自己去吗?

王小川:我们的模式没有改变。我们不是为了赚钱而投资的。我不认为这是我们的工作。就我们自己而言,我们已经在美国工作了,所以如果国内环境、科技部门取得成功,那将是非常重要的。但这要看政策而定,只有知道这件事发生了,但它最终是如何发展和成功的,对中国来说才有革命意义。

媒体:在选择2C智能硬件产品时,是否有不满足的场景?

王晓川:首先,你需要有一台更好的录音机,真正的老师,从媒体人做演讲的时候,或者谈合同的时候,只要有业务活动,那就是需要使用的,但不是品牌产品,如果能力得到了提升,就会有新产品。我想我会努力把大家的新技术思维带到一起,也可能和硬件厂商合作。

媒体:在数据和隐私保护方面是否有新的变化?

王小川:尊重隐私,保护隐私这是一个非常严肃的话题,必须遵守,符合法律和用户文化,但我们知道,如果是片面的,隐私是不可侵犯的,这种观点尤其有害。所以,在这种情况下,从整个社会的价值观来看,个人可以打开自己的一些数据,让企业知道自己可以为您提供更好的服务,而这样的事情在安全的情况下,一定要提倡一些东西,所以欧盟的做法,最后会自己坑,用户消费者不会买它,最后,你将无法升级你的服务,这将是一个整体的落后。

媒体:搜狗创业新业务的时候,要看你是否打开这个业务,最大的思维维度是什么?

王小川:首先,我们知道未来的趋势是什么。这是一个来源。但第二个问题是为什么我们要这样做,当我们这样做的时候,它与我们的价值观、能力和我们目前的处境有什么关系,为什么是我,这也是一个严重的问题。最好有一个整体的使命。如果这是一种趋势,在你的使命中,你会努力去做。

媒体:在搜狗,您是否考虑将自己定位为专业经理人或联合创始人?

王小川:其实我有双重属性,我也承担着精神上的角色和领导方向,但对于股权关系,我必须像一个职业经理人一样工作,这是一个非常独特的状态。

(来源:腾讯科技作者:孙宏超)

分享: