新的WebGLM:100亿参数,主要网络搜索,超级OpenAI WebGPT_Qu位性能

admin 移动互联 2023-07-28 09:41:49 0 We 模型 生成 搜索

以下是Tonjie团队的最新消息:

WebGLM是一个100亿个网络问答聊天机器人(发表在KDD2023上)

当你问一个问题时,它会列出在线相关文章的链接(例如维基百科或相关网站),并组织你的答案。

例如:

或者,或者。

或者,也是:

.....。

他们都给出了合理的答案。

在性能对比测试中,WebGLM的水平高于OpenAI拥有135亿个参数的WebGPT,在人类评估中可与拥有175亿个参数的模型相媲美。

他们是如何训练他们的?具有互联网连接的WebGLM

WebGLM的目标是通过Web搜索和搜索功能来增强预训练的大型语言模型,从而实现高效的实际部署。

作者提出了三个策略:

第一个是大型模型增强搜索。

它主要用于增强与模型相关的网页内容的搜索功能,查找给定查询的相关引用,并在以后更准确地回答问题。

它分为两个阶段:粗粒度Web搜索和细粒度LLM扩展集中搜索。

第二,发电机。

利用GLM功能(如清华大学先前发布的双语开源预学习模型GLM-130B),生成提供详细答案的问题的答案。

作者使用此生成器检索了Web GLM-QA(LLM引导参考和远程QA数据集)

通过上下文学习等策略进行清洗和过滤,最终包括45k的高质量过滤样本和83k的噪声样本。

WebGLM的主干是在这个数据集上训练的GLM模型。

最后,它是基于人类偏好的评分。

通过优先考虑人类偏好而不是昂贵的专家反馈,我们可以评估生成的响应的质量,并确保系统能够生成有用和吸引人的内容。

这三个组件构成了WebGLM的流水线。

正如您所看到的,我们有三个模块与前面提到的三个部分相对应。

LLM扩展搜索器使用最相关的前五个页面作为参考源,引导引导生成器生成多个答案,最终评分器选择最接近人类偏好的一个作为最终输出。OpenAI Web GPT的性能

除了WebGLM本身之外,Tang的团队还提出了一个Web增强问答系统的评估标准,该系统包括参考文献和最终答案。

前者衡量五个方面:相关性、信息密度、真实性(没有事实错误)、毒性(不包括暴力色情等信息)和社会偏见。后者衡量的是流畅性、准确性、引用准确性、客观性和冗余性。

他们对Web GPT(基于OpenAI的GPT-3进行微调)演示网站提供的272个问题进行了比较评价,招募了具有15个学位的志愿者。

这些结果包括:

(“Rel”.,“ Den”....分别对应于上述10个指标。)

正如您所看到的,Web GLM的搜索结果略低于Web GPT-175B,但远远优于Perplexity.ai和Web GPT-13B(左侧的参考评估)

WebGLM搜索过程只使用了一些传统的基于单词的算法和两个Contriever,累积参数不超过3亿。

并且,Web GLM在计算性能和时间消耗方面大大超过Web GPT-13B,与175B相同。

Web GLM在流畅性、可靠性和冗余性方面得分最高,准确性接近Web GPT-175B,远远高于Perplexity.ai和Web GPT-13B。

这表明WebGLM可以以更低的成本实现更高的性能。部署和培训

WebGLM是开源的。

要进行部署,您需要从SerpAPI官方网站获取密钥,以便在搜索过程中获得搜索结果。

您可以从清华云下载搜索权重。

两种方法可以运行这个模型。一种是命令行界面,另一种是Web服务格式,包括Web GLM-2B和Web GLM-10B两种可选模型。

你也可以自己训练WebGLM。您现在可以下载生成器和搜索器的训练数据。

文件地址https//arxiv. org/abs//2306.07906

GitHub主页https//github. com/THUDM/WebGLM

分享: