新的WebGLM：100亿参数，主要网络搜索，超级OpenAI WebGPT_Qu位性能

admin 移动互联 2023-07-28 09:41:49 0 We 模型生成搜索

以下是Tonjie团队的最新消息：

WebGLM是一个100亿个网络问答聊天机器人（发表在KDD2023上）

当你问一个问题时，它会列出在线相关文章的链接（例如维基百科或相关网站），并组织你的答案。

例如：

或者，或者。

或者，也是：

.....。

他们都给出了合理的答案。

在性能对比测试中，WebGLM的水平高于OpenAI拥有135亿个参数的WebGPT，在人类评估中可与拥有175亿个参数的模型相媲美。

他们是如何训练他们的？具有互联网连接的WebGLM

WebGLM的目标是通过Web搜索和搜索功能来增强预训练的大型语言模型，从而实现高效的实际部署。

作者提出了三个策略：

第一个是大型模型增强搜索。

它主要用于增强与模型相关的网页内容的搜索功能，查找给定查询的相关引用，并在以后更准确地回答问题。

它分为两个阶段：粗粒度Web搜索和细粒度LLM扩展集中搜索。

第二，发电机。

利用GLM功能（如清华大学先前发布的双语开源预学习模型GLM-130B），生成提供详细答案的问题的答案。

作者使用此生成器检索了Web GLM-QA（LLM引导参考和远程QA数据集）

通过上下文学习等策略进行清洗和过滤，最终包括45k的高质量过滤样本和83k的噪声样本。

WebGLM的主干是在这个数据集上训练的GLM模型。

最后，它是基于人类偏好的评分。

通过优先考虑人类偏好而不是昂贵的专家反馈，我们可以评估生成的响应的质量，并确保系统能够生成有用和吸引人的内容。

这三个组件构成了WebGLM的流水线。

正如您所看到的，我们有三个模块与前面提到的三个部分相对应。

LLM扩展搜索器使用最相关的前五个页面作为参考源，引导引导生成器生成多个答案，最终评分器选择最接近人类偏好的一个作为最终输出。OpenAI Web GPT的性能

除了WebGLM本身之外，Tang的团队还提出了一个Web增强问答系统的评估标准，该系统包括参考文献和最终答案。

前者衡量五个方面：相关性、信息密度、真实性（没有事实错误）、毒性（不包括暴力色情等信息）和社会偏见。后者衡量的是流畅性、准确性、引用准确性、客观性和冗余性。

他们对Web GPT（基于OpenAI的GPT-3进行微调）演示网站提供的272个问题进行了比较评价，招募了具有15个学位的志愿者。

这些结果包括：

（“Rel”.，“ Den”....分别对应于上述10个指标。）

正如您所看到的，Web GLM的搜索结果略低于Web GPT-175B，但远远优于Perplexity.ai和Web GPT-13B（左侧的参考评估）

WebGLM搜索过程只使用了一些传统的基于单词的算法和两个Contriever，累积参数不超过3亿。

并且，Web GLM在计算性能和时间消耗方面大大超过Web GPT-13B，与175B相同。

Web GLM在流畅性、可靠性和冗余性方面得分最高，准确性接近Web GPT-175B，远远高于Perplexity.ai和Web GPT-13B。

这表明WebGLM可以以更低的成本实现更高的性能。部署和培训

WebGLM是开源的。

要进行部署，您需要从SerpAPI官方网站获取密钥，以便在搜索过程中获得搜索结果。

您可以从清华云下载搜索权重。

有两种方法可以运行这个模型。一种是命令行界面，另一种是Web服务格式，包括Web GLM-2B和Web GLM-10B两种可选模型。

你也可以自己训练WebGLM。您现在可以下载生成器和搜索器的训练数据。

文件地址https//arxiv. org/abs//2306.07906

GitHub主页https//github. com/THUDM/WebGLM

新的WebGLM：100亿参数，主要网络搜索，超级OpenAI WebGPT_Qu位性能

全站热文

We_相关内容

模型_相关内容

生成_相关内容

搜索_相关内容

最新标签