该程序使用基于GPT-3.5、GPT-4、GPT-4o架构的大型语言模型并以强化学习训练。ChatGPT目前仍以文字方式交互,而除了可以用人类自然对话方式来交互,还可以用于甚为复杂的语言工作,包括自动生成文本、自动问答、自动摘要等多种任务。如:在自动文本生成方面,ChatGPT可以根据输入的文本自动生成类似的文本(剧本、歌曲、企划等),在自动问答方面,ChatGPT可以根据输入的问题自动生成答案。还有编写和调试计算机程序的能力。在推广期间,所有人可以免费注册,并在登录后免费使用ChatGPT与AI机器人对话。
训练
ChatGPT是生成型预训练变换模型(GPT),在GPT-3.5之上用基于人类反馈的监督学习和强化学习微调。这两种方法都用人类教练来提高模型性能,以人类干预增强机器学习效果,获得更逼真的结果[17]。在监督学习的情况下为模型提供这样一些对话,在对话中教练充当用户和AI助理两种角色。在强化步骤中,人类教练首先为模型在先前对话中建立的响应评级。这些级别用于建立“奖励模型”,使用近端策略优化(PPO)的多次迭代来微调。这种策略优化算法比信任域策略优化(trust region policy optimization)算法更为高效。
此外,OpenAI继续从ChatGPT用户那里收集数据,这些数据可用于加强训练和微调ChatGPT。用户可对从ChatGPT收到的回复投赞成或反对票;投票时还可以额外填写文字回应。
关于ChatGPT编写和调试计算机程序的能力的训练,由于深度学习模型不懂编程,与所有其他基于深度学习的语言模型一样,只是在获取代码片段之间的统计相关性。
斯坦福大学的研究发现,GPT3已经可以解决70%的心智理论任务,相当于7岁儿童;至于GPT3.5(ChatGPT的同源模型),更是解决了93%的任务,心智相当于9岁儿童。但这并不意味着,ChatGPT就真正有心智理论。可能即使不将它设计到AI系统中,也可以作为“副产品”通过训练得到。因此,相比探究GPT3.5是不是真的有了心智还是像有心智,更需要反思的是这些测试本身。
局限
ChatGPT也有多种局限,OpenAI承认ChatGPT“有时会写出看似合理但不正确或荒谬的答案”,在大语言模型中很常见,称作人工智能幻觉。其奖励模型围绕人类监督而设计,可能导致过度优化,从而影响性能(古德哈特定律)。Steven Johnson认为原因是聊天机器人的目标不是追求绝对的真理或准确性,而是尽量根据给定的上下文和概率来产生合理的回答。2020年上线时,ChatGPT对2019年9月之后发生的事件知之甚少。据BBC报道,截至2022年12月,ChatGPT不可以“表达政治观点或从事政治活动”。但研究表明,ChatGPT对两个投票建议应用程序的政治声明表明立场时,表现出亲环境主义。训练过程中,不管实际理解或事实内容如何,审核者都会偏好更长的答案。训练数据也有算法偏差,可能会在向ChatGPT问及人物描述时显现出来。有用户发现ChatGPT在解决较为复杂的题目(如求方程式的切线)时会给出错误答案,并且会在解一元一次方程式时陷入循环。
影响
ChatGPT可写出相似真人的文章,并在许多知识领域给出详细和清晰的回答而迅速获得关注,证明了从前认为AI不会取代的知识型工作它也足以胜任,对金融与白领人力市场的冲击相当大,但也认为事实准确度参差不齐是其重大缺陷,并认为基于意识形态的模型训练结果须小心校正。ChatGPT于2022年12月发布后,OpenAI估值已涨至290亿美元。上线5天后已有100万用户,上线两个月后已有上亿用户。目前GPT-3.5为免费使用,无需注册。注册的ChatGPT免费用户都可以使用浏览、视觉、数据分析、文件上传和GPTs等原付费用户的功能,但有使用量限制。
数据统计
数据评估
本站PPOO提供的ChatGPT都来源于网络,不保证外部链接的准确性和完整性,同时,对于该外部链接的指向,不由PPOO实际控制,在2022 年 12 月 2 日 上午11:48收录时,该网页上的内容,都属于合规合法,后期网页的内容如出现违规,可以直接联系网站管理员进行删除,PPOO不承担任何责任。