GPT-4发布!在美国律考中击败九成人类 OpenAI警告称,GPT-4还不完美,在许多情况下它的能力不如人类

时间:2023-03-16 07:15:21来源:深圳商报

读特客户端·深圳新闻网2023年3月16日讯(深圳商报记者 涂竞玉)“我继承了GPT-3的基本架构和能力,但在训练数据、模型优化、用户体验等方面有所不同。”GPT-4昨日在线回答深圳商报记者提问时表示。

在ChatGPT引爆科技领域之后,记者获悉,北京时间3月15日凌晨,创造出ChatGPT的OpenAI公司正式对外发布了GPT-4。据悉,GPT-4是新一代多模态大模型,支持图像和文本输入以及正确的文本输出,拥有强大的识图能力,文字输入限制提升至2.5万字,支持多个语言,回答准确性显著提高。


(资料图)

听听GPT-4自己怎么说

深圳商报记者通过注册用户向GPT-4提问道:“在《三体》中,云天明讲的三个童话故事是什么?”其回答:“《三体》是刘慈欣创作的一部科幻小说,全书共分为三部。在第一部《三体》中,云天明讲了三个童话故事,分别是《红色公主》《你是谁》和《送你一朵小红花》。这三个故事都寓意着人类在探索宇宙与外星文明时,所面临的挑战和困惑。”

同一个问题,GPT-3的回答略有不同:“在刘慈欣所著的科幻小说《三体》中,云天明在面对外星文明时,通过三个童话故事向外星人表达了他对人类的看法和态度。这三个童话故事分别是:《史迪仔》《三体》和《蝴蝶效应》。”

对于“如何看待OpenAl近期的快速迭代”这个问题,GPT-4先是表示:“OpenAl是一个致力于开发和研究人工智能的非营利组织,它近期发布了GPT-4,这是一种基于大规模语言模型的生成式AI工具,可以用于文本、图像、音频和视频的生成。OpenAl近期的快速迭代可能反映了它对人工智能发展潜力和影响力的信心和追求,也可能表明了它在人工智能领域的竞争优势和创新能力。”

紧接着,它分析:“OpenAI近期的快速迭代可能带来了一些积极的效果,比如提高了人工智能技术的性能、可用性和多样性,促进了人工智能技术在各个领域和场景的应用和推广,增加了人工智能技术对社会、经济和文化的贡献等。OpenAI近期的快速迭代也可能带来了一些挑战或风险,比如增加了人工智能技术对计算资源、数据资源和环境资源的消耗和压力,引发了人工智能技术在伦理、安全和法律方面的争议和难题,威胁了人类在某些领域或任务上的优势或地位等。”

各种考试能力大幅提升

“GPT-4是世界第一款高体验,强能力的先进AI系统,我们希望很快把它推向所有人。”OpenAI工程师在官网介绍视频里说。

根据官方实验表明,GPT-4在各种专业测试和学术基准上的表现与人类水平相当。在美国BAR律师执照统考模拟中,GPT-4得分约为前10%——击败了90%的人类,而ChatGPT背后的GPT-3.5得分约为倒数10%;在生物奥林匹克竞赛中,GPT-3.5能达到后31%水平分位,GPT-4可达到前1%水平分位;在研究生入学考试(GRE)、SAT数学考试成绩中,也有大幅提升,击败了80%以上的人类答题水平,而医学知识自测考试准确率达75%。

在与其他英文机器学习模型的技术能力方面,GPT-4也表现出了过人之处。OpenAI称,在测试的26种语言中,GPT-4在24种语言方面的表现均优于GPT-3.5等其他大语言模型的英语语言性能。其中,GPT-4的中文能够达到80.1%的准确性,而GPT-3.5的英文准确性仅为70.1%,GPT-4英文准确性提高到了85.5%。

此外,GPT-4还支持做编程、玩梗图、回答关键问题、理解图片、看懂法语题目并解答等其他更多扩展技术能力。研究人员发现,GPT-4能随着时间不断处理令人兴奋的新任务。不过OpenAI表示,图像输入是研究预览,目前不公开。

在该模型的落地和应用方面,OpenAI也有了最新进展。新模型将提供给ChatGPT的付费用户,也将允许程序员将AI集成到他们的应用程序中。OpenAI将对750字左右的指令信息收费3美分,对750字左右的响应信息收费6美分。

微软已经投资了数十亿美元

公司花费6个月的时间,利用对抗性测试程序和ChatGPT的经验教训迭代调整GPT-4,从而在真实性、可操纵性和拒绝超出设定范围方面取得了有史以来最好的结果。

OpenAI称,GPT-4比以前的版本“更大”,这意味着其已经在更多的数据上进行了训练,并且在模型文件中有更多的权重,这使得它的运行成本更高。

但OpenAI并未公布这个模型的参数量有多少。OpenAI表示,它使用的是微软(MSFT.US)Azure训练模型,微软已经向这家初创公司投资了数十亿美元。

目前,此领域的许多研究人员认为,人工智能领域的许多最新进展,都来自于在数千台超级计算机上运行越来越大的模型,这些模型的训练过程可能耗资数千万美元。

为了不断提高GPT-4性能,在过去的两年里,OpenAI重建了整个深度学习堆栈,并为其工作负载从头开始设计了一台超级计算机。一年前OpenAI在训练GPT-3.5时,第一次尝试运行了该超算系统,之后他们又陆续发现并修复了一些错误,改进了其理论基础。这些改进的结果是GPT-4的训练运行获得了前所未有的稳定。

OpenAI联合创始人兼总裁格雷格·布罗克曼表示,OpenAI预计未来将由投资10亿美元超级计算机的公司开发尖端模型,一些最先进的工具将带有风险。OpenAI希望对他们工作的某些部分保密,以给初创公司一些喘息的空间。

OpenAI也警告称,GPT-4还不完美,在许多情况下,它的能力不如人类,“GPT-4仍有许多已知的局限性,我们正在努力解决,比如社会偏见、幻觉和对抗性提示。”

GPT-4自话 比GPT-3强多少

当记者提问:“你和GPT-3有什么不同?”GPT-4回答:我是基于GPT-3模型的一个实例,但我已经进行了进一步的改进和优化。GPT-3(第三代生成式预训练模型)是OpenAl开发的一个大型语言模型,它在很多自然语言处理任务中表现出色。我继承了GPT-3的基本架构和能力,但有以下几个方面的不同:

首先是训练数据,我的训练数据包含了更多的最新信息,截止到2021年9月。这意味着我可以回答更多与近期相关的问题,但请注意我的知识仍有局限,尤其是关于2021年9月之后发生的事件。

其次是模型优化,经过持续的迭代和优化,我的性能可能比原始的GPT-3更好。这包括更好的理解能力、回答问题的准确性和生成更连贯的文本。

再次是用户体验,为了提供更好的用户体验,我可以根据用户需求进行定制和调整。这包括根据具体任务或场景调整我的回答风格、内容和格式。

它表示:“尽管我有这些改进和优化,但我仍然继承了GPT-3的一些局限性,例如在回答某些问题时可能出现准确性、一致性和可靠性方面的问题。我的目标是协助您解决问题和提供信息,但请谨慎对待我的回答,特别是在涉及重要决策时。”

关键词:
    ------分隔线----------------------------
    推荐阅读