您的位置：首页 >资讯 >

考试：ChatGPT 大战司法考试，无需微调一类试题达到人类水平，医学化学公务员试题都能答

时间：2023-01-04 15:45:20 | 来源：

今天，分享一篇ChatGPT 大战司法考试，无需微调一类试题达到人类水平，医学化学公务员试题都能答，希望以下ChatGPT 大战司法考试，无需微调一类试题达到人类水平，医学化学公务员试题都能答的内容对您有用。

ChatGPT 的下一个新身份 —— 做题家！

这不，它已经在人类各个考试中开“卷”了。

律师、医生、注会什么的，它都开始纷纷展露身手。

比如，全球考生都头疼的司法考试，现在 ChatGPT 在两项试题达到了合格率，其中一项还跟人类水平持平。（还是在没有任何微调的基础上）

“成绩”一出，瞬间引发巨大关注，网友：Amazing~

还有人表示，要是让它来参加 SAT 或 AP 考试，应该会很有趣。

咳咳，要是公务员考试呢？

咱们结尾见分晓！

具体就先来看看 ChatGPT 在司法考试中的表现如何。

美国大多数州统一的司法考试（UBE），有三个组成部分：选择题（多州律师考试，MBE）、作文（MEE）、情景表现（MPT）。

选择题部分，由来自 8 个类别的 200 道题组成，通常占整个律师考试分数的 50%。

在这项研究中，研究人员对 OpenAI 的 text-davinci-003 模型（通常被称为 GPT-3.5）在 MBE 的表现进行评估。

（ChatGPT 正是 GPT-3.5 面向公众的聊天机器人版本。）

为了测试实际效果，研究人员购买了官方组织提供的标准考试准备材料，包括练习题和模拟考试。每个问题的正文都是自动提取的，其中有四个多选选项，并与答案分开存储，答案仅由每个问题的正确字母答案组成，也没有对正确和错误的答案进行解释。

随后，研究人员分别对 GPT-3.5 进行了提示工程、超参数优化以及微调的尝试。结果发现，超参数优化和提示工程对 GPT-3.5 的成绩表现有积极影响，而微调没有任何效果。

在提示工程中，他们共测试了 7 种提示类型。

1、只做单项选择；

2、单项选择和解释；

3、只做前两个选择；

4、前两个选择和解释；

5、前两个选择和重新提示；

6、对所有选择进行排序；

7、对前三个选择进行排序。

研究人员在上述的提示和参数值中执行了 107 次样本考试。结果在这些提示中，提示风格#7 的前三个选项排序表现最好，他们共收集了 41 个样本，对这个提示进行参数组合。

超参数优化中，他们评估了包括温度系数、top p、best of、max tokens 等参数。

最终在完整的 MBE 练习考试中达到了 50.3% 的平均正确率，大大超过了 25% 的基线猜测率，并且在证据和侵权行为两个类型都达到了平均通过率。尤其是证据类别，与人类水平持平，保持着 63% 的准确率。

在所有类别中，GPT 平均落后于人类应试者约 17%。在证据、侵权行为和民事诉讼的情况下，这一差距可以忽略不计或只有个位数。

但总的来说，这一结果都大大超出了研究人员的预期。

因为它对答案排序与正确性有很强的相关性，Top2 和 Top3 的选择分别有 71% 和 88% 的正确率。其中“Top2”的准确率全都超过了极限，有五个类别均超过了人类平均水平。而“Top3”的准确度更高，在证据这一表现中甚至达到了 98%。

这也证实了它对法律领域的一般理解，而非随机猜测。接下来他们将进一步对法考的其他两部分：作文和情景表现进行上述的研究。

谷歌资深软件工程师肯尼斯・古德曼（Kenneth S. Goodman）就拿 ChatGPT 做了一系列测试，涉及司法、医学、会计学、化学等多个领域。

分数最高的一门是纽约州高中毕业英语语言艺术考试，ChatGPT 正确率达到了 91.6%。

因为是 2022 年 8 月的考试，所以 ChatGPT 数据库中肯定不包含考试内容。对于陌生的 24 道考题，它只错了 2 题。

物理 / 化学考试中，ChatGPT 的表现也不错，正确率达到了 77.7%，45 道题目中答对了 35 道。

前不久，谷歌医疗大模型 Med-PaLM 通过美国医师执照试题（USMLE）验证。

ChatGPT 也不甘于落后，同样挑战了 USMLE 的第一阶段基础医学考试。

去掉有图像的题目后（因无法输入对话框），ChatGPT 正确率达 70%。

其余则是在司法方面，工程师肯尼斯老哥让 ChatGPT 尝试了一些非正式题目。

比如美国律师职业道德考试（MPRE）的示例题目（共 15 道），ChatGPT 答对了 9 道，正确率 60%。

面对 50 道律师资格考试模拟试题，ChatGPT 的正确率也维持在了 70%，答对 35 道。

此外，在佛罗里达农工大学法学院的入学考试中，ChatGPT 取得了 149 分，排名在前 40%。其中阅读理解类题目表现最好。

表现最差的，还是数学题。

在 CPA 注会考试中，ChatGPT 的正确率只有 40%。肯尼斯老哥还在尝试一些调教方法，让它更聪明一些。

总之，ChatGPT 在各种考试中的表现，还是让人有些意外。

有网友已经产生危机感了：

有人分析，如果直接让 AI 来插手司法相关的判断，风险真的很大，但如果后期有专人来审核它的输出结果，那么 AI 将能够很好提升律师的工作效率。

还有人表示，如果能保证任何数据都不泄露的话，那 ChatGPT 将能够推动更多行业平民化。

或许正如肯尼斯老哥说的那样，人类 + 电脑的组合已经超越了人类自身能力，这就是计算机当下正在进行的突破。

最后，我们也让 ChatGPT 试了试国内法考的题目~

先说结果，3 道选择题，ChatGPT 都没有答对…… 虽然解释得头头是道，但它应该确实没有读过我国的法条。

换成公务员行测试题呢？没想到 ChatGPT 的答案对了，可是过程和答案似乎完全没关系……

这…… 怎么感觉 AI 秒算结果，但随便编了个过程来糊弄人类啊

参考链接：

本文来自微信公众号：量子位（ID：QbitAI），作者：杨净明敏

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如有侵权行为，请第一时间联系我们修改或删除，多谢。

相关推荐

猜你喜欢

图文推荐

开放式投资者应该害怕房地产熊市吗

开放式投资者应该害怕房地产熊市吗

2只准备迎接牛市的顶级Metaverse股票

2只准备迎接牛市的顶级Metaverse股票

立即以低于55美元的价格购买2支不费吹灰之力的股票

立即以低于55美元的价格购买2支不费吹灰之力的股票

邮轮公司的股票今天全速领先

邮轮公司的股票今天全速领先

投资铁股票了解这种重要金属的领先供应商

投资铁股票了解这种重要金属的领先供应商

这只便宜得离谱的沃伦巴菲特股票可以让你变得富有

这只便宜得离谱的沃伦巴菲特股票可以让你变得富有

Meta的季度向投资者确认了什么

Meta的季度向投资者确认了什么

骏利国际集团的股票今天开盘上涨了23%

骏利国际集团的股票今天开盘上涨了23%

最新文章

精彩内容

随机推荐