(资料图)
科技日报记者 刘霞
加拿大科学家在16日出版的《放射学》杂志上刊登新论文称,最新版本的ChatGPT通过了美国放射学委员会的考试,突出了大型语言模型的潜力,但它也给出了一些错误答案,表明人们仍需对其提供的答案进行核查。
图片来源:物理学家组织网
ChatGPT是一种人工智能(AI)聊天机器人,它使用深度学习模型在庞大的训练数据中识别单词之间的模式和关系,并根据提示生成类似人类的反应,类似的聊天机器人正被纳入谷歌和必应等流行的搜索引擎中,医生和患者们也会使用这些搜索引擎来搜索医疗信息。但由于数据来源并不一定真实可靠,该工具会给出与事实不符的答案。
为评估ChatGPT在美国放射学委员会考试问题上的表现并探索其优势和局限性,多伦多大学的拉杰什·哈瓦那博士及其同事首先测试了基于GPT-3.5的ChatGPT的表现。研究团队使用了150道选择题,这些选择题与加拿大皇家学院和美国放射学委员会考试的风格、内容和难度相当。这些问题不包括图像,分为低阶(知识回忆、基本理解)和高阶(应用、分析、综合)思维问题。高阶思维问题可进一步细分为影像学表现描述、临床管理、计算和分类、疾病关联。
研究人员发现,基于GPT-3.5的ChatGPT的正确率为69%,接近70%的及格线。该模型在低阶思维问题上表现相对较好,正确率为84%,但回答高级思维问题时表现不佳,正确率仅为60%。而性能更优异的GPT-4的正确率为81%,且在高阶思维问题上的正确率为81%,远好于GPT-3.5。但GPT-4在低阶思维问题上的正确率仅为80%,答错了12道题——GPT-3.5全部答对了这些题目,这引发了研究团队对GPT-4收集信息的可靠性的担忧。
这两项研究都表明,ChatGPT会有提供不正确答案的倾向,如果仅仅依靠它获取信息,非常危险,因为人们可能意识不到其给出的答案是不准确的,这是它目前面临的最大的问题。当前,ChatGPT最适合用来激发想法,帮助撰写数据摘要,而用于快速信息检索,需要对其提供的事实性答案予以核查。
下一篇:最后一页
广告
X 关闭
广告
X 关闭
指数型基金怎么买?指数型基金和股票型基金有什么区别?
2023-04-27指数型基金指的是什么基金?指数型基金的选择标准是什么?
2023-04-27基金购买日确认日是多久?基金价格是按购买日还是确认日?
2023-04-27已知价原则是什么基金?已知价计算法是什么意思?
2023-04-27基金申购采取什么原则?为什么基金交易中采用未知价原则?
2023-04-27公司必须有资本公积吗?公积金转增股本后股价要除权吗?
2023-04-24资本公积金转增股本触发反稀释吗?资本公积金转增股本对股票有啥影响?
2023-04-24资本公积金转增股本是利好吗? 资本公积转增资本的作用是什么?
2023-04-24ROC指标是什么意思?ROC指标最佳参数指的是什么意思?
2023-04-21中国第一枚邮票是于哪年发行的?大龙邮票的是市场价值是多少?
2023-04-19