社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

【CRUXEval是一个用于评估Python代码推理、理解和执行-20240109074700

爱可可-爱生活 • 2 年前 • 283 次点击  

2024-01-09 07:47

【CRUXEval是一个用于评估Python代码推理、理解和执行的基准,包含两个任务:CRUXEval-I和CRUXEval-O,用于评估输入和输出预测。该基准测试包括800个Python函数和输入输出对,最佳模型GPT-4在CRUXEval-I和CRUXEval-O上的pass @ 1 分别达到67%和63%。尽管Code Llama 34B等模型在大量代码数据上进行了训练,但仅达到了47%和44%的准确率。该基准测试强调了代码推理能力的重要性,并鼓励未来的代码语言模型评估考虑CRUXEval】《CRUXEval: Code Reasoning, Understanding, and Execution Evaluation》 网页链接 #机器学习# #人工智能#
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/166658