社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

喜提Nature正刊!小样本机器学习突破性新方法来了!

学姐带你玩AI • 3 月前 • 98 次点击  

前不久,Nature发表了一篇小样本机器学习论文,讲的是一个表格处理模型TabPFN,平均2.8s解读任意表格,开箱即用,在精度和速度上实现了突破性进展。

有人说这是电子表格的ChatGPT时刻,倒也不夸张,本身小样本机器学习对于解决数据稀缺问题就十分重要(应用场景多),如今也正处于快速发展阶段(创新空间大),关于它的研究一直是热门,现在有了如此突破,后续发展态势必将更加火爆。

目前,小样本机器学习尚有很多问题没解决,对于科研人来说,潜在创新方向或可考虑:模型架构优化、数据增强技术、跨领域迁移与泛化、绿色高效算法、安全与鲁棒性研究...

如果打算深入研究,建议看看我整理的12篇小样本机器学习论文,都是前沿成果,有参考会更容易找到思路,代码也附上了,方便各位复现。

扫码添加小享,回复“小样本机器

免费获取全部论文+开源代码

图片

Accurate predictions on small data with a tabular foundation model

方法:文章介绍的TabPFN主要针对的是小样本机器学习场景,尤其是处理小到中等规模的表格数据,通过在合成数据上预训练和改进的Transformer架构,TabPFN实现了快速高效的训练与预测,显著优于传统方法,同时具备数据生成和可解释性等基础模型特性。

创新点:

  • TabPFN利用上下文学习(ICL)框架,通过生成大量合成表格数据集并训练一个基于Transformer的神经网络,自动学习和解决这些合成预测任务。
  • TabPFN在表格数据建模中表现出色,特别是在中小型数据集(最多10,000个样本和500个特征)上。
  • TabPFN不仅具备强大的预测性能,还展现出基础模型的特性,如数据生成、密度估计和可重用嵌入的学习。

Enhancing Few-Shot Learning with Integrated Data and GAN Model Approaches

方法:论文提出了一种小样本机器学习方法,通过结合GAN生成数据增强和模型微调,并利用MCMC采样与判别模型集成策略来校正GAN的生成和判别分布,同时采用MHLoss优化模型微调过程,从而提升模型在小样本数据上的性能和泛化能力。

创新点:

  • 通过将生成对抗网络(GAN)与马尔可夫链蒙特卡洛(MCMC)采样相结合,提出了一种创新框架。
  • 通过引入MHLoss和重新参数化的GAN集成策略,研究增强了模型的稳定性和加速了收敛过程。
  • 通过MCMC采样和判别模型集成策略的结合,可以显著提高生成数据的真实性。

扫码添加小享,回复“小样本机器

免费获取全部论文+开源代码

图片

Few-shot image classification based on gradual machine learning

方法:论文提出了一种基于渐进式机器学习(GML)的小样本图像分类方法,通过深度网络提取图像特征,并利用因子图逐步对未标记样本进行分类,优先处理较简单的样本。这种方法显著提升了小样本学习的分类精度,并表现出更强的鲁棒性。

创新点:

  • 提出了一种基于非i.i.d渐进式机器学习(GML)范式的新方法,通过在因子图中逐步进行因子推理,逐步对未标记样本进行分类。
  • 设计了一个由一元和二元单调因子组成的因子图模型,这些因子可以通过现有的深度学习骨干网络轻松提取,从而实现少样本图像分类的渐进学习。

Ehrshot: An ehr benchmark for few-shot evaluation of foundation models

方法:论文提出了一个名为EHRSHOT的电子健康记录(EHR)数据集,用于评估基础模型在小样本学习中的表现。他们定义了15个临床预测任务,并预训练了一个1.41亿参数的模型CLMBR-T-base。通过在小样本场景下测试,展示了预训练模型在低数据量任务中的优势。

创新点:

  • 发布了一个名为EHRSHOT的新数据集,包含来自斯坦福医学的6,739名患者的去识别化电子健康记录(EHR)结构化数据。
  • 公开了CLMBR-T-base模型的权重,这是一个基于2.57百万患者的结构化EHR数据预训练的141M参数的临床基础模型。
  • 定义了15个少样本临床预测任务,以评估基础模型在样本效率和任务适应性方面的优势。

扫码添加小享,回复“小样本机器

免费获取全部论文+开源代码

图片

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/179631
 
98 次点击