您当前的位置:首页 > IT编程 > 数据集
| C语言 | Java | VB | VC | python | Android | TensorFlow | C++ | oracle | 学术与代码 | cnn卷积神经网络 | gnn | 图像修复 | Keras | 数据集 | Neo4j | 自然语言处理 | 深度学习 | 医学CAD | 医学影像 | 超参数 | pointnet | pytorch |

常用小样本数据集介绍与下载

51自学网 2021-10-06 20:13:05
  数据集

常用小样本数据集介绍与下载汇总

深度学习  # 小样本学习  小样本学习  数据集介绍 

 转载文章: 本文整理了近些年常用的小样本数据集,提供了数据集介绍,参考文献以及下载地址。我手头有资源的都已经上传至百度云盘,其他数据集也提供了官方的下载地址(有些可能需要翻墙)。最后还对各个数据集的情况做了一个简单的汇总。

1.Omniglot

  Omniglot数据集是由来自50种不同语言的1,623个手写字符构成的,每个字符都有20个不同的笔迹,这就构成了一个样本类别极多(1623种),但每种类别的样本数量极少(20个)的小样本手写字符数据集。使用中通常选择1200种字符作为训练集,剩余的423种字符作为验证集,并通过旋转90°,180°和270°进行数据集扩张,每张图片通过裁剪将尺寸统一为28*28。
  参考文献:Lake B, Salakhutdinov R, Gross J, et al. One shot learning of simple visual concepts[C]//Proceedings of the annual meeting of the cognitive science society. 2011, 33(33).
  下载地址:https://pan.baidu.com/s/19Y5aGfa-lNEZTDUeL1jP4g
  提取码:4y3z

2. miniImageNet

  miniImageNet数据集是从ImageNet数据集中选择了60,000张图像构成的,共100个类别,每个类别有600张图像,每幅图像的尺寸为84*84。使用中通常选择其中80个类别的图像作为训练集,剩余的20个类别的图像作为验证集。也有的文章将其分为基础集(Base Class,64种),验证集(Validation Class,16种)和新类别集(Novel Class,20种)。
  参考文献:Vinyals O, Blundell C, Lillicrap T, et al. Matching networks for one shot learning[C]//Advances in neural information processing systems. 2016: 3630-3638.
  下载地址:https://pan.baidu.com/s/1nqBSA1w5mQuhlrQeCY4HgA
  提取码:ajrz

3. tieredImageNet

  tieredImageNet数据集也是从ImageNet数据集中选取的,包含34个大类(Categories),每个大类有包含10-30个小类(Classes),每个类别有数量不等的多个图像样本,共计608个类别,779,165张图像(平均每个类别包含1281张图片)。34个大类可划分为训练集(20大类),验证集(6大类)和测试集(8大类),数据集划分情况如下图。

  参考文献:Ren M, Triantafillou E, Ravi S, et al. Meta-learning for semi-supervised few-shot classification[J]. arXiv preprint arXiv:1803.00676, 2018.
  下载地址:
https://drive.google.com/uc?export=download&confirm=_SLS&id=1g1aIDy2Ar_MViF2gDXFYDBTR-HYecV07

4. CUB-200

  CUB-200数据集全称为Caltech-UCSD Birds-200-2011数据集,是由加利福尼亚理工学院提供的鸟类数据库,共包含200种鸟类的11,788张图像。使用中通常划分为训练集(100种),验证集(50种)和测试集(50种),图像尺寸统一裁剪为84*84。
  参考文献:Catherine Wah, Steve Branson, Peter Welinder, Pietro Perona, and Serge Belongie. The caltech-ucsd birds- 200-2011 dataset. 2011.
  下载地址:https://pan.baidu.com/s/1DEmLxePvDuJX1goSzM9r6Q
  提取码:f1l5

5. CIFAR-FS

  CIFAR-FS数据集全称为CIFAR100 Few-Shots数据集,是来自于CIFAR 100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。使用中通常划分为训练集(64种),验证集(16种)和测试集(20种),图像尺寸统一为32*32。
  参考文献:Bertinetto L, Henriques J F, Torr P H S, et al. Meta-learning with differentiable closed-form solvers[J]. arXiv preprint arXiv:1805.08136, 2018.
  下载地址:https://pan.baidu.com/s/1HqRUw3dmsMBInt_Fh3J_Uw
  提取码:ub38

6. ImageNet-1K Challenge

  ImageNet-1K Challenge数据集同样来自ImageNet数据集,是共包含1000类别。使用中通常划分为基础数据集(389个类别)和新样本数据集(611种)。
  参考文献:Hariharan B, Girshick R. Low-shot visual recognition by shrinking and hallucinating features[C]//Proceedings of the IEEE International Conference on Computer Vision. 2017: 3018-3027.
  下载地址:http://www.image-net.org/

7. FC100

  FC100数据集全称是Few-shot CIFAR100数据集,与上文的CIFAR-FS数据集类似,同样来自CIFAR100数据集,共包含100类别,每个类别600张图像,合计60,000张图像。但不同之处在于  FC100不是按照类别(Class)进行划分的,而是按照超类(Superclass)进行划分的。共包含20个超类(60个类别),其中训练集12个超类,验证集4个超类(20个类别),测试集4个超类(20个类别)。
  参考文献:Oreshkin B, López P R, Lacoste A. Tadam: Task dependent adaptive metric for improved few-shot learning[C]//Advances in Neural Information Processing Systems. 2018: 721-731.
  下载地址:https://pan.baidu.com/s/1Wnlp1-obKsMLcHITYQ1CLg
  提取码:kcd6

                   小样本数据集汇总表

小样本数据集 来源 类别数 图片数 图片尺寸
Omniglot - 1623 32,460 28*28
miniImageNet ImageNet 100 60,000 84*84
tieredImageNet ImageNet 608 779,165 84*84
ImageNet 1K ImageNet 1000 - -
CIFAR-FS CIFAR 100 100 60,000 32*32
FC100 CIFAR 100 100 60,000 32*32
CUB-200 - 200 11,788 84*84

miniImagenet数据集处理
CUB200-2011鸟类细粒度数据集训练集和测试集划分python代码
51自学网,即我要自学网,自学EXCEL、自学PS、自学CAD、自学C语言、自学css3实例,是一个通过网络自主学习工作技能的自学平台,网友喜欢的软件自学网站。
京ICP备13026421号-1