手把手教你下载ILSVRC2012(ImageNet2012)分类部分数据集以及
??ImageNet2012数据集(又说ILSVRC2012)分类部分,共有1000个分类;常用训练集和验证集作为论文研究,训练集137G左右,验证集6G左右。训练集每个类大概1300张图片,共计约130万张图片。验证集每个类50张图片,共5万张图片。官方网址。
??参考此文章下载数据集:ILSVRC2012下载+训练
??提到的这个文章给出了几个下载方式,本博文将具体描述下其中两种方式。(推荐使用第二种方式迅雷下载,速度较快)
??这个方法是最正规的方法,ILSVRC2012的官方下载地址:ILSVRC2012数据集下载地址
??没有登录的话,看到的画面将是这样的。这是因为官方限制原始的数据集图片资源只能由获得了授权的账号下载(也就是经过教育邮箱认证的账号)。
??如果你有带有.edu结尾的高校邮箱账号(博主本人是使用的导师的邮箱账号授权的),并且有意愿得到授权的话,请继续观看1.1.1小节的内容。否则使用迅雷下载数据集。
??首先进入ImageNet账号注册界面,按照图示填写内容,其中Full Name里我填的是导师名字的拼音,然后进行人机身份验证,然后点击下面的按钮Sign Up进行注册。
??注册成功后,还是在刚才的那个界面,点击Login登录账号。
??然后更新自己的账号信息,当然如果你在注册阶段,就把图中的所有信息都填写完毕的话,这一步可以跳过。
还是在刚才的那个界面,点击Access Permission Status请求授权。
??跳转到如下界面,这串英文是说你现在还没有获得授权,并且在这个界面ImageNet官方给自己来了个免责声明,说这里的图片ImageNet也没有所有权,所以猜测这就是ImageNet官方不把下载地址直接放出来的原因。
??然后点击蓝色链接Click here 跳转到授权请求授权界面。确认信息无误后点击Submit Request提交。
??然后就会给你的教育邮箱发送一个确认链接,点击后,还需要你同意各种条款,那时才真正授权了(由于没有截图,所以无图)。
??有了授权后,再次回到刚开始说到的下载界面:ILSVRC2012数据集下载地址就可以看到可以正常下载ImageNet2012数据集了。由于博主本人只是为了做分类,所以只下载方框圈中的两部分数据集,一个是训练集,一个是验证集。点击蓝色链接下载它们(不过温馨提示,下载速度过慢,在30M的宽带下可能是1-3M左右,需要下载可能半天到一天左右,请做好心理准备,追求速度的可以使用下文的迅雷下载的方式下载)。
??在此章节,使用ILSVRC2012下载+训练中提供的迅雷种子下载训练集和测试集。
训练集
训练集种子:http://academictorrents.com/download/a306397ccf9c2ead27155983c254227c0fd938e2.torrent
验证集
验证集种子:http://academictorrents.com/download/5d6d0df7ed81efd49ca99ea4737e0ae5e3a5f2e5.torren
————————————————
版权声明:本文为CSDN博主「微醺的老虎」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_41214610/article/details/109372321
??即使不开通会员,速度也非常快,有5M左右(用的学校的垃圾校园网30M的宽带),开了会员后有6M左右。训练集+验证集有150G左右,6个小时左右结束下载任务。
??2022年3月27日,值得吐槽的是这个迅雷的试用超级会员下载,今天在博主自己家里下载这个文件时(开了迅雷会员,非超会,200M宽带),如果不点它给你那个试用超会下载的选项,可以跑满20M-30M,下载速度很快。但是点了之后就会给降到14M以下,并且试用结束后,速度也上不去了(看来是软件层面加了限制doge)。
??另外通过此种子的链接发现,此种子的来源于http://academictorrents.com/,进入后发现其可以搜索各种数据集的下载种子,如目标检测种常用的COCO数据集。具体用途有待研究。
??在真正使用前,需要验证一下数据集的完整性,使用命令验证下载得到的MD5值(温馨提示,如果是win10系统,建议下载一个Git,然后在压缩包所在文件夹中鼠标右键选择Git Bash Here):
??如上图所示得到两串字符串,然后去对应是不是与官网提供的MD5值相同。官网提供的MD5值如下所示:
Training images (Task 1 & 2). 138GB.
MD5:1d675b47d978889d74fa0da5fadfb00e
Validation images (all tasks). 6.3GB.
MD5: 29b22e2961454d5413ddabcf34fc5622
??使用pytorch官方提供的教程解压数据集,里面给了一个sh脚本用来一键完成解压分类操作。
??① 一个简单的方法是,点进上述提到的链接:sh脚本,进入后复制粘贴到一个txt文档,然后重命名为.sh后缀;或者使用博主本人提供的百度网盘链接下载。
??② 然后将sh脚本移动到与数据集压缩包同目录下。
??③ 右键打开终端,Ubuntu使用命令
win10右键选择Git Bash Here然后命令执行脚本。
??完成后得到的训练集目录是如下图所示。
??在win10中运行上述脚本过程中,遇到了如下错误提示。
??这是因为win10中没有wget操作,而观察extract_ILSVRC.sh脚本的第63行是一个通过wget下载sh脚本并执行的命令。
??我们只需要手动下载下来并执行就可以了。点进valprep.sh链接,按Ctrl + S保存到imagenet/val中,接着在此目录中鼠标右键选择Git Bash Here输入即可。
??valprep.sh这个脚本是用来给验证集中的一张张图片分进一个个目录中的。
??对于这些目录的名称具体对应哪些类别,可以参考博文,不过知道其具体含义对于训练模型是没有必要的。
未完待续,正在研究
暂时可以先参考pytorch官方的代码。
等过一段时间,会更新这个代码的解释。
上一篇:关于未成年人保护的权责清单
下一篇:赵丽颖任达华遇袭(赵丽颖任达华金鹰节)
最近更新娱乐资讯
- 获奖影评赏析|《阿丽塔·战斗天使》
- 人生必看十部好看的纪录片(十部必看的现实主义纪录片)
- 日本十大禁欲动漫盘点:唯美霸道下的污镜头
- 墨西哥大麻即将合法化,美媒:美国夹在两个“卖大麻的邻居”之间
- “和合”文化背景下昭君文化的价值生成
- 马来酸阿法替尼片人体生物等效性试验
- 原创《满城尽带黄金甲》:喧哗与沉静的戏台,道德与伦理的悲歌
- 裴旖旎
- 隐适美附件又掉了,从第一天掉了2颗,第二天掉了1颗,今晚我还戴牙套吗?
- 电视剧《最美的青春》:好作品是如何炼就的
- 狗头萝莉出摊卖煎饼大家怎么看?
- 记者的职业伦理:我该何时放下相机
- 绝命毒师电影,「蚁人」改造DNA,首部Netflix华语剧...10月流媒体片单
- 这是一部非常独特的「成人动画」,少儿不宜
- 高分电影推荐!六部直击人性黑暗面的韩国片!部部引人深省!
- 2022天津解放军464医院整形美容中心整形价格表(价目表)全新发布
- 精 [电影推荐]一再婚女人因拯救女儿,让两个家庭面临人性考验,此电影令人感动
- 缓冲晶体溶液与生理盐水对重症监护病房患者急性肾损伤的影响:SPLIT随机临床试验
- 未成年人千万别看这部片子,简直太变态了!!!
- 生态在文学中的位置
- 与3800多名女性发生过关系,世界小电影之王,终于那啥了
- 新加坡电影《爸妈不在家》爆冷获多项金马奖
- 调查称52%受访者认为国产电影色情暴力问题严重
- 红楼梦初中读书笔记
- 家庭伦理剧,小品剧本《家庭矛盾》