三井 发自 凹非寺
量子位 出品 | 公众号
真是青出于蓝而胜于蓝。
距离上次开源20万“不可描述”图片数据集30天之后,又有人在上放出“大招”:
开源了内含158.9万张不可描述图片的数据集。
这次出手的,是一位名叫 数据科学家,目前在一家内容优化公司工作。
他说,自己做这个数据集,是受到了(20万数据集)的启发。
与先前的数据集不同,这个数据集更加“纯粹”,并按照场景、外观等因素分成了159个类别,比如:
“”、“ch”、“-shots”等等。
而且,在这159个类别之下,再次进行了分类。比如在“”类别下,还有5个类别:
至于这个数据集的用途,就仁者见仁智者见智了。
表示,它可以用来鉴别“NSFW”图像。毕竟这个数据中基本上都是“不可描述”的图像,分类又细化。
如果你有想法,倒是可以上手试一试。
比如,上次20万数据集放出之后,就有人做成了鉴黄模型。
项目地址:
想要下载数据集,得有足够大的硬盘。整个数据集下载清洗后大概有500G大小。
在上,给出的是图片的URL。
具体的下载方法,可以参考中的脚本:
找到目录下的“.sh”……
但是,切记,一定不要在办公室打开。
传送门
数据集下载脚本地址:
158万数据集地址:
— 完 —
诚挚招聘
量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号()对话界面,回复“招聘”两个字。
量子位 · 头条号签约作者
վ’ᴗ’ ի 追踪AI技术和产品新动态
———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666
声明: 本站内容转载于网络,版权归原作者所有,仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任,若侵犯到你的版权利益,请联系我们,会尽快删除处理!