三井 发自 凹非寺

量子位 出品 | 公众号

真是青出于蓝而胜于蓝。

距离上次开源20万“不可描述”图片数据集30天之后,又有人在上放出“大招”:

开源了内含158.9万张不可描述图片的数据集。

nsfw_nsfw_nsfw

这次出手的,是一位名叫 数据科学家,目前在一家内容优化公司工作。

他说,自己做这个数据集,是受到了(20万数据集)的启发。

与先前的数据集不同,这个数据集更加“纯粹”,并按照场景、外观等因素分成了159个类别,比如:

“”、“ch”、“-shots”等等。

nsfw_nsfw_nsfw

而且,在这159个类别之下,再次进行了分类。比如在“”类别下,还有5个类别:

nsfw_nsfw_nsfw

至于这个数据集的用途,就仁者见仁智者见智了。

表示,它可以用来鉴别“NSFW”图像。毕竟这个数据中基本上都是“不可描述”的图像,分类又细化。

如果你有想法,倒是可以上手试一试。

比如,上次20万数据集放出之后,就有人做成了鉴黄模型。

项目地址:

想要下载数据集,得有足够大的硬盘。整个数据集下载清洗后大概有500G大小。

在上,给出的是图片的URL。

nsfw_nsfw_nsfw

具体的下载方法,可以参考中的脚本:

找到目录下的“.sh”……

但是,切记,一定不要在办公室打开。

传送门

数据集下载脚本地址:

158万数据集地址:

— 完 —

诚挚招聘

量子位正在招募编辑/记者,工作地点在北京中关村。期待有才气、有热情的同学加入我们!相关细节,请在量子位公众号()对话界面,回复“招聘”两个字。

量子位 · 头条号签约作者

վ’ᴗ’ ի 追踪AI技术和产品新动态

———END———
限 时 特 惠: 本站每日持续更新海量各大内部创业教程,永久会员只需109元,全站资源免费下载 点击查看详情
站 长 微 信: nanadh666