广义类别发现

本回购包含我们票据的代码：广义类别发现

给定一个数据集，其中一些数据被标记为，广义类别发现是任务将类别分配给所有未标记的实例。未标记的实例可能来自已标记或“New”类。

💥 更新

预打印后的纸张更新（可用更新的PDF在这里，ArXiv即将更新）

我们引入了一个更严格的评估指标——在计算ACC时，我们只对所有未标记数据计算一次匈牙利算法。
- 然后使用这组线性赋值计算“旧”和“新”类子集的ACC（见附录E）
- 实际上，这涉及在中从“v1”转换为“v2”评估./project_utils/cluster_and_log_utils.py

🏃 正在运行

依赖关系

pip安装-r要求.txt

配置

在中设置数据集、预训练模型和所需日志目录的路径配置.py

设置保存DIR（日志文件目标）和蟒蛇（python解释器的路径）bash_scripts脚本。

数据集集合

我们在本文中使用了细粒度的基准测试，包括：

语义转换基准（SSB）和药房19

我们还使用通用对象识别数据集，包括：

CIFAR-10/100号和ImageNet公司

脚本

列车表示:

bash bash_scripts/contrastive_train.sh

提取特征：提取特征以准备半监督k-means。这将需要更改用于提取特征的模型的路径预热模型目录

bash bash_scripts/extract_features.sh

适合半监督k均值:

bash bash_scripts/k_meas.sh

关于半监督k-均值的注记

在旧的评估指标（“v1”）下，我们发现半监督k-means持续提高性能在“旧”和“新”数据子集上超过标准k-means。当我们改为“v2”评估时，我们重新评估了表{2,3,5}中的模型（包括消融）并更新数据。

然而，最近我们发现SS-k-means对“v2”下的错误初始化很敏感，并且可以有时降低在一些数据集上的性能。增加SS-k-means的init数会有所帮助。我们现在正在对此进行进一步调查-欢迎提出建议和公关！

🔢 结果

与报告数字相比，使用此回购重新运行模型的结果：

数据集	全部	旧	新建
斯坦福汽车（论文）	39	57.6	29.9
斯坦福汽车（回购）	39.9	58.5	30.9
CIFAR100（纸质）	70.8	77.6	57
CIFAR100（回购）	71.3	77.4	59.1

📋 引用

如果您在研究中使用此代码，请考虑引用我们的论文：

@会议记录{vaze2022gcd，title＝{广义类别发现}，author={Sagar Vaze和Kai Han以及Andrea Vedaldi和Andrew Zisserman}，booktitle={IEEE计算机视觉和模式识别会议}，年份={2022}}

姓名		姓名	上次提交消息	上次提交日期
最新提交历史 9承诺
资产		资产
bash_scripts		bash_scripts
数据		数据
方法		方法
模型		模型
项目实用程序		项目_波浪
许可证		许可证
自述.md		自述.md
配置.py		配置.py
环境.yml		环境.yml
要求.txt		要求.txt

许可证

sgvaze/通用类别查找

文件夹和文件

最新提交

历史

存储库文件导航

广义类别发现

目录

预打印后的纸张更新（可用更新的PDF在这里，ArXiv即将更新）

依赖关系

配置

数据集集合

脚本

关于半监督k-均值的注记

关于

资源

许可证

星星

观察者

叉子

语言文字