小熊的小站

A: 这篇论文试图解决的问题是深度神经网络在处理不平衡数据集时的性能问题。在现实世界的数据集中，某些类别的样本可能比其他类别稀少，这导致模型在训练过程中容易偏向于多数类，从而在少数类上表现不佳，这种现象称为类别不平衡（class imbalance）。为了解决这个问题，论文提出了一种名为Oversampling with Pure Noise Images (OPeN)的新方法，旨在通过在训练过程中引入纯噪声图像来改善模型对少数类（minority class）的泛化能力。此外，论文还提出了一种新的批量归一化层（Distribution Aware Routing Batch Normalization, DAR-BN），用于分别归一化噪声图像和自然图像，以进一步提高模型性能。

Fuyu

2024-02-26

Transformer一作Ashish Vaswani所在的AI公司Adept，发布了Fuyu-8B，是一个多模态模型的小版本，目前唯一一个以像素patch作为图像输入的多模态模型，利用这种方式实现了任意分辨率的无损input。

体验地址

Sora

2024-02-19

openai 发布的人工智能文生视频大模型 (但openai并未单纯将其视为视频模型，而是作为”世界模拟器”

DLinear-Are Transformers Effective for Time Forecasting

2024-02-14

这篇论文使用一个简单的线性层模型超过了众多Transformer系列复杂模型。不仅让人疑问：时序预测中Transformer的发展是否真的有效？

源代码。出自AAAI 2023

Depth Anything-Unleashing the Power of Large-Scale Unlabeled Data

2024-02-11

Depth Anything是一种鲁棒的单目深度估计解决方案，其充分利用各种未标记的图像和预训练模型中丰富的语义先验，具有优异的零样本深度估计能力。

由香港大学、浙江大学等人提出。

网页版Demo