はじめに

CVPR2024は、コンピュータビジョンとパターン認識の分野における最前線の研究成果を集める国際会議です。今年の論文提出数は11532件で、昨年のCVPR2023から26％の増加を記録しました。その中で採択されたのは2719件、採択率は23.6％です。この中から特に優れた24件の論文が Best Paper Award 候補として選出されました。

本記事では、これらのアワード候補となった論文の概要と、その技術的な特徴を紹介します。最先端の技術動向の理解や、今後の研究開発に役立てていただければ幸いです。

はじめに
Best Paper Award 候補
おわりに

Best Paper Award 候補

Award Candidate 論文の概要をセッション順に記載します。

Objects as volumes: A stochastic geometry view of opaque solids

著者：Bailey Miller · Hanyu Chen · Alice Lai · Ioannis Gkioulekas

セッション：Orals 1B: Vision and Graphics

著者らは、物理法則に基づいて不透明物体をボリュームモデルで表現する理論を提案しています。まず、ランダムな指示関数を用いて不透明物体を確率的に表現し、光が物体を通過する際に減衰が指数関数的に変化する条件から、光の減衰係数を定式化します。この理論の一般化することで、等方性および異方性の散乱や、不透明物体の陰関数表現に対応できることを示しています。この手法によって、優れた3次元再構成を行うことができます。

本論文で提案している理論の概要を示しています。減衰係数 $σ$ を密度（density）と投影面積（projected area）の積として表します。密度は、平均された陰関数（mean implicit）から空隙率（vacancy）を通して計算することができます。また、投影面積は、異方性パラメータを用いて計算します。

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

著者：Bingxin Ke · Anton Obukhov · Shengyu Huang · Nando Metzger · Rodrigo Caye Daudt · Konrad Schindler

セッション：Orals 3A: 3D from Single View

単眼深度推定は一般に、学習データに未知のデータに対して難易度が高い傾向にあります。そこで著者らは、豊富な事前知識をもつ既存の生成拡散モデルを利用した単眼深度推定手法を提案しています。提案法は Stable Diffusion から派生した手法で、合成データ（synthetic data）でファインチューニングされています。またゼロショット転移を用いることで未知のデータにも強く、単眼深度推定タスクでSOTAな結果を出しています。

ファインチューニングの過程は以下のステップで行われます。事前訓練されたStable Diffusionを利用し、画像 $x$ と深度 $d$ を潜在空間 $z(x)$ と $z(d)$ に変換します。 $z(d)$ にノイズを付加し後、 $z(d)$ と連結し、これらを入力に元の深度の潜在空間を復元するようにU-Netをファインチューニングします。損失関数は、元のノイズ $\epsilon$ とモデルが予測したノイズ $\epsilon '$ の間の二乗誤差となっています。

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

著者：Mingqi Jiang · Saeed Khorram · Li Fuxin

セッション: Orals 3B: Vision, Language, and Reasoning

著者らは、視覚認識バックボーンモデルの意思決定を分析するために、サブ説明カウント法（sub-explanation counting）とクロステスティング（cross-testing）の2つの方法を提案しています。これにより、ネットワークが持つ合成性（compositionality）と分離性（disjunctivism）という2つの特性の違いが明らかになります。

収穫機の画像をサブ説明カウント法で分析しています。合成的なモデルであるConvNeXtやトランスフォーマーは、画像の複数の部分を一緒に見て意思決定を行います。したがって、右上のツリーのように入力画像の一部がマスクされた場合、推論されるクラスラベルの信頼度はわずかに減少します。一方で、分離的なモデルであるCNNや蒸留トランスフォーマーは、少ない部分から判断するため、右下の画像のように大きな信頼度を出力します。この分析は、各モデルがどのように画像の部分を利用しているかを明らかにします。

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

著者：Xiang Yue · Yuansheng Ni · Kai Zhang · Tianyu Zheng · Ruoqi Liu · Ge Zhang · Samuel Stevens · Dongfu Jiang · Weiming Ren · Yuxuan Sun · Cong Wei · Botao Yu · Ruibin Yuan · Renliang Sun · Ming Yin · Boyuan Zheng · Zhenzhu Yang · Yibo Liu · Wenhao Huang · Huan Sun · Yu Su · Wenhu Chen

セッション：Orals 3B: Vision, Language, and Reasoning

著者らは、マルチモーダルなモデルを評価するための、大学レベルの知識と熟考を要する大規模な複数分野のタスクからなる新しいベンチマークを提案しています。MMMUは、既存のベンチマークとは異なり特定分野の知識を必要とする高度な認識と推論に焦点を当てており、14のオープンソースLLMや、GPT-4V (ision)、Geminiの評価結果からも、その難しさが示されています。MMMUは、次世代の専門的な人工知能モデルの構築を促進することを期待しています。

MMMUには大学の試験、クイズ、教科書から厳選された11,500の多様な質問が含まれており、アート＆デザイン、ビジネス、科学、健康＆医療、人文社会科学、技術＆工学の6つの主要分野をカバーしています。チャート、図、地図、表、楽譜、化学構造など、異種性の高い30種類の画像も含まれています。MMMUのテストでは、GPT-4VとGemini Ultraがそれぞれ56%と59%の精度しか達成しておらず、これらのモデルにはまだ改良の余地が大きいことを示しています。

EventPS: Real-Time Photometric Stereo Using an Event Camera

著者：Bohan Yu · Jieji Ren · Jin Han · Feishi Wang · Jinxiu Liang · Boxin Shi

セッション：Orals 3C: Medical and Physics-Based Vision

本記事を執筆している 2024/6/4 時点で論文が未公開のため、関連情報を記載します。

タイトルから、本提案はイベントカメラを用いてリアルタイムにPhotometric Stereo（照度差ステレオ）を行う手法と考えられます。イベントカメラとはマイクロ秒単位の時間分解能を持つカメラデバイスです。Photometric Stereo は照明方向を変えながら撮影を行い、画素ごとの明るさの変化から表面の法線方向を推定する手法です。

著者らが公開しているデモ動画では、イベントカメラの撮影結果、法線の推定結果、測定するオブジェクトなどが示されています。

MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation

著者：Xiaolong Deng · Huisi Wu · Runhao Zeng · Jing Qin

セッション：Orals 3C: Medical and Physics-Based Vision

著者らは、SAM（Segment Anything Model）を医療ビデオに適用することで、超音波ビデオセグメンテーションの課題に取り組んでいます。提案モデルは、空間と時間情報を組み合わせた時空メモリの使用と、予測されたマスクを活用してメモリの品質を向上させるメモリ強化メカニズムを提案しています。これにより、セグメンテーションの精度と一貫性が向上しています。

提案法は主にSAMとメモリの2つのコンポーネントで構成されています。画像エンコーダは入力画像を、プロンプトエンコーダは外部プロンプトをそれぞれ埋め込みにエンコードし、マスクデコーダが統合してセグメンテーションマスクを予測します。画像埋め込みはメモリ特徴空間に保存され、デコード時にメモリからメモリプロンプトが読み出され利用されます。メモリは強化とエンコーダを通じて更新されます。

Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration

著者：Mingyuan Meng · Dagan Feng · Lei Bi · Jinman Kim

セッション：Orals 3C: Medical and Physics-Based Vision

近年の医用画像位置合わせでは、変形の大きい脳や心臓のMRI画像に対応するため、Transformer ベースの手法が注目されていますが、計算コストが高く高解像度の特徴を扱えない課題があります。著者らは、MLP（多層パーセプトロン）ベースのネットワークを提案しています。提案法は、複数の解像度の特徴マップを利用して、粗から密（coarse-to-file）へ段階的に位置合わせ（registration）を行います。この手法は、高い計算効率を保ちながら、変形の大きい医用画像に対してもリアルタイムに優れた性能を発揮します。

提案法は、CNNベースの階層的な特徴抽出エンコーダと、CMW-MLPブロックを用いたデコーダから構成されます。初期ステップでは、エンコーダから得られた最も粗い解像度の特徴マップ（ $F_m^{4}$ と $F_f^{4}$ ）を使用し、初期の変形フィールド $\psi_1$ を生成します。以降のステップでは、前のステップで得られた変形フィールドを使用して、次の解像度の特徴マップを変形し、再度CMW-MLPブロックに入力します。このプロセスを繰り返すことで、段階的に詳細な位置合わせを実現します。

Producing and Leveraging Online Map Uncertainty in Trajectory Prediction

著者：Xunjiang Gu · Guanyu Song · Igor Gilitschenski · Marco Pavone · Boris Ivanovic

セッション：Orals 4A: Autonomous Navigation and Egocentric Vision

著者らは、Autonomous Vehicle（AV）の軌道予測において、オンラインマップの不確実性を推定する手法を提案しています。提案法は、不確実性を考慮することで軌道予測の学習の収束が最大で50%速くなり、軌道予測性能が最大で15%向上します。

AVで取得したカメラやLiDARなどのセンサーデータは、BEV（Bird’s Eye View）特徴量にエンコードされます。特徴量を用いて、分類モデルはマップ要素（車線、道路境界など）を予想します。回帰モデルは、ポリラインやポリゴンなどのマップ要素の頂点と、ラプラス分布で表される不確実性を予測します。生成された確率的なオンラインマップは、GNN（Graph Neural Network）やTransformer などの確率的エンコーダに入力され、軌道予測が行われます。

SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

著者：Paul Roetzer · Florian Bernard

セッション：Orals 4B: 3D Vision

著者らは3次元形状マッチングのための新しい経路ベースの手法を提案しています。様々な種類のマッチング問題を解くための一般的なアプローチとして、直積空間上での最短経路を求める方法があります。これは多項式時間で大域的に最適な解を計算することができますが、3次元形状マッチングへの自然な一般化は難しいことが広く知られています。著者らはこれらの課題を解決し、効率的に大域最適な解を得る手法を提案しています。

提案法は、3次元形状を3次元形状表面をなぞる長い自己交差曲線（SpiderCurve）として表現します。その結果、密なジオメトリに対しても、幾何的に矛盾のない形状マッチングができることを示しています。実行時間の検証では、メッシュ数が増えても現実的な時間でスケールしています。

PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

著者：Anh-Quan Cao · Angela Dai · Raoul de Charette

セッション：Orals 4B: 3D Vision

著者らは、不完全な3次元点群からジオメトリ、セマンティック、インスタンスを推定するPanoptic Scene Completion (PSC)という新しいタスクを提案しています。提案手法はマルチスケールスパース生成デコーダーを利用し、さらにMulti-Input Multi-Outputを導入することで、不確実度を推定できるようにしています。

提案するネットワークは、同一のアーキテクチャを持つ複数のサブネットが含まれます。各サブネットは一部のパラメータを除いて共通のパラメータを使用します。1つの点群データからデータ拡張を行い、複数の入力データを生成し、それぞれの入力データをサブネットで演算することで、入力データと同数のPSCを出力します。複数の予測をアンサンブルすることで、不確実性の推定と予測精度の向上を行います。

PlatoNeRF: 3D Reconstruction in Plato’s Cave via Single-View Two-Bounce Lidar

著者：Tzofi Klinghoffer · Xiaoyu Xiang · Siddharth Somasundaram · Yuchen Fan · Christian Richardt · Ramesh Raskar · Rakesh Ranjan

セッション：Orals 4B: 3D Vision

著者らは、単一視点で3D再構築を行う手法を提案しています。従来の単一視点の3D再構築に使われていたNeRF（Neural Radiance Fields）は、物理的に正確ではない事前情報に依存しています。本手法は、LiDAR（Light Detection and Ranging）データとNeRFを用いて、複雑なシーンの3Dモデルを生成します。本手法は、2回までの反射光を測定する技術を活用し、従来のNeRF手法と比較して、環境光や反射光の事前データに依存せずに再構築精度を向上させています。

シーンの各点をパルスレーザーで照射し、反射した光の飛行時間を測定します。このデータを用いてNeRFを訓練し、一次反射および二次反射光の経路をモデリングします。生成される3Dジオメトリは、密度推定に基づいて可視部分と隠された部分の両方を高精度に再構築します。

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation

著者：Ming Xu · Stephen Gould

セッション：Orals 4C: Action and Motion

著者らは、長時間動画のアクションセグメンテーションタスクに対して、ASOT（Action Segmentation Optimal Transport）という手法を提案しています。この手法は、従来の方法が抱えるアクション順序の仮定が必要であることや、アクションの時間的一貫性の欠如といった課題を解決しています。また、GPUを用いた数値解法アルゴリズムも提案されています。

ビデオフレームとアクションの間のコスト行列 $C^{k}$ には大きなノイズが含まれています。提案法（ASOT）は、アクションカテゴリが変更されるコスト $C^{a}$ と、隣接するビデオフレームでアクションが変更されるコスト $C^{v}$ を加味することで、最適な割り当て $T^{\star}$ を予測します。提案法は最適輸送問題の一種である、GW（Gromov-Wasserstein）問題に基づいて構築されています。

Rich Human Feedback for Text-to-Image Generation

著者：Youwei Liang · Junfeng He · Gang Li · Peizhao Li · Arseniy Klimovskiy · Nicholas Carolan · Jiao Sun · Jordi Pont-Tuset · Sarah Young · Feng Yang · Junjie Ke · Krishnamurthy Dvijotham · Katherine Collins · Yiwen Luo · Yang Li · Kai Kohlhoff · Deepak Ramachandran · Vidhya Navalpakkam

セッション：Orals 5A: Datasets and Evaluation

最近のText-to-Imageモデルは進歩していますが、生成画像には不自然さ、テキストとの不一致などの問題があります。これに対し、本研究では、生成画像の問題のある領域を詳細にアノテーションし、18Kの人間のフィードバックデータ（RichHF-18K）を収集しました。このデータセットから、フィードバックを予測するマルチモーダル変換器を訓練することで、ファインチューニングに使用するための高品質な画像を選別したり、生成画像中の問題のある領域のマスクを作成することに活用できます。

フィードバックモデルのアーキテクチャは、Text-to-Imageモデルからの生成画像とそのテキストプロンプトを入力とします。ViT（ビジョントランスフォーマー）から出力される画像トークンと、Text-embedモジュールから出力されるテキストトークンに自己注意機構を適用し、画像とテキスト情報を融合します。画像トークンは特徴マップに再構成され、不自然な箇所のヒートマップと品質スコアを出力します。テキストトークンは、画像トークンと共にトランスフォーマーデコーダに送られ、入力されたプロンプトと生成結果のどこがずれていたかを説明する文章を出力します。

BIOCLIP: A Vision Foundation Model for the Tree of Life

著者：Samuel Stevens · Jiaman Wu · Matthew Thompson · Elizabeth Campolongo · Chan Hee Song · David Carlyn · Li Dong · Wasila Dahdul · Charles Stewart · Tanya Berger-Wolf · Wei-Lun Chao · Yu Su

セッション：Orals 5A: Datasets and Evaluation

著者らは、生物の画像から特徴量を抽出するための大規模なマルチモーダルモデルBioCLIPを提案しています。「TreeOfLife-10M」と呼ばれる45万種以上の生物を含む1000万枚以上の画像データセットを構築し、そのデータを用いてCLIPスタイルのモデルを学習しています。提案法により、10種類のデータセットに対する5ショット分類の平均精度が、51.5%（従来法：CLIP）から 68.8%に向上しました。

提案法は、テキストと画像の対照学習を行います。テキストをエンコードする際に、着目する階層よりも上位の分類名を含めることで、生物分類の階層の特徴と、画像の特徴の関連を学習します。対照学習では、同種のテキストの埋め込みと画像の埋め込みは近くなるように、異種のペアは遠くなるような目的関数を用います。これにより、提案モデルに系統樹の階層構造が反映されます。

Grounding and Enhancing Grid-based Models for Neural Fields

著者：Zelin Zhao · FENGLEI FAN · Wenlong Liao · Junchi Yan

セッション：Orals 5B: 3D from Multiview and Sensors

著者らは、ニューラルフィールドの表現に一般的に利用されるグリッドベースのモデルを分析するための理論的枠組みを提案します。これらのモデルの近似および汎化挙動は、Grid Tangent Kernelsと呼ばれるグリッドモデル固有の量よって決定されることを示します。この枠組みを用いて、MulFAGridという新しいモデルを提案し、2D画像フィッティング、3D符号付き距離場（SDF）の再構築などのタスクで優れた性能が得られることを示しました。

上側の処理経路は、座標 $x$ をインデックス関数に入力し、位置に対してノードの集合を返し、ノード $i$ に関連付けられた特徴（重み）ベクトルを計算します。下側の経路は、多重化フィルターを用いてフーリエ特徴量を処理した後、正規化レイヤーを用いてカーネル関数を計算します。最後に、特徴ベクトルとカーネル関数を要素ごとに乗算して求める関数の近似値を出力します。

NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

著者：Jiahao Chen · Yipeng Qin · Lingjie Liu · Jiangbo Lu · Guanbin Li

セッション：Orals 5B: 3D from Multiview and Sensors

NeRFを用いて3Dモデルを構築する際、動的なシーンでは物体の移動や影の変化により画像間の一貫性が失われ、適用が難しいという問題がありました。この問題を解決するために、ヒューリスティックを用いて動的シーンから静的な3Dモデルを構築する手法を提案しています。合成データと実データを用いた実験により、提案手法は従来手法を上回る性能を示しています。

最下部に示されている提案法は2種類のヒューリスティックを用います。SfM（Structure-from-Motion）ヒューリスティックは、静的な物体において特徴点のマッチング頻度が高いことを利用します。カラー残差ヒューリスティックは、NeRFモデルのカラー残差が静的な物体で低いことを利用します。これらの情報をプロンプトとしてSAM（Segment Anything Model）に入力することで正確な静的マップが得られます。

Mip-Splatting: Alias-free 3D Gaussian Splatting

著者：Zehao Yu, Anpei Chen, Binbin Huang, Torsten Sattler, Andreas Geiger

セッション：Orals 5B: 3D from Multiview and Sensors

著者らは、3D Gaussian Splatting（3DGS）技術において、様々なスケールで高品質に物体の3D画像をレンダリングするMip-Splattingという手法を提案しています。従来法は、ズームインズームアウトを行う際にノイズや歪みなどのエイリアスや、不自然なエッジのようなアーティファクトが生じる問題がありました。提案法では、高周波成分の処理やレンダリング時のフィルタの変更によってこれらの問題を解決しています。

3DGSは3Dシーンを3D ガウシアンで表現し、フィルタ処理を行い画像をレンダリングします。標本化定理に基づく適切なレンダリングのサンプリングレートを選択しない場合、高周波成分が正しく処理されず、エイリアスが発生します。また、焦点距離やカメラ距離の変化によって3D ガウシアンのサイズが過度に大きくなる時には、ぼやけや歪みが発生します。提案法では、3D smoothing filterを用いて3Dガウシアンのサイズを制約することで、高周波成分に含まれるアーティファクトを抑制します。また、レンダリング時に適切なフィルタサイズを選択することでエイリアスを抑制します。

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

著者：David Charatan · Sizhe Lester Li · Andrea Tagliasacchi · Vincent Sitzmann

セッション：Orals 5B: 3D from Multiview and Sensors

著者らは、画像のペア群から3次元輝度場を再構成するフィードフォワードモデルを提案しています。提案法は、3次元輝度場の高速な推論と、リアルタイムでメモリ効率の良いレンダリングを特徴としています。実世界のRealEstate10kデータセットとACIDデータセットにおいて、解釈可能で編集可能な3次元輝度場を再構成しながら、最先端のライトフィールド変換器を凌駕し、レンダリングを2.5倍高速化します。

提案モデルは3次元輝度場を3次元ガウスプリミティブによってパラメータ化します。入力画像の画素の特徴量 $F[u]$ ( $u$ はピクセル座標) から、ガウスプリミティブのパラメータ $(μ, Σ, α, S)$ を生成し、ガウススプラッティングによりレンダリングすることで2次元画像を求めます。 $F[u]$ は入力画像をResNet-50やDINO ViT-B/8でエンコードしたものです。ガウスプリミティブのパラメータは $\mu$ が平均、 $\Sigma$ が共分散、 $\alpha$ が透明度、 $S$ が球面調和関数の係数です。 $\Sigma$ と $S$ はNNモデル $f$ により予測され、 $\mu$ と $\alpha$ は $f$ が予測したピクセルごとの深さの離散確率分布から間接的に予測されます。

MLP Can Be A Good Transformer Learner

著者：Sihao Lin · Pumeng Lyu · Dongrui Liu · Tao Tang · Xiaodan Liang · Andy Song · Xiaojun Chang

セッション：Orals 5C: Low-Shot, Self-Supervised, SemiSupervised Learning

セルフアテンションはトランスフォーマーの重要な要素ですが、計算リソースを多く必要とすることが課題です。著者らは、この問題を改善する手法を提案しています。具体的には、エントロピーを利用して重要性の低いアテンション層を特定し、レイヤーを軽量化することでメモリーの負荷を削減します。また、重要性の低いアテンション層の知識をその後段のMLP（Multi-Layer Perceptron）層に移すための学習手法も提案しています。

上の図は、DeiT-Bの各ブロックのエントロピーを測定し、入力に近い層ではアテンション層とそれに続くMLPレイヤでは同程度にエントロピーが低いことを示しています。次に、それを恒等写像（Identical Mapping）に置き換えることでレイヤーの修正を行います。結果としてDeiT-Bのパラメタを13.7%削減し、同一メモリ量で処理できる画像の量が20.5%増加しています。

Task-Driven Wavelets using Constrained Empirical Risk Minimization

著者：Eric Marcus · Ray Sheombarsing · Jan-Jakob Sonke · Jonas Teuwen

セッション：Orals 6A: Low-level Vision and Remote Sensing

従来のディープニューラルネットワークでは、損失関数を追加することでソフト制約を課すことが一般的です。著者らは一部のパラメータに厳密な制約を設ける新しいフレームワークCERMを提案しています。具体的には、ニューラルネットワークの重みに特定の制約を課すことで、モデルの特性を制御します。これにより、異なるスケールの情報やノイズの影響を効率的に低減し、医療画像のタスクで優れた性能を示しています。

提案法は、「制約付き経験リスク最小化」（CERM）を用いて、畳み込みフィルターをウェーブレットに制約します。まず、ウェーブレットを特徴付ける方程式を導出します。導出された方程式から、リファインメントマスクと呼ばれるウェーブレットを一意に定める多項式を得ます。畳み込みフィルターに対して、リファインメントマスクの係数を制約として課します。これらの制約の下で、ネットワークを学習します。提案法を用いることで、特定のパターンを効果的に捉えることができます。

Image Processing GNN: Breaking Rigidity in Super-Resolution

著者：Yuchuan Tian · Hanting Chen · Chao Xu · Yunhe Wang

セッション：Orals 6A: Low-level Vision and Remote Sensing

著者らは、超解像（Super-Resolution: SR）タスクにおいて、Graph Neural Network（GNN）を利用した手法（Image Processing GNN: IPG）を提案しています。提案法では、画素をノードとする2種類のグラフを構築します。ローカルグラフは、近隣の画素でノードを接続することで細部のディテールやテクスチャの復元を行います。一方、グローバルグラフは、画像全体で画素を接続することで、大局的なパターンを捉えます。また、提案法は、画像の単純で均一な部分と、細かいディテールが含まれている部分で、ノード間の接続数を調整し、効率的な情報集約を行います。

Urban100データセットを用いた検証結果では、提案手法（IPG）は、Bicubic補間や他の超解像手法よりも、元の高解像度画像（HQ）をより正確に復元しています。

Generative Image Dynamics

著者：Zhengqi Li · Richard Tucker · Noah Snavely · Aleksander Holynski

セッション：Orals 6B: Image & Video Synthesis

著者らは、静止画像から自然でリアルな動きを持つ映像を生成する Generative Image Dynamics という手法を提案しています。提案法は、木々や花などの自然な動きを含む動画を教師データとして拡散モデルを学習します。この手法により、静止画像がインタラクティブで魅力的なコンテンツに変換されることが期待されます。

静止画像とノイズのある潜在変数をデノイズネットワーク $\epsilon_\theta$ に入力すると、各画素の動きを周波数領域で表現したスペクトルボリュームを予測します。 $\epsilon_\theta$ は2D 空間層とアテンション層が交互に配置されており、これにより特徴量マップ内のノイズを減少させながら、空間的な関係と周波数間の関係を統合します。スペクトルボリュームを逆フーリエ変換することで、各画素の変位を求めることができます。

Analyzing and Improving the Training Dynamics of Diffusion Models

著者：Tero Karras · Miika Aittala · Jaakko Lehtinen · Janne Hellsten · Timo Aila · Samuli Laine

セッション：Orals 6B: Image & Video Synthesis

著者らは、一般的なADM (Ablated Diffusion Model) アーキテクチャにおいて、高レベルの構造を変更せずに拡散モデルの学習時に問題となる確率的な挙動をする損失関数等に対処するため、ネットワーク層を再設計しています。具体的には、学習過程でアクティベーション出力および重みの大きさを一定の範囲内に維持するようにしています。これにより、ImageNet-512の合成において、生成画像と実画像の統計的類似度を評価する指標であるFIDが2.41から1.81に改善されています。

U-NetベースのADMでは、エンコーダはスキップ接続を用いてデコーダに接続され、埋め込みがノイズレベルとクラスラベルを条件付けます。ADMはResNetをベースとしていますが、メインパスでは正規化が無いため、アクティベーション出力の増加を抑えられません。提案手法では、メインパスでのアクティベーション出力を一定の範囲に維持するために、MPブロック等を導入します。

EGTR: Extracting Graph from Transformer for Scene Graph Generation

著者：Jinbae Im · JeongYeon Nam · Nokyung Park · Hyungmin Lee · Seunghyun Park

セッション：Orals 6C: Multi-Modal Learning

シーングラフ生成（Scene Graph Generation: SGG）は、画像内のオブジェクトとそれらの間の関係を構造化するタスクです。SGGの従来法の多くはオブジェクト検出と関係予測を別々のステージで行うためモデル構造が複雑になり、計算コストが高くなることや、一貫性のある学習が難しいといった課題があります。提案法ではセルフアテンションを用いた軽量なワンステージモデルでこれらの問題を克服しています。

提案法は、入力画像をDETRエンコーダでエンコードし、続いてDETRデコーダーでオブジェクトを検出します。同時に、DETRデコーダーのアテンション層ごとの特徴量を用いることで、オブジェクト同士の関係性表現（Relation Representation）を計算します。関係性表現は、アテンション層ごとの重みを用いて、加重和がなされます。Relation Headは、関係性のラベルやその強度を推論し関係性グラフ（Relation Graph）を計算します。最後に検出したオブジェクトと関係性グラフを組み合わせてシーングラフを作成します。

おわりに

本記事では、CVPR2024のBest Paper Award候補となった論文を紹介し、コンピュータビジョンとパターン認識の分野における重要な進展を示しました。いずれの論文も興味深く、面白い内容でした。

現在、私の所属するAI Visionグループは9人で構成されています。今回の論文紹介は、各メンバーが分担して取り組みました。私たちのグループでは、最先端の研究を取り入れたAIの開発を行っています。興味のある方は募集要項をご覧ください。

Safie Engineers' Blog!

Safieのエンジニアが書くブログです

CVPR 2024 技術動向調査: Best Paper Award Candidates まとめ

はじめに

Best Paper Award 候補

Objects as volumes: A stochastic geometry view of opaque solids

Repurposing Diffusion-Based Image Generators for Monocular Depth Estimation

Comparing the Decision-Making Mechanisms by Transformers and CNNs via Explanation Methods

MMMU: A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI

EventPS: Real-Time Photometric Stereo Using an Event Camera

MemSAM: Taming Segment Anything Model for Echocardiography Video Segmentation

Correlation-aware Coarse-to-fine MLPs for Deformable Medical Image Registration

Producing and Leveraging Online Map Uncertainty in Trajectory Prediction

SpiderMatch: 3D Shape Matching with Global Optimality and Geometric Consistency

PaSCo: Urban 3D Panoptic Scene Completion with Uncertainty Awareness

PlatoNeRF: 3D Reconstruction in Plato’s Cave via Single-View Two-Bounce Lidar

Temporally Consistent Unbalanced Optimal Transport for Unsupervised Action Segmentation

Rich Human Feedback for Text-to-Image Generation

BIOCLIP: A Vision Foundation Model for the Tree of Life

Grounding and Enhancing Grid-based Models for Neural Fields

NeRF-HuGS: Improved Neural Radiance Fields in Non-static Scenes Using Heuristics-Guided Segmentation

Mip-Splatting: Alias-free 3D Gaussian Splatting

pixelSplat: 3D Gaussian Splats from Image Pairs for Scalable Generalizable 3D Reconstruction

MLP Can Be A Good Transformer Learner

Task-Driven Wavelets using Constrained Empirical Risk Minimization

Image Processing GNN: Breaking Rigidity in Super-Resolution

Generative Image Dynamics

Analyzing and Improving the Training Dynamics of Diffusion Models

EGTR: Extracting Graph from Transformer for Scene Graph Generation

おわりに