Safie Engineers' Blog!

Safieのエンジニアが書くブログです

CVPR 2025 技術動向調査: Best Paper Award Candidates まとめ

はじめに

CVPR (Computer Vision and Pattern Recognition Conference) は、コンピュータビジョンとパターン認識の分野における最前線の研究成果を集める国際会議です。今年の論文提出数は13,008件で、昨年のCVPR 2024から約13%の増加を記録しました。その中で採択されたのは2,878件、採択率は22.1%です。この採択率はCVPR 2010以降で最も低い数字となっており、例年以上の競争の激しさが伺えます。厳しい競争を勝ち抜いた論文の中から特に優れた14件の論文がBest Paper Award候補として選出されました。

本記事では昨年に引き続き、これらのAward候補となった論文の概要と、その技術的な特徴を紹介します。最先端の技術トレンドの全体像を把握し、皆様の研究開発の一助となることを願っています。

CVPR 2025の技術トレンド

CVPR 2025の公式ニュース「Three of the Hottest Topics in Computer Vision Today」では、今年の提出論文における主要な技術トレンドとして以下の3つが挙げられています。これらを押さえることで、会議全体の方向性が見えてきます。

  1. マルチビューおよびセンサーからの3Dデータ生成: この技術は、複数の異なる視点から撮影された画像や、深度センサー(例:LiDAR、ToFセンサー)から得られる情報を統合することで、現実世界の物体やシーンの正確な3Dモデルを生成します。これにより、自動運転、ロボット工学、バーチャルリアリティ、拡張現実など、様々な分野で高精度な空間理解が可能になります。
  2. 画像と動画の生成: この技術は、人工知能、特に深層学習モデル(例:GANs、Diffusion Models)を用いて、テキストの説明、既存の画像、またはランダムなノイズから、リアルな画像や動画を生成します。これにより、デザイン、エンターテイメント、コンテンツ制作、データ拡張といった分野で、これまでにない視覚的コンテンツの創造とカスタマイズが可能になります。
  3. 「マルチモーダル学習」と「ビジョン、言語、推論(Reasoning)」: マルチモーダル学習は、画像、音声、テキストなど、複数の異なる種類のデータを同時に学習するAIの技術です。これにより、AIは単一のデータ形式からでは得られない、より深く包括的な理解を獲得します。特に「ビジョン(視覚情報)」、「言語(テキスト情報)」、そしてそれらを統合した「推論(Reasoning)」能力を組み合わせることで、AIは人間のように世界を認識し、状況を理解し、複雑な問題に対して適切な判断を下せるようになります。例えば、画像の内容を言語で説明したり、テキスト指示に基づいて画像を生成したり、あるいは視覚情報と言語情報を組み合わせて複雑な質問に答えたりする能力がこれに当たります。

Award Candidatesの紹介

今年の技術トレンドをふまえて、分野ごとにAward Candidates論文の概要を紹介します。

マルチビューおよびセンサーからの3Dデータ生成

FoundationStereo: Zero-Shot Stereo Matching

著者:Bowen Wen, Matthew Trepte, Joseph Aribido, Jan Kautz, Orazio Gallo, Stan Birchfield

セッション:Oral Session 2A: 3D Computer Vision

提案手法は、ゼロショット汎化に優れたステレオ深度推定の基盤モデルです。多様で写実的な100万組の合成ステレオデータと、曖昧なサンプルを除く自動キュレーションにより学習をおこなっています。単眼深度推定の事前知識を活用するバックボーンや長距離コンテキスト推論を用いることで、ドメインをまたいで高精度かつ高いロバスト性を実現しています。

出典:FoundationStereo: Zero-Shot Stereo MatchingのFigure 2, URL: https://arxiv.org/abs/2501.09898 (2025年6月5日アクセス)

提案されたアーキテクチャでは、まず固定された DepthAnythingV2 から得られる単眼事前知識を活用し、マルチレベルCNNによる高周波特徴と組み合わせて特徴を抽出します。次に、Attentive Hybrid Cost Filtering(AHCF)により、抽出された特徴を効率的に統合し、コストボリュームを生成します。特に、Disparity Transformer(DT)は自己注意機構により、長距離のコンテキスト情報を効果的に捉える役割を担います。その後、GRUブロックは初期視差を反復的に精緻化し、最終的な視差マップを出力します。

VGGT: Visual Geometry Grounded Transformer

著者:Jianyuan Wang, Minghao Chen, Nikita Karaev, Andrea Vedaldi, Christian Rupprecht, David Novotny

セッション:Oral Session 2A: 3D Computer Vision

Visual Geometry Grounded Transformer (VGGT) という新しいフィードフォワード型トランスフォーマーモデルを提案しています。VGGTは数枚から数百枚の画像を入力として、カメラパラメータ、深度マップ、点群、トラッキング情報など、画像の3Dタスクを一括で高速に推定します。従来の3D再構成手法では最適化処理が必要でしたが、VGGTはポストプロセスなしで高精度を実現し、カメラ姿勢推定や点群再構成など複数のタスクで最先端性能を達成しています。さらに、下流タスクにも応用可能で、例えば新規視点合成や動画中の点追跡性能を大幅に向上させることができます。

出典:VGGT: Visual Geometry Grounded TransformerのFigure 2, URL: https://arxiv.org/abs/2503.11651 (2025年6月5日アクセス)

入力画像をDINOでトークン化し、カメラ予測用の「カメラトークン」を付加します。これらのトークンはフレーム単位と全体のアテンションを繰り返し適用され、専用のヘッド(Camera HeadやDPT Head)を通じ、最終的に各フレームのカメラパラメータ、深度マップ、点群、トラッキング特徴が出力されます。

MegaSaM: Accurate, Fast and Robust Structure and Motion from Casual Dynamic Videos

著者:Zhengqi Li, Richard Tucker, Forrester Cole, Qianqian Wang, Linyi Jin, Vickie Ye, Angjoo Kanazawa, Aleksander Holynski, Noah Snavely

セッション:Oral Session 3A: 3D Computer Vision

従来の技術では、動きの多い動画やカメラの動きが少ない映像から、3D構造(奥行き情報)やカメラ位置を正確に推定するのは困難でした。特に、日常的な動画ではこれらの条件を満たさないことが多く、既存の手法では誤った結果になりがちでした。

この論文は、深層学習に基づくVisual SLAM(カメラ映像から自己位置推定と環境地図作成を同時に行う技術)の手法を改良。訓練方法や処理の仕組みに工夫を加えることで、複雑でダイナミックなシーンや、カメラの動きが自由で視差(位置による見え方の違い)が限定的な動画であっても、高速かつ安定して高精度な推定を可能にするシステムを提案しています。

出典:MegaSaM: Accurate, Fast, and Robust Structure and Motion from Casual Dynamic VideosのFigure 1, URL: https://arxiv.org/abs/2412.04463 (2025年6月5日アクセス)

本技術では、まず動画から数フレームごとに画像を取り出し、それぞれの画像間で似ている部分を検出し、それらの対応点の位置関係をもとに、カメラがどの方向に動いたかを推定します。 この際、歩いている人や動いている車は背景と関係ないため、動いている領域を識別し、計算から除外します。 また、各フレームごとに深度マップをモデルで推定し、それを使って空間の立体構造も考慮に入れながらカメラ位置を調整します。 これらすべての情報をまとめてAIが一括で最適化することで、何も手動調整しなくても、動画から正確なカメラの動きと、シーンの3D構造を得ることができます。

TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage Fusion

著者:Yiran Wang, Jiaqi Li, Chaoyi Hong, Ruibo Li, Liusheng Sun, Xiao Song, Zhe Wang, Zhiguo Cao, Guosheng Lin

セッション:Oral Session 3A: 3D Computer Vision

TacoDepthは、効率的で正確なRadar-Camera深度推定のための、ワンステージフュージョンモデルです。従来技術のマルチステージフレームワークが抱える時間的制約とロバスト性の問題を解決するため、グラフベースのRadar構造抽出器とピラミッドベースのRadarフュージョンモジュールを設計。これにより、中間深度を必要とせずに、効率性とロバスト性を向上させました。

出典:TacoDepth: Towards Efficient Radar-Camera Depth Estimation with One-stage FusionのFigure 3, URL: https://arxiv.org/abs/2504.11773 (2025年6月5日アクセス)

技術的なポイントとして、グラフベースのRadar構造抽出器がRadar点群の幾何学的構造とトポロジーを捉え、ピラミッドベースのRadarフュージョンモジュールが画像とRadarの特徴を階層的に統合します。また、Radar中心のフラッシュアテンションメカニズムを導入し、効率的なクロスモーダル相関を実現しています。nuScenesとZJU-4DRadarCamデータセットでの実験により、精度と処理速度が大幅に向上することを示しました。

Convex Relaxation for Robust Vanishing Point Estimation in Manhattan World

著者:Bangyan Liao, Zhenjun Zhao, Haoang Li, Yi Zhou, Yingping Zeng, Hao Li, Peidong Liu

セッション:Oral Session 4C: 3D Computer Vision

この論文は、人工物の多くは直交座標系に平行に作られているというマンハッタンワールド仮説における消失点の高精度な推定手法を提案しています。従来手法は計算コストが高いか、最適解を保証できないという課題がありました。本研究では、マンハッタンワールドと仮定することで、高精度な推定ができるようになりました。具体的に、誤差を抑えつつ複数の消失点と線分の関係を同時に求めるため、「Convex Relaxation」という数学的手法を用い、問題を解きやすい形に変換します。そして、「GlobustVP」という新しいアルゴリズムを提案し、高速かつロバスト性高く消失点を推定します。

出典:Convex Relaxation for Robust Vanishing Point Estimation in Manhattan WorldのAlgorithm 1, URL: https://arxiv.org/abs/2505.04788 (2025年6月5日アクセス)

GlobustVPアルゴリズムは、画像内の線分から3つの消失点を段階的に求める手法です。

各ステップでは、残っている線から補助Tensorを作り、数理最適化(SDP)を使って消失点を一つ推定します。その消失点に最も合う線(inlier line)を抽出し、以後の処理から除外します。これを3回繰り返してVP1〜VP3を推定し、残りの線はoutlierとします。最後に、Manhattan Worldの条件(直交性)を満たすように消失点を調整する後処理を行います。

Zero-Shot Monocular Scene Flow Estimation in the Wild

著者:Yiqing Liang et al.

セッション:Oral Session 5C: Visual and Spatial Computing

単眼RGB画像ペアからシーンフロー(3D構造と動きを同時に推定するタスク)を導出する手法です。ViTベースのネットワークでpointmapと3Dオフセットを出力し、未知のドメインでも高精度なシーンフロー推定を実現します。大規模・多様なデータセットとスケール適応型学習戦略により、ゼロショット汎化性能を大きく向上しました。DAVISのような現実世界のデータセットシーンにおいて、未知なデータセットながら高精度な動きを再現し、高い汎化性能を示しました。

出典:Zero-Shot Monocular Scene Flow Estimation in the WildのFigure 2, URL: https://arxiv.org/abs/2501.10357 (2025年6月5日アクセス)

図は、提案手法のシステム構成を示しており、2枚のRGB画像 C1(t1)と C2(t2)を入力として、3つの出力マップを同時に生成します。ViTベースのエンコーダを共有し、各フレームに対応したデコーダがクロスアテンションで情報を融合。出力ヘッドHX1とHX2が時刻t1, t2における3D点群(pointmap)を、HSがシーンフロー(3Dオフセット)を予測しています。学習時は点群・動き・オプティカルフローの3種の損失を用いて、幾何と動きの整合性を高めています。

3D Student Splatting and Scooping

著者:Jialin Zhu, Jiangbei Yue, Feixiang He, He Wang

セッション:Oral Session 5C: Visual and Spatial Computing

3D Gaussian Splatting の定式化を見直し、Student Splatting and Scooping(SSS)という新たな手法を提案しています。従来のガウス分布の代わりに、位置、スケール、回転、裾の長さの自由度を与えた柔軟なスチューデントのt分布を用いた混合モデルを導入し、また、正の密度(Splatting)と負の密度(Scooping)の両方を扱うことで表現力を高めています。さらに、学習の安定化のための新しいサンプリング手法も導入しています。実験の結果、SSSは既存手法を品質およびパラメータ効率の両面で上回りました。

出典:3D Student Splatting and ScoopingのFigure 2, URL: https://arxiv.org/abs/2503.10148 (2025年6月5日アクセス)

著者らは、(a) トーラス形状のトポロジーを再構成できるかどうかを実験しています。正の密度のみを用いた場合、(b) 2つの要素では不十分であり、(c) 正しいトポロジーを捉えるには少なくとも5つの要素が必要です。一方、(d) 負の密度を使って中央の密度を打ち消すことで、正と負の要素を1つずつ用いるだけでトポロジーを正しく再現することができます。

DIFIX3D+: Improving 3D Reconstructions with Single-Step Diffusion Models

著者:Jay Zhangjie Wu, Yuxuan Zhang, Haithem Turki, Xuanchi Ren, Jun Gao, Mike Zheng Shou, Sanja Fidler, Zan Gojcic, Huan Ling

セッション:Oral Session 6A: 3D from Single or Multi-View Sensors

本論文では、NeRFや3D Gaussian Splatting(3DGS)による3D再構成の限界を克服するため、単一ステップの拡散モデル「DIFIX」を活用した新手法「DIFIX3D+」を提案しています。DIFIXは、再構成中および推論時に画像のノイズやぼやけ、誤りを除去することで、写実的な新規視点合成を実現します。NeRFおよび3DGSの両方の手法に適用可能で、汎用的な補正ツールとして使えます。FIDスコアを従来のNeRFや3DGSの単体手法と比較し平均で2倍以上改善し、リアルタイム処理も可能です。

出典:Difix3D+: Improving 3D Reconstructions with Single-Step Diffusion ModelsのFigure 3, URL: https://arxiv.org/abs/2503.01774 (2025年6月5日アクセス)

DIFIXモデルのアーキテクチャを示しています。劣化した3Dレンダリング画像と参照画像を入力とし、ノイズやぼやけ等を除去した高品質な画像を出力します。構造はU-Netを基盤とし、異なる視点の情報を統合する「Reference Mixing Layer」を備え、複数視点間の整合性を保ちながら画像品質を向上させます。事前学習済みのVAEエンコーダを固定し、LoRAでデコーダを微調整します。

画像と動画の生成

著者:Amir Bar, Gaoyue Zhou, Danny Tran, Trevor Darrell, Yann LeCun

セッション:Oral Session 4B: Embodied Computer Vision Navigation World Model (NWM)は、過去の観測(過去から現在の一連のフレーム)とナビゲーション行動(平行移動、回転)に基づき未来の視覚情報を予測する、制御可能なビデオ生成モデルです 。Conditional Diffusion Transformer (CDiT) を採用し、標準的なDiTと比較して計算要件を大幅に削減しつつ、10億パラメータまで効率的にスケールする学習を実現しています 。NWMは、既知環境での軌道計画や未知環境において単一の入力画像から軌道を想像する能力を有し 、計画中に動的な制約を組み込むことも可能です。

出典:Navigation World ModelsのFigure 2, URL: https://arxiv.org/abs/2412.03572 (2025年6月5日アクセス)

CDiTアーキテクチャは、CDiTブロックを複数層積み重ねた時間的自己回帰型のトランスフォーマーモデルです。各ブロックでは、Multi-Head Self-Attentionにより空間的整合性を確保し、現在フレームのクエリと過去フレームのキー/バリューを結びつけるMulti-Head Cross-Attentionによって時間的整合性を維持します。この二段階の注意機構により、計算効率を保ちながら空間・時間両方で一貫性のある未来のフレームの生成を実現しています。

「マルチモーダル学習」と「ビジョン、言語、推論(Reasoning)」

Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

著者:Matt Deitke et al.

セッション:Oral Session 1B: Interpretability and Evaluation

プロプライエタリな視覚言語モデルに依存せず、完全にオープンな手法で高性能なVLM「Molmo」と、その訓練データ「PixMo」を構築・公開した研究です。PixMoは詳細説明を持つ画像キャプション、自由形式の画像質問応答、ポインティング(2次元座標(x, y)とそこにある物体が対となるデータセット)を含む多様なデータを含み、Molmoは学術ベンチマークや人間評価でClaude 3.5やGeminiを上回る性能を達成しました。

出典:Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language ModelsのFigure 2, URL: https://arxiv.org/abs/2409.17146 (2025年6月5日アクセス)

図は、Molmoのアーキテクチャを示しており、視覚エンコーダ(ViT)、コネクタ、トークナイザ、LLMという4つの主要モジュールから構成されています。ViTは画像を複数のクロップに分割し、パッチごとに特徴ベクトルを出力します。コネクタはそれらの特徴ベクトルをアテンションプーリングし、LLMの埋め込み空間に変換します。最終的にLLMが応答を生成します。ポインティング出力では、位置情報をHTMLライクな形式で埋め込み、画像内の対象を明示できます。

Generative Multimodal Pretraining with Discrete Diffusion Timestep Tokens

著者:Kaihang Pan, Wang Lin, Zhongqi Yue, Tenglong Ao, Liyu Jia, Wei Zhao, Juncheng Li, Siliang Tang, Hanwang Zhang

セッション:Oral Session 6B: Scene Understanding, Image Editing and Multimodal Learning

画像と言語を扱うAIでは、従来の画像情報の形式がAIにとって直感的に理解しづらく、言語のように扱えない課題がありました。本論文は、AIが画像を生成する途中経過を利用し、文章のように意味がつながる新しい形式の視覚情報(DDT: Discrete Diffusion Timestep token)を開発しました。これによりAIの言語理解力と画像生成力を一つの仕組みで効果的に組み合わせ、高度な画像と言語の処理を実現します。

出典:Generative Multimodal Pretraining with Discrete Diffusion Timestep TokensのFigure 2, URL: https://arxiv.org/abs/2504.14666 (2025年6月5日アクセス)

(a)の「Diffusion Timestep Tokenizer」は、画像をエンコーダと複数タイムステップ(アテンション等で特徴を精錬・属性を補完)で処理し、学習済みの代表的な画像パターン集であるコードブックを用いた量子化で再帰的・離散的なDDTを生成します。

(b)では、このDDTとテキストのトークン結合列を、LLaMA等の大規模言語モデル(LLM)が「next-token prediction」で処理し、画像とテキスト間の関連性を学習。この統一的予測機構が、画像理解や双方向生成などマルチモーダル処理の基盤を構築しています。

その他注目論文

Descriptor-In-Pixel : Point-Feature Tracking For Pixel Processor Arrays

著者:Laurie Bose, Jianing Chen, Piotr Dudek

セッション:Oral Session 2C: Temporal Modeling and Action Recognition

※本記事を執筆している 2025/6/3 時点で論文が未公開のため、関連情報を記載します。

本論文は、ピクセルプロセッサアレイ(PPA)センサー向けの新しい点特徴検出・追跡手法「Descriptor-In-Pixel」を提案しています。この手法は、すべての計算をセンサー内部のピクセルプロセッサで実行します。特徴記述子を各ピクセルプロセッサに保存し、並列処理で高速な検出と追跡を実現。SCAMP-7 PPAプロトタイプで3000 FPS以上を達成し、激しい動きにも対応します。これは、点特徴の検出と追跡を完全にインピクセルで実行する初の研究です。

出典:Descriptor-In-Pixel : Point-Feature Tracking for Pixel Processor Arraysのデモ動画, URL: https://lauriebose.github.io/DIP/ (2025年6月5日アクセス)

The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour Recognition

著者:Otto Brookes, Maksim Kukushkin, Majid Mirmehdi, Colleen Stephens, Paula Dieguez, Thurston C. Hicks, Sorrel Jones, Kevin Lee, Maureen S. McCarthy, Amelia Meier, Emmanuelle Normand, Erin G. Wessling, Roman M. Wittig, Kevin Langergraber, Klaus Zuberbühler, Lukas Boesch, Thomas Schmid, Mimi Arandjelovic, Hjalmar Kühl, Tilo Burghardt

セッション:Oral Session 2C: Temporal Modeling and Action Recognition

野生チンパンジーの行動認識における背景情報の影響を研究するためのデータセット「PanAf-FGBG」を紹介しています。本データセットは、同じ位置からカメラトラップ(野生動物の自然の行動を自動撮影する無人のセンサーカメラ)で撮影されたチンパンジーを含む前景映像と、含まない背景映像のペアで構成されています。これにより、背景情報が行動認識モデルの汎化性能に与える影響を定量的に評価できます。結果として、背景情報が動物の行動認識の強力な予測因子であることと、CNNとTransformerのアーキテクチャ間での影響度の違いを明らかにし、データセットの有用さを示しました。

出典:The PanAf-FGBG Dataset: Understanding the Impact of Backgrounds in Wildlife Behaviour RecognitionのFigure 1, URL: https://arxiv.org/abs/2502.21201 (2025年6月5日アクセス)

本研究で提案されたPanAf-FGBGの構成を示しています。チンパンジーを含む前景(FG)映像と、含まない背景(BG)映像のペア5070組で構成されており、アフリカ6か国・389か所のカメラから収集された21時間分の映像が含まれています。実験の結果、映像ペアのうちFGまたはBGのいずれか一方のみで学習したモデルと比較して、それぞれから抽出した特徴量を融合したモデルは、分布外データに対してより高い性能を示すことが確認されました。

UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic Programming

著者:Hao Lin, Ke Wu, Jie Li, Jun Li, Wu-Jun Li

セッション:Oral Session 5B: Learning Systems and Medical Applications

大規模モデルの学習には、複数のマシンやGPUを用いた分散学習が用いられ、大きく層間並列(Inter-layer parallelism)と層内並列(Intra-layer parallelism)の2つのカテゴリに分けられます。既存の自動並列化(AP)手法は、層間並列と層内並列の2つのカテゴリを同時に最適化しないという問題を抱えており、UniAPは分散学習の並列戦略最適化において、これまで個別または階層的に扱われていた層間並列と層内並列を混合整数二次計画法(MIQP: Mixed Integer Quadratic Programming)により統合的に扱うことで、既存手法の限界を超え、より優れたパフォーマンスと効率的な最適化時間を実現した手法です。

出典:UniAP: Unifying Inter- and Intra-Layer Automatic Parallelism by Mixed Integer Quadratic ProgrammingのFigure 2, URL: https://arxiv.org/abs/2307.16375 (2025年6月5日アクセス)

層間並列と層内並列の自動並列化を統合し、これら2つのカテゴリの並列戦略を同時に最適化するために、UniAPはMIQPを用いています。この統合された最適化プロセスをUnified Optimization Process (UOP)と呼んでいます。UOPは、ハードウェアとモデルのプロファイリング結果、計算グラフ、コストモデルから得られた推定コストを基にMIQP問題を定式化し、最適な並列戦略(層の配置や層内戦略の選択)と最小のトレーニング時間(TPI)を探索します。

おわりに

本記事では、CVPR 2025のBest Paper Award候補論文を通じて、コンピュータビジョンとパターン認識分野の最先端の技術動向をご紹介しました。どの論文も大変興味深く、今後のAI研究開発の方向性を示唆するものであったと感じています。

現在、私の所属するAI開発部は10人の多様なバックグラウンドを持つメンバーで構成されており、今回の論文紹介も各メンバーが分担して取り組みました。私たちは最先端の研究成果を積極的に取り入れ、社会に貢献するAIの開発に日々邁進しています。

このような最先端のAI技術開発に情熱を傾け、私たちと共に未来を創造したいとお考えの方、ぜひ弊社の募集要項をご覧ください。皆様のエントリーを心よりお待ちしております。

© Safie Inc.