iconLogo
Published:2026/1/4 14:11:45

タイトル & 超要約:ReTok!画像生成の革命🎉

● ギャルのハートを掴むポイント * 従来の欠点を克服!画像生成の質が爆上がりするってコト💖 * 高解像度(こうかいぞうど)で、めっちゃクオリティの高い画像が作れるようになるよ🌟 * ビジネスチャンスが無限大!新しいサービスが生まれまくる予感😍

● 詳細解説 * 背景 画像生成AI(AI)ってすごいけど、もっと良くしたい!従来の技術だと、画像の情報が偏(かたよ)っちゃう問題があったの🥺 * 方法 ReTokは、画像データを賢く分析する技術。余分なトークンを追加したり、情報を整理したりして、画像の質を上げるよ✨ * 結果 トークン(情報のかたまり)が増えても、画像の質が下がらない!むしろ、どんどん良くなるってマジすごい😳 * 意義(ここがヤバい♡ポイント) 高画質(こうがしつ)な画像が作れるから、色んなビジネスに応用できる!新しいサービスがバンバン生まれるかも💖

● リアルでの使いみちアイデア * ECサイト(ネットショップ)の商品画像を、もっとかわいく、魅力的にするね🛍️ * SNSのアイコン(顔写真)を、AIがめちゃくちゃ可愛くしてくれるかも🥰

● もっと深掘りしたい子へ🔍 * 自己回帰(じこかいき)モデル * フレキシブルトークナイザー * セマンティック正則化(せいそくか)

続きは「らくらく論文」アプリで

Improving Flexible Image Tokenizers for Autoregressive Image Generation

Zixuan Fu / Lanqing Guo / Chong Wang / Binbin Song / Ding Liu / Bihan Wen

Flexible image tokenizers aim to represent an image using an ordered 1D variable-length token sequence. This flexible tokenization is typically achieved through nested dropout, where a portion of trailing tokens is randomly truncated during training, and the image is reconstructed using the remaining preceding sequence. However, this tail-truncation strategy inherently concentrates the image information in the early tokens, limiting the effectiveness of downstream AutoRegressive (AR) image generation as the token length increases. To overcome these limitations, we propose \textbf{ReToK}, a flexible tokenizer with \underline{Re}dundant \underline{Tok}en Padding and Hierarchical Semantic Regularization, designed to fully exploit all tokens for enhanced latent modeling. Specifically, we introduce \textbf{Redundant Token Padding} to activate tail tokens more frequently, thereby alleviating information over-concentration in the early tokens. In addition, we apply \textbf{Hierarchical Semantic Regularization} to align the decoding features of earlier tokens with those from a pre-trained vision foundation model, while progressively reducing the regularization strength toward the tail to allow finer low-level detail reconstruction. Extensive experiments demonstrate the effectiveness of ReTok: on ImageNet 256$\times$256, our method achieves superior generation performance compared with both flexible and fixed-length tokenizers. Code will be available at: \href{https://github.com/zfu006/ReTok}{https://github.com/zfu006/ReTok}

cs / cs.CV