iconLogo
Published:2025/11/10 4:20:56

韓国語文書検索、爆上げ計画🚀!

  1. 超要約: 韓国語の文書検索を、視覚情報(グラフとか)も考慮して精度UPさせる方法の研究だよ!
  2. ギャル的キラキラポイント✨
    • ● 韓国語の複雑な文書(法律とか)に特化してるのが、すごい💖
    • ● テキストとビジュアル、両方見て検索するから、情報がめっちゃ正確になる!✨
    • ● 新しいベンチマーク(評価基準)を作って、みんなが同じ土俵で戦えるようにしたの🔥
  3. 詳細解説
    • 背景: 今の検索って、テキストだけじゃ物足りない💔 グラフとか図表の情報も大事じゃん? 英語の研究はあったけど、韓国語はまだだったんだよね。
    • 方法: 韓国語の論文とか報告書を大量に集めて、検索しやすいように整理したんだって!テキストだけじゃなく、図とかグラフもちゃんと見て検索できるようにしたんだよ!
    • 結果: テキスト検索と、画像も一緒に検索する「マルチモーダル検索」を比べたら、精度が格段にUPしたんだって!🎉
    • 意義(ここがヤバい♡ポイント): 法務とか、ビジネスとか、色んな分野で使えるようになる!情報を早く見つけられるから、みんなの仕事がめっちゃ楽になるよ!✨
  4. リアルでの使いみちアイデア💡
    • 法律系の会社で、法律文書をすぐに見つけられるツールができるかも!🧐
    • 政府の情報を検索するサイトが、もっと使いやすくなるかもね!😊
  5. もっと深掘りしたい子へ🔍
    • マルチモーダル検索 (Multi-modal Search)
    • RAG (Retrieval Augmented Generation)
    • ベンチマークデータセット (Benchmark Dataset)

続きは「らくらく論文」アプリで

SDS KoPub VDR: A Benchmark Dataset for Visual Document Retrieval in Korean Public Documents

Jaehoon Lee / Sohyun Kim / Wanggeun Park / Geon Lee / Seungkyung Kim / Minyoung Lee

Existing benchmarks for visual document retrieval (VDR) largely overlook non-English languages and the structural complexity of official publications. To address this gap, we introduce SDS KoPub VDR, the first large-scale, public benchmark for retrieving and understanding Korean public documents. The benchmark is built upon 361 real-world documents, including 256 files under the KOGL Type 1 license and 105 from official legal portals, capturing complex visual elements like tables, charts, and multi-column layouts. To establish a reliable evaluation set, we constructed 600 query-page-answer triples. These were initially generated using multimodal models (e.g., GPT-4o) and subsequently underwent human verification to ensure factual accuracy and contextual relevance. The queries span six major public domains and are categorized by the reasoning modality required: text-based, visual-based, and cross-modal. We evaluate SDS KoPub VDR on two complementary tasks: (1) text-only retrieval and (2) multimodal retrieval, which leverages visual features alongside text. This dual-task evaluation reveals substantial performance gaps, particularly in multimodal scenarios requiring cross-modal reasoning, even for state-of-the-art models. As a foundational resource, SDS KoPub VDR enables rigorous and fine-grained evaluation and provides a roadmap for advancing multimodal AI in real-world document intelligence. The dataset is available at https://huggingface.co/datasets/SamsungSDS-Research/SDS-KoPub-VDR-Benchmark.

cs / cs.CL