當大模型學會「讀表格」:智能問答如何破解數據結構化難題?
Gartner最新研究指出,2025年企業業務數據中超60%將依賴表格存儲。這意味著表格已經成為企業管理知識的重要方式,遠遠超過了傳統的文本形式。其結構化特性帶來的信息密度與交互效率,使得表格問答在智能問答領域的地位愈發關鍵。
表格問答難在哪?
可別小看表格問答,它的難度可不低。和普通文本相比,表格就像個復雜的謎題。
結構復雜:普通文本是“一行到底”的簡單結構,模型順著讀就能明白意思。但表格是二維的,單元格合并、跨行跨列這些情況太常見了,信息就像被打散的拼圖,找起來特別費勁。
語義難解:在理解語義方面,普通文本的關鍵信息一目了然,像“2025年一季度A產品銷售額100萬”,誰都能看懂。但表格得靠表頭才能知道數據是什么意思,有些表格還有多級表頭、跨列跨行表頭,信息又多又復雜,邏輯都藏在表格結構里。
解析邏輯:以前解析表格主要靠單元格的顏色、填充這些視覺標記來識別表頭,可要是遇到黑白文檔、掃描件,或者沒有這些標記的表格,就沒辦法了。
表格存儲示意
自研表格理解增強技術
不過別擔心,金現代團隊憑借強大的技術實力,研發出了基于類 HTML 解析語法的表格理解增強技術,能讓大模型更準確地理解表格數據。實現過程主要有下面6步:
獲取信息:獲取不同格式知識文檔中的文本信息和表格信息。
統一格式:將表格信息轉換為統一的存儲格式,并定義基于行和列的存儲格式。
確定表頭區域:根據表格中形成表頭的位置規律,確定表頭大致區域。
詳細表頭區域:將確定的表頭大致區域的文字內容拼接,采用預訓練語言模型,對拼接后的內容進行分類,確定表格所屬類別,進而確定表頭詳細區域。
處理表格內容:根據確定的表頭詳細區域,以表頭為基準,對表格其余部分進行單元格合并或拆分,得到單元格無合并的情況且每行列數相同、每列行數相同的表格內容。
存儲表格知識:以表頭單元格的文字內容為字段名,對應的列或行中的單元格文字內容為值,將表格內容轉換為鍵值對的形式,將原本表格中的一行或一列編為一組鍵值對字符串,向量化后存入向量庫中。
經過這6步的處理,就像給表格來了一場 "結構化改造",最終把復雜表格變成機器能看懂的 "鍵值對",再亂的表格數據都能乖乖 "對號入座",讓大模型理解表格就像讀普通文字一樣簡單。
表格問答優勢,賦能行業應用
憑借在表格問答領域的技術突破,金現代智能問答系統構建了兼具創新性與實用性的知識服務體系。系統可針對檢測標準、設備說明書等非結構化文檔提供精準問答服務,更能在批量復雜表格處理場景中展現強大性能,為企業決策提供支撐,推動知識管理向自動化、智能化層級躍遷。
表格問答示意
金現代將持續聚焦技術迭代與場景創新,不斷提升系統的智能解析精度與服務響應效率,致力于在智能問答領域構建更具深度與廣度的解決方案,助力企業釋放數據價值,開創智能知識管理新范式。