歡迎訪問合肥育英學校!

合肥育英學校

您現(xiàn)在的位置是: 首頁 > 奧數(shù) >數(shù)理化公式識別軟件(數(shù)理化公式識別方法)

數(shù)理化公式識別軟件(數(shù)理化公式識別方法)

發(fā)布時間:2024-11-26 03:21:03 奧數(shù) 168次 作者:合肥育英學校

1簡介

OCR(OpticalCharacterRecognition,光學字符識別)是一種將圖片信息(漢字、字母、數(shù)字等)轉換為可編輯的電子文本的技術。隨著人工智能的不斷發(fā)展,基于深度學習的OCR技術在教育行業(yè)得到廣泛應用;智能批改、助教輸入等場景都依賴于OCR技術。現(xiàn)階段,基于深度學習的OCR技術對于簡單的一維文本識別可以達到較高的識別精度,但對于數(shù)學、物理公式等二維結構的識別精度較低。針對這個技術痛點,本文提出了一種可以識別數(shù)學和物理公式的技術。該技術可以識別矩陣、方程、分數(shù)、根式等二維結構信息,識別準確率可以達到95%+。

數(shù)理化公式識別軟件(數(shù)理化公式識別方法)

2技術路線

數(shù)學公式識別是將公式圖像信息數(shù)字化的技術。該技術利用Seq2Seq網(wǎng)絡架構來達到識別二維結構的目的。技術路線如圖1所示,模型輸入為:公式圖片,模型輸出為:公式圖片對應的Latex公式序列。

圖1數(shù)學公式識別模型概述

2.1、數(shù)據(jù)準備

為了獲得魯棒的深度學習公式識別模型,訓練數(shù)據(jù)的準備至關重要。本文采用人才為本的策略來收集數(shù)據(jù):(1)通過分析真實場景中公式數(shù)據(jù)的特征,采用合成數(shù)據(jù)方法,合成真實場景數(shù)據(jù);(2)利用數(shù)據(jù)增強來擴大數(shù)據(jù)的多樣性;(3)通過公式識別置信度收集badcase,迭代收集公式數(shù)據(jù),增強模型的泛化能力。

2.2、Latex公式歸一化

由于Latex的數(shù)學物理公式表達并不唯一,如圖2所示,這種一對多的公式表達方式很容易導致訓練損失函數(shù)不收斂,從而增加模型的學習難度。因此,必須采用歸一化策略來達到一個符號只有一個表達方式,降低模型學習難度的目的。

圖2Latex表達式不唯一

2.3、Seq2Seq網(wǎng)絡架構

Seq2Seq模型是機器翻譯中引入的第一個概念。該模型由編碼器(Encoder)和解碼器(Decoder)組成??梢愿玫貙W習數(shù)學公式的結構特征,例如上下結構公式和周圍結構。公式等

2.3.1.編碼器

編碼器就是提取公式圖片的特征圖。編碼器結構借鑒了Inception-ResNet-V2的網(wǎng)絡框架。詳細的網(wǎng)絡框架如圖3所示。其中,(1)采用多個感受野的Inception結構,有利于學習不同字體大小的公式特征;(2)介紹PositionEmbedding方法可以有利于獲得字符之間的位置關系特征。

圖3編碼器網(wǎng)絡架構圖

獲得公式圖片的特征圖后,為了很好地進行序列化學習,將特征圖重塑為一維結構特征向量(語義編碼)。由于PositionEmbedding方法的引入,將特征圖重塑為一維結構后,還可以很容易地保存各個特征向量之間的位置關系。

2.3.2.解碼器

解碼器的作用是將語義編碼向量解碼成相應的識別結果。通過編碼器獲得公式圖片對應的一維結構特征向量后,使用LSTM(長短期記憶)來學習公式圖片對應的Latex公式。序列,LSTM是一種時間循環(huán)神經(jīng)網(wǎng)絡,專門為解決一般RNN的長期依賴問題而設計。其中,在解碼器階段,還使用了Attention機制。注意力機制是一種加權機制,關注編碼層獲得的語義編碼中的哪個分量對于當前的預測更重要。詳細的解碼器網(wǎng)絡架構圖如圖4所示。

圖4解碼器網(wǎng)絡架構圖

2.4、Seq2Seq模型的訓練階段

在訓練階段,由于模型一開始的預測極不穩(wěn)定,如果將前一個時間片的預測作為當前時間片的輸入,模型將很難收斂。因此,為了達到模型快速收斂的目的,我們使用標簽序列作為序列預測的輸入,如圖5所示。

圖5模型訓練階段示意圖

2.5、Seq2Seq模型的推理階段

在推理階段,由于測試樣本沒有標簽序列,所以我們使用當前時間片的輸出作為下一個時間片的輸入,一般使用GreedySearch算法或BeamSearch算法進行解碼。其中,GreedySearch算法是BeamSearch算法的特例(beamsize=1)。集束搜索是尋找全局最優(yōu)值和搜索時間之間的折衷。它計算當前時間片內所有假設的概率,然后選擇最高的組成一組,然后基于這組假設,計算下一個時間片中概率最大的一組,并依此類推,直到最后一個時間片結束。下圖展示了beamsize=3的搜索過程,紅線是選擇的假設。

圖6模型推理階段示意圖

2.6、后處理操作(Post-Processing)

通過解碼器可以很好地學習Latex公式的序列特征。然而,在實際場景中,會出現(xiàn)很多種情況。例如,0、o等相似字符就不容易正確識別。因此,后處理操作可以發(fā)揮作用。錦上添花的是根據(jù)先驗知識進行修正,比如將1o修正為10。在測試集上測試后,后處理操作可以在不影響識別性能的情況下提高準確率1%左右。

2.7、識別結果

數(shù)學公式識別模型可以直接將公式圖片轉換成其對應的Latex公式。識別樣本如圖7所示(為了方便直觀比較,通過XeLatex和ImageMagick將Latex公式可視化):

圖7識別結果

3結論

數(shù)學物理公式識別模型可以很好地解決二維結構的公式識別問題,平均準確率可以達到95%+。但對于結構非常復雜的公式(對應的Latex公式很長),識別精度仍然需要提高。問題出在時間序列解碼階段。雖然LSTM和Attention機制都可以很好地緩解長序列解碼的長期依賴,但都無法從根本上解決。未來我們將探索使用圖模型來求解長序列結構的公式。找出問題所在。

作者:劉騰龍

午夜亚洲国产理论片一二三四,亚洲av无码乱码在线,最新中文字幕av专区不卡,中文字幕人妻在线二区