廣東振越智能家具有限公司—主營:密集架,智能密集架,電動密集架,檔案密集架,是一家專注檔案裝具設(shè)備生產(chǎn)廠家。
7 檔案 OCR的實施
7.1 圖像導(dǎo)入
7.1.1 檔案 OCR實施前,應(yīng)先評估紙質(zhì)檔案數(shù)字復(fù)制件質(zhì)量是否符合 OCR 的基本要求。評估內(nèi)容DA/T77—2019一般應(yīng)包括圖像分辨率、偏斜度、清晰度、失真度、亮度、對比度、灰度等。
7.1.2 紙質(zhì)檔案數(shù)字復(fù)制件的圖像分辨率應(yīng)不低于200dpi。特
殊情況下,如文字偏小、密集、清晰度較差等,可以適當(dāng)提高分辨率。文件命名應(yīng)符合 DA/T13、DA/T22、DA/T31的規(guī)定。
7.1.3 對質(zhì)量不能達到檔案 OCR工作基本要求的紙質(zhì)檔案數(shù)字復(fù)制件,應(yīng)按照 DA/T31的要求重新數(shù)字化后導(dǎo)入。
7.2 圖像預(yù)處理
7.2.1 二值化
7.2.1.1 在識別處理前,應(yīng)對彩色圖像進行灰度化和二值化處理,對灰度圖像進行二值化處理。應(yīng)采取局部自適應(yīng)二值化等算法,并支持自動或手動調(diào)節(jié)。
7.2.1.2 應(yīng)具備亮度和對比度值自動、手動調(diào)節(jié)功能。亮度和對比度值的設(shè)定以調(diào)整后的圖像中文字的筆畫連貫清晰為準。
7.2.2 圖像降噪
7.2.2.1 對圖像中印刷體字符進行識別處理前,需要根據(jù)噪聲的特征對待識別圖像進行降噪處理,提升識別處理的精確度。
7.2.2.2 降噪處理應(yīng)去除在掃描過程中產(chǎn)生的污點、污線、黑邊等影響圖像質(zhì)量的雜質(zhì),去除檔案頁面原有的紙張褪變斑點、水漬、污點、裝訂孔等影響識別的地方。
7.2.3 傾斜校正
7.2.3.1 對圖像進行識別前,應(yīng)進行圖像方向檢測并進行自動水平或垂直傾斜校正。
7.2.3.2 應(yīng)支持由用戶指定圖像傾斜的角度,采用相應(yīng)的圖像旋轉(zhuǎn)算法進行手工傾斜校正。
7.2.4 圖像監(jiān)測
圖像質(zhì)量控制程序應(yīng)自動檢測圖像處理質(zhì)量。對無法達到質(zhì)量要求的圖像進行標注。

7.3 比對識別
7.3.1 版式分析
7.3.1.1 比對識別前應(yīng)對圖像中的字符塊結(jié)構(gòu)進行版式分析,把圖像中相似的版塊信息劃分到一起。如橫排文本、豎排文本、表格、圖形等。
7.3.1.2 版式分析可采取多種分析方法,自動檢測各版塊類型,對圖像內(nèi)部區(qū)域進行邏輯歸類,記錄各版塊的位置,存儲版面信息。
7.3.2 檔案特征分析
7.3.2.1 歸檔章分析。建立歸檔章式樣庫,自動識別圖像中的歸檔章,并根據(jù)歸檔章樣式,識別出字段位置,如全宗號、年度、機構(gòu)、保管期限、件號、頁數(shù)等。
7.3.2.2 公文要素分析。建立公文格式庫,可準確識別公文的版頭、主體、版記三部分,識別公章、簽章等區(qū)域,比照公文樣式,識別密級和保密期限、緊急程度、發(fā)文字號、簽發(fā)人、標題、主送機關(guān)、正文、附件說明、發(fā)文機關(guān)署名、成文日期、附注、附件、抄送機關(guān)等公文要素。公文要素 OCR識別要求見附錄 A。
7.3.2.3 表格分析。建立單獨表格處理模塊,建立專用表格模板定義工具,自定義文件處理單、發(fā)文稿紙、備考表等表格模板,識別表格中的字段位置。
7.3.2.4 印章分析。識別印章圖像位置,存儲印章圖像,建立印章名稱與印章圖像的關(guān)系庫,用于版式恢復(fù)。
7.3.3 識別和匹配
7.3.3.1 識別時應(yīng)抽取字體、字號、粗體、斜體、首行縮進等字符特征,通過相似度計算方法,與特征數(shù)據(jù)庫比對,識別為計算機文字內(nèi)碼。
7.3.3.2 特征數(shù)據(jù)庫應(yīng)存儲多種印刷體字符、常用簽名和批注手寫體字符,具備可更新和可擴充性。對使用頻率高的漢字、英文、數(shù)字以及常用的符號、常用簽名和批注手寫體字符應(yīng)建立高頻庫。應(yīng)將無法識別的手寫體篩選出來,通過人工識別,并將識別成果存入字符庫。
7.3.3.3 應(yīng)通過將比對后的識別文字根據(jù)上下文在可能的相似候選字群中找出最合乎邏輯的字詞對識別文字進行除錯或更正,以提高 OCR識別準確率。
7.4 修改校正
7.4.1 應(yīng)對識別的文本進行自動語義識別和校正,通過詞匯庫和語義庫對識別后文本中的字符、詞匯、語句自動進行逐層分析更正。詞匯庫和語義庫應(yīng)具備更新和自動學(xué)習(xí)功能。
7.4.2 應(yīng)對候選字、拒認字和可能有問題的字詞、語句進行標記。
7.4.3 應(yīng)支持以人工方式對 OCR成果進行圖像與識別文字對照、修正等校正的功能,以滿足更高識別準確率的特殊要求。

7.5 成果整理輸出
7.5.1 成果整理
7.5.1.1 支持按照紙質(zhì)檔案數(shù)字復(fù)制件的版式對 OCR 成果的段落和表格進行版面理解與重建。重建后 OCR成果的段落編排、表格樣式應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件圖像一致。
7.5.1.2 應(yīng)自動分析、提取黨政機關(guān)公文的各公文要素,包括密級和保密期限、緊急程度、發(fā)文字號、簽發(fā)人、標題、主送機關(guān)、正文、附件說明、發(fā)文機關(guān)署名、成文日期、附注、附件、抄送機關(guān)等。檔案 OCR成果中各公文要素位置應(yīng)與紙質(zhì)檔案數(shù)字復(fù)制件圖像一致。
7.5.1.3 應(yīng)支持調(diào)用、編輯、備份、導(dǎo)出 OCR成果,支持對文字、符號的搜索等功能。
7.5.2 成果輸出
7.5.2.1 檔案 OCR成果應(yīng)同時保存為純文本形式和雙層 PDF/OFD文件形式。
7.5.2.2 應(yīng)以紙質(zhì)檔案的件或頁為單位輸出、保存純文本形式檔案 OCR 成果。純文本形式 OCR 成
果保存規(guī)則參見表1:
7.5.2.3 應(yīng)以檔號為基礎(chǔ)對純文本形式檔案 OCR 成果命名,命名方式的選擇應(yīng)確保檔案 OCR 成果
命名唯一性。一件檔案保存為多個檔案 OCR成果文件時,應(yīng)按檔號結(jié)合 OCR 成果順序流水號為檔案
OCR成果命名。
示例1:檔號為 A001-001-0001-0001的紙質(zhì)檔案數(shù)字復(fù)制件,對應(yīng)的 OCR成果文件名為 A00100100010001.txt。
示例2:檔號為 A001-001-0001-0002的紙質(zhì)檔案數(shù)字復(fù)制件包含收文處理單、文件正本兩個文件,對應(yīng)的 OCR成果文件名分別為 A00100100010002_01.txt和 A00100100010002_02.txt。
7.5.2.4 應(yīng)根據(jù)紙質(zhì)檔案數(shù)字復(fù)制件版式文件格式,自動形成支持全文檢索的雙層 PDF 或 OFD 文件,方便全文檢索后對文件的閱讀。
7.5.2.5 應(yīng)支持按照檔案著錄規(guī)則和電子檔案元數(shù)據(jù)規(guī)范,自動保存檔案 OCR 成果中的黨政機關(guān)公文要素。相關(guān)公文要素應(yīng)保存到數(shù)字檔案館(室)應(yīng)用系統(tǒng)數(shù)據(jù)庫。
7.5.2.6 應(yīng)支持檔案 OCR成果中文簡繁體的自動轉(zhuǎn)換功能。
7.5.3 成果驗收
7.5.3.1 應(yīng)采用計算機自動檢驗與人工檢驗相結(jié)合的方式對紙質(zhì)檔案 OCR成果進行驗收檢驗。
7.5.3.2 驗收檢驗內(nèi)容包括 OCR成果、提取的黨政機關(guān)公文要素、數(shù)據(jù)掛接情況、OCR工作文件和存儲載體等。
7.5.3.3 能夠采用計算機自動檢驗的項目應(yīng)采用計算機自動檢驗的方式進行100%檢驗,對于無法用計算機自動檢驗的項目,可根據(jù)情況以件或卷為單位采用抽檢的方式進行人工檢驗。抽檢比率不得低于5%。
| 久久色av中文字幕在线-国产又大又黄又粗又猛的视频-91精品久久熟女-julia中文字幕在线视频 | 久久99国产综合精品尤物-99精品久久久久久久一区-久久99精品久久久野外观看-欧美一区二区三区放荡老妇 | 成人精品玖玖资源在线播放-日韩av码在线-五月婷婷在线刺激-一区二区三区 日韩人妻 | 又粗又猛又大爽又黄老大爷1-久久久久亚洲av手机播放-亚洲视频中文字幕不卡-91精品国产色综合久久不卡粉嫩 | 伊人久久网在线观看-91精品国产福利在线观看麻豆-福利一区二区三区在线观看-日韩欧美久久视频a级片视频 | 成人av123在线-国产麻豆剧传媒精品mv在线-亚洲精品乱码久久久久久高潮-久久精品国产亚洲aⅴ麻豆 欧美黑人巨大最猛性xxxxx-欧美精品久久一卡二卡三卡免费播放-老熟女老91妇女老熟女-91久久精品日日躁欧美 | 久久精品女人的天堂av-一区二区三区熟女乱-日韩中文字幕内射-日韩欧美 一区二区三区 | 国产69精品久久久久9999-91精品国产自产永久观看在线-国产欧美一区二区白浆-不卡的一区二区视频免费 | 久久97久久免费视频-日本高清中文字幕有码在线-日韩50路熟妇精品-国产成人综合亚洲av小说网站 | 麻豆精品国产自产在线-久久久久成人精品免费国产-乱码精品久久久-国内自拍看在线视频 | 蜜臀久久99精品观看-国内成人自拍视频网-成人久久内射人妻-日韩激情小说av电影网 | 天天操天天爱天天操天天爱-日韩欧美一卡二卡在线观看-欧美日韩精品欧美日韩精品-18禁久久久久久久久久久久 | 成人精品在线播放视频-久久久久久久av熟女sss-久久综合日本道-中文字幕激情在线视频 | 国产精品18禁久久-久久亚洲精品麻豆-日韩亚洲中文字幕隔壁人妻-日韩国产毛片视频 | 中文字幕mv在线播放-婷婷熟女激情精品久久久-久久久久久精品免费亚瑟-麻豆伦理片在线观看 | 日日夜夜免费视频大全套-天天天天干天天天天舔-日韩av不卡在线观看日韩-日韩电影免费在线中文字幕 | kaori中文字幕在线播放-久久久久久精品人妻91app-亚洲第一中文字幕av-99热精品免费77 | 日本五十路熟女xx-久久99人妻免费精品一区-91精品久久久久久久亚洲国产-中文字幕av在线人妻 | 视频一区少妇中文字幕-欧美日韩黄片在视频在线播放-亚洲人妻中文字幕视频-日韩欧美亚洲一区精选 91沈先生极品在线-国产精品久久久久久久晋中-好奇害死猫激情视频-日韩新av在线 | 亚洲欧美日韩偷拍一区二区三区-国产欧美另类久久久精品图片-日韩vr欧美vr性视频-麻豆成人版短视频在线观看 | 视频一区二区三区视频在线观看-91精品91久久久777-av中文字幕亚洲一区-国产欧美色,一区二区三区 内射中出视频在线-激情视频在线看不卡-久久婷婷啪啪视频-日韩精品丝袜诱惑 | 国产一区二区欧美专区-91久久久久久亚洲精品网站-韩日中文字幕日本-精品一区二区三区无卡乱码观看 | 久久久久久久国产熟女精品-中文字幕欧美人妻精品-久久 综合 桃色 激情-久久久久成人精品免费播放 | 久久精品这里只有精品69-国产熟女高潮久久麻豆-天天舔天天摸天天日-欧美久久久久久精品免费免费直播 | 99久久有精品婷婷处女-99国产精品免费在线播放-日韩精品成人在线免费观看视频-人妻午夜av中文字幕 | 日韩熟女av伦乱-欧美亚洲韩国日本视频-91精品伊人久久久大香线蕉91-韩国精品福利一区二区三区视频 | 亚洲成人免费性网站-国产精品久久久午夜夜-蜜臀久久精品99国产精品日本-欧美人妻在线观看久久久 日日夜夜免费视频大全套-天天天天干天天天天舔-日韩av不卡在线观看日韩-日韩电影免费在线中文字幕 | 中文字幕永久乱码在线-999国产精品99久久久久-日韩欧美男女高清-久久久噜噜噜精品麻豆av | 五月婷婷六月丁香a-久久久久久精品毛片-婷婷色综合一区-色婷婷av一区二区三区久久天左右 | 乱熟女伦熟女的网站-91精品久久久老熟女-日本va欧美va欧美精品-中文字幕精品人妻熟女日韩久久影视 | 911精品人妻一区二区三区-91激情综合网-91亚洲精品久久久久蜜桃-99久久热免费观看 | 国产精品成人免费视频不卡-日韩毛片在线免费观看-日韩人妻视频在线观看-久久精品电影www | 亚洲五月天丁香社区-国产精品久久久久久久久久妇女-日韩一区二区三区视频免费播放-久久久99亚洲毛片久久91 | 日韩欧美在线爱爱-久久久一本精品99久久精品66-caoporm超碰国产-99精品久久精品一区二区卡 | 精品一区二区久久久久久-欧美日韩一区二区三区成人在线-99热在线日韩精品免费-亚洲一区jxxxxx在线观看 | 中文字幕mv在线播放-婷婷熟女激情精品久久久-久久久久久精品免费亚瑟-麻豆伦理片在线观看 | 国产欧美日韩一级黄-www.中文字幕久久-欧美熟妇高清在线-精品乱子伦一区二区三飞 | 国产精品人妻免费看-欧美高清视频一区二区三区-久热99这里只有精品-天天想发脾气想骂人怎么回事 日韩欧美av网址-国产精品乱码久久久久久软件-欧美熟妇另类久久久久久久久-人妻中文字幕全部 | 欧美黑人系列二区三区-日韩中文字幕人妻欧美-2021中文字幕在线观看视频-久久久国产精品免费蜜臀 91麻豆精品国产久久久久久-狠狠做五月深爱婷婷-日韩人妻中文网-69久久久成人看片免费一区二 | 丁香花五月天亚洲-丁香婷婷久久久综合精品-激情五月婷婷影院-av大片在线免费看 |