推广工程数字资源联合建设地方文献数字化加工规则(2024)1 术语和定义1
1 双层 PDF将标准资料通过扫描仪快速录入后,经过去污、纠偏和 OCR 识别,直接生成的可检索的 PDF 文件
该文件是双层的,上层是原始图像,下层是识别结果
2 单版 TXT 文件由图像数据一一对应进行文本转换得到的 TXT 文件
一个单版TXT 文件对应一个图像文件
3 合并版 TXT 文件将单版 TXT 文件按顺序合并得到一册书的完整 TXT 文件
2 图像数字化和命名规则2
1 图像数字标准2
1 扫描标准(1)黑白页和灰度页用灰度方式扫描色彩位深:8 位 分辨率:300 dpi;小于 5 号字体用 400 dpi档案典藏级格式:TIFF 不压缩(2)彩色页用彩色方式扫描色彩位深:24 位 分辨率:300 dpi;小于 5 号字体用 400 dpi档案典藏级格式:TIFF 不压缩2
2 拍照标准像素:不小于 300 万档案典藏级格式:TIFF 不压缩2
2 数字化要求数字化环境注意防护光源,避开透光或反射光的影响
数字化后的图像清楚,文件页码连续,没有重页、缺页、错页等情况(原书缺页、错页除外)
补扫的图像要与同册图像文件的大小一致,颜色接近
(1)以原文献的上边沿为基准,保持原文献的天头、地脚的尺寸不变,左右两边的尺寸基本不变
(2)数字图像放大至实际尺寸 100%,图像不失真
(3)数字图像文件与文献原件颜色不一致,须先进行设备色彩校正,再重新进行扫描或拍照工作
3 数字图像处理要求数字图像处理是在未改变原扫描图像的色彩、分辨率、格式、压缩等情况下进行
数字图像文件处理内容及要求如下:(1)纠偏处理
对出现偏斜的图像进行纠偏处理,图像歪斜度不可以超过一度,对方向不正确的图像进行旋转还原,以符合阅读习惯
(2)图像剪裁
图像保留到文献的外边缘
(3)不能进行锐化或者图