AI识别古彝文，“理科生”助力文化传承

古彝文的背景

古彝文识别面临的困难

AI识别古彝文

总结

⭐️古彝文的背景

彝文指的是云南、贵州、四川等地的彝族人使用的文字，其造字、使用方法在不同的区域之间表现出明显的差异。1980年发布的四川规范彝文有819字，2012年发布的滇川黔桂通用彝文有5598字。这两种彝文主要用于现代语境，在仪式、节庆、旅游景点等场合彰显彝族非物质文化遗产的传承，或用于民族地区相关政策和宣传文件的翻译，以及当代母语作家文学的创作。

世界级民族文化遗产——盘州古彝文

受高温潮湿环境等因素的影响，古彝文典籍的保存十分不易，勤劳智慧的彝族人民创造出“封底裹卷装”等方式来保存古籍。其具体装订方法：用一块幅面长度、宽度都超于纸张的皮革或布料作封底，将印写好的书叶以数叶为一叠放置在封底上，对齐边沿，在余幅处打眼用线装订，在封底末端中间订上一根细绳，不用时将书倒卷，以绳束紧，成卷存放。民间流传的手抄本外，目前大部分彝文古籍系属清代和民国，少量纸质、骨刻、石刻、木刻文献和一些金属器物铭文可上溯到更早时期。

⭐️古彝文识别面临的困难

传统的古彝文翻译面临着很多困难，如原籍难获取、古籍有残缺、翻译过程繁琐，甚至一本翻译需要十年起步。

⭐️原籍难获

首先要获取古彝文原籍，而这些原籍并不容易获得。研究者要向持有经书的布摩（彝族祭司）购买某本祖传书籍，一般来说他们是不愿意的，布摩以卖书为耻辱，有的人在入葬时要求与自己的经书一同火化。有时在政府专员的反复动员和劝说下，布摩会愿意转让部分典籍，也有一些致力于推广传统文化、已消除禁忌理念的人士愿意转让经书，这才使我们的研究得以可能。因此，彝文研究者必须长期驻扎当地，协助当地机构的各项工作，与古彝文传承人建立良好的关系，方能取得对方的信任与支持。

⭐️古籍残缺

拿到古籍后，页面如有残缺、粘滞，需要小心翼翼地分开，然后分页粘贴至更大幅的纸张上，以便翻检查阅，一些因年代久远出现脆化的纸片还需重新拼接，如图所示

《古彝文白马经书(公书)》全文

⭐️古籍翻译

接下来要对这些古籍进行断句和翻译。为了保护古籍，翻译家依照复印件来完成日常的翻译工作。如果彝语是译者的母语，他就可以自己将语句分开，加上国际音标；母语不是彝语的译者还需要在母语者的帮助下记音，再用汉语逐字直译，最后用流畅的汉语对整句话进行意译，这种方法称之为“四行法”，是丁文江和罗文笔翻译《爨文丛刻》时开创的。

目前，彝文字还没有被数字化，还没有预留的Unicode编码区段，所以在印刷出版时需要由一位彝文缮写员先将彝文字和国际编码抄写在书页的左侧，再将已输入电脑的汉文译文打印、剪切后粘贴在相应彝文字的右侧，形成我们最终看到的四行体彝汉文对译。

⭐️AI识别古彝文

作为世界上最古老的文字之一，古彝文是中华文明地图上神秘而耀眼的印记。合合信息联合上海大学、华南理工大学团队针对现有的西南彝志、云贵一带古彝文字符开展统一编码，并于近期发布了业内首个古彝文基础编码数据库（简称“数据库”）。

据悉，数据库包含上千个古彜文基础编码，通过API数据接口等形式，该数据库有望帮助高校研究人员、文化工作者、兴趣爱好者等人群快速找到古彝文在字典中的读音、汉语释义、用法，如同“大字典”一般，帮助人们降低古彝文书籍、文献阅读的门槛，以数字化手段助力传统文化保护、创新之路。

研究古彝文字集，有助于理解尚未被翻译成汉文、用字尚未规范化的古籍，更深层、透彻地作用于传统文化保护，同时通过建立古彝文数据库，填补当前国内外研究的空白。合合信息与华南理工大学共同成立文档图像分析识别与理解联合实验室，联合上海大学社会学院，共同解决数据库建设中的学术性、技术性难点。

合合信息在古文字识别领域已有了一定的积累和成果。在2021年、2022年的世界人工智能大会上，合合信息展现了智能文字识别技术在甲骨文、西周钟鼎文（金文）中的应用。

⭐️智能图像处理

基于计算机图形图像技术，智能图像处理引擎提供图像扫描件化、切边增强、弯曲矫正、阴影处理、印章检测、手写擦除等多种图像处理能力，解决影像采集不规范问题，优化影像质量。

智能图像处理在古彝文识别方面的应用主要包括以下几个方面：

字符分割与定位：通过图像处理算法，将古彝文图像中的字符进行分割和定位。这对于后续的字符识别非常重要，可以提高识别准确性。

字符识别：利用机器学习和深度学习技术，训练模型来自动识别古彝文字符。通过大量的训练数据和优化算法，可以实现高准确率的字符识别。

文本校正与修复：古彝文的保存状态可能不完整或有损坏，导致部分文字难以辨认。智能图像处理技术可以通过恢复和修复图像中的古彝文，提高整体文本的可读性。

文本翻译与分析：通过将古彝文文本与其他语言或文字进行对比和分析，可以进一步理解古彝文的含义和背后的文化内涵。智能图像处理技术可以辅助进行文本翻译与分析，促进对古彝文的研究。

⭐️复杂场景文字识别

复杂场景文字识别技术能够通过深度学习算法和图像处理技术，对古彝文进行高效准确的识别，主要包括以下几个方面：

字形复杂：古彝文的字形多样，有许多变体字。复杂场景文字识别可以通过训练大规模样本和优化模型，提高对不同字形的适应能力。

字体变体：古彝文的字体变体较多，不同地区和时期的古彝文字体不尽相同。复杂场景文字识别可以通过引入大量的字体变体样本，并利用深度学习模型进行自适应训练，提高对字体变体的识别准确率。

纸质状况不佳：古彝文文献大多保存在古籍、碑刻、手抄本等形式中，纸质状况较差，文字模糊、残损严重。复杂场景文字识别可以通过图像增强和去噪技术，提升对纸质状况不佳的文字的识别效果。

如上图古彜文字符多样性无统一规范样式，可以通过复杂的场景文字识别训练，利用基础编号能够将不同样式归纳，统一输出确保后续识别效果强化。

如上图合合信息旗下扫描全能王与上海大学、华南理工大学共同研发识别古彜文基础编码已经完成，此基础编码将帮助后续古彜文的检测、识别、标注。

⭐️智能高清滤镜黑科技

合合信息旗下扫描全能王的智能高清滤镜技术还可以对古籍进行画面“修复”。

该功能在古彝文识别领域贡献巨大，在我们日常办公时也发挥着重要作用。我们在使用“智能高清滤镜”时无需思考拍摄角度、光源、背景，该功能可智能检测图像中存在的问题，自动判定图像优化方式，实现模糊、阴暗、手指等干扰因素全处理，一键应对生活、生产中的扫描难题。

⭐️总结

通过识别和研究古彝文，可以帮助彝族人民了解和传承自己的文化遗产。彝族的历史、传统、宗教信仰等都可以通过古彝文来进行研究和探索，有助于维护和弘扬彝族文化。

目前，AI对于古彝文的识别技术还处于初级阶段。古彝文是中国彝族人民使用的古代文字，具有一定的复杂性和独特性，因此其识别难度较大。

未来，基于深度学习和自然语言处理技术的AI系统可能会更好地理解和识别古彝文。通过大量的训练数据和算法优化，AI可以学习到古彝文的结构和规律，实现对其的自动识别和解析。这将为古彝文的研究和保护提供有力的工具和支持。

文章来源地址https://uudwc.com/A/AAXLV