手机浏览器扫描二维码访问
“本来是这样的。”周至乐得眼睛都眯缝了:“可是两位师兄提供的字卡太好用了。”
“《字海》的字卡,有编号,有大字,有拼音、民国拼音、甚至还有老四角号码,还有小字的释义和凡例,满足了我们自动识别软件对于调试校准模型的一切要求,我们当然也要用到那头去!”
周至又道:“有了字卡的辅助,我们很快便将软件识别图形文字的准确率,从百分之九十二,也就是一百个字错八个,提升到了百分之九十九点六,也就是依靠软件识别文字,一千个字里只会读错四个。直接提升了一个量级。”
“这个成就,也直接帮我们跨过了数字图书馆最后一个巨大门槛,这个软件,已经算是真正成熟了。”
“这次带来的数字化的《字海》,就是我们第一本通过计算机扫描识别技术建立起来数字图书,既然字数最多的《字海》都可以实现数字化,那对其余典籍,我们当然充满了信心!”
“那就是古籍数字化工作可以提上日程了?”韦一心大喜:“我们学校正在搞《四库全书丛目》这部大书,要不肘子你来我们学校?学籍什么的好说……”
一边计算机中心主任也连连点头:“其实清华那边没去头,肘子你到底是文科生,来我们这儿正好搞古籍数字化工程,想想看,这个大工程搞出来,那会是多大成就?古人说的君子三立,立德立功立言,不都在里边了?”
周至听得心中暗笑,应该说北大的文化氛围的确可以的,你看计算机中心主任都说得出君子三立这样的命题解读来……
不过这事儿暂时没有可能,周至只好笑着解释:“我们蜀大的《道藏》,《儒藏》两部大书也准备开修了,师爷爷是不可能放人的。”
“不过现在有了好工具,哪怕我不来北大,大家也能够加快工程的进度。现在还是说回正事儿,我利用数字化的《字海》,演示一下我们对数字典籍整理的工程架构协议及标准。”
这个东西是周至的自创,哪怕上一世,这也是图书典籍工程里没有过的东西。
直到周至穿越回来之前,国家将典籍进行数字化的工作,主要还停留在建立树状数据库的较为原始的应用阶段。
就好比一个标准的图书馆,将一本书作为一个文本文件整体存放,然后给这个文件编出,书名,书号,最多再给出个作者,出版社之类的信息,作为标签。
这样做的好处就是简单明了,升级维护也容易,信息保存也算全面,一句话说完,就是够用,但不好用。
这样的东西在周至眼里当然是不合格的,最多最多只能算是地基,离百尺高塔还差着老远的功夫。
信息工程就是这样,算法和协议的思路,往往比基础工作还要重要,如果指导思想发生了错误,等到工程进展到不敷使用,才想着改弦易辙,在已经叠房架屋的情况下,再要开展,将付出巨大的代价。
后世中文编码的巨大混乱情形,就是这种教训的最好注脚。
这些思路,是在四叶草的研发思想,周至提出来的“如何三问”原则思想指导下梳理出来的。
“如何三问”听着玄奥,其实很简单质朴,就是对于任何需求,我们要问三层以上的问题。
神秘少年闯花都,左手金针度世,右手长剑破敌,念头通达无拘束,赚钱泡妞两不误。敌人,斩杀!女神,推到!众多极品女神纷至沓来,芳心暗许。冷艳总裁泼辣警花美艳教师娇俏校花千金小姐妩媚护士陈飞宇我要开疆拓土,打下一个大大的后宫!...
求助!为了博热度,我在b乎瞎编了一个预言。我说8月1日秦始皇修仙证据被发现。谁知道秦始皇8月1号在咸阳渡劫了!我为了修正时间线,目前正在嬴政龙椅背后怎么让他相信,我可以让他永生?在线等,急!...
重生为一名氪星人,卡恩该怎么做?是与克拉克肯特一般,成为地球的守护者,被称为人间之神?还是与达克赛德一样,征服宇宙,征战四野,做那睥睨天下的王者?卡恩想说,我只想随心所欲,做我自己...
武德七年。轰动大唐的太子李建成与并州杨文干密谋谋反一案,以一个李世民怎么也想不到的结局收场。太极殿上的那把龙椅似乎越来越遥远了。救贫先生,你看我此生,还能更进一步吗?李世民目中带着渴望之色,望着徐风雷。徐风雷微微一笑,伸出手掌道∶若殿下独自打拼,胜负在五五之数。若先生帮我呢?李世民一脸期待,我愿奉先生...
瑞根晚明红楼半架空历史官场养成文,绝对够味!大周永隆二年。盛世隐忧。四王八公鲜花着锦,文臣武将烈火烹油。内有南北文武党争不休,外有九边海疆虏寇虎视。这是一个最好的时代,也是一个最坏的时代。关键在于你身处其中时,该如何把握。勇猛精进,志愿无倦,且看我如何定风流,挽天倾!历史官场养成文,兄弟们请多支持。瑞根铁杆书友群...
许敬文魂穿南韩,开局反杀了欲谋害自己的双胞胎哥哥,并凭着一模一样的长相顶替死鬼哥哥的身份窃取了他检察官的位置,房子,妻子。李代桃僵的他决定当个好人,要把贪官和罪犯全都赶尽杀绝,结果上班第一天却发现贪官竟然是他自己PS浪子主角,行事略屑,纯粹爽文,不喜勿入,老作者,不投毒,已有完本万定老书。...