91精品人妻互换日韩精品久久影视|又粗又大的网站激情文学制服91|亚州A∨无码片中文字慕鲁丝片区|jizz中国无码91麻豆精品福利|午夜成人AA婷婷五月天精品|素人AV在线国产高清不卡片|尤物精品视频影院91日韩|亚洲精品18国产精品闷骚

您當(dāng)前位置:首頁 > 新聞頻道 > 技術(shù)動態(tài) > 正文
古籍文獻(xiàn)數(shù)據(jù)庫研析

  內(nèi)容提要:計(jì)算機(jī)技術(shù)在古典文獻(xiàn)整理與研究中的貢獻(xiàn)是極大的,但目前存在著缺乏統(tǒng)一領(lǐng)導(dǎo)與規(guī)劃;開發(fā)商嗜利忘義;熱門文獻(xiàn)數(shù)據(jù)重復(fù),冷門文獻(xiàn)數(shù)據(jù)罕見;技術(shù)關(guān)卡重重,難以互相兼容;功能單調(diào),難以真正為科研服務(wù);學(xué)術(shù)圈地,使人心有余而力難用等問題。解決這一問題的關(guān)鍵在于建立公共古典文獻(xiàn)數(shù)據(jù)庫和開發(fā)個性化文獻(xiàn)檢索服務(wù)系統(tǒng)兩個方面。具體說來是加強(qiáng)總體規(guī)劃,建立公共古典文獻(xiàn)數(shù)據(jù)庫;數(shù)據(jù)庫內(nèi)容與文獻(xiàn)檢索服務(wù)系統(tǒng)分離;加速確定字庫方案;徹底解決古典文獻(xiàn)版權(quán)問題;建立公平的交易平臺和發(fā)展新興學(xué)科,培養(yǎng)專業(yè)人才。
  關(guān)鍵詞:古典文獻(xiàn)數(shù)據(jù)庫 公共古典文獻(xiàn)數(shù)據(jù)庫 文獻(xiàn)檢索服務(wù)系統(tǒng)

  計(jì)算機(jī)技術(shù)的飛速發(fā)展,為古典文獻(xiàn)研究的現(xiàn)代化提供了堅(jiān)實(shí)的基礎(chǔ),其貢獻(xiàn)是有目共睹的。然而,計(jì)算機(jī)技術(shù)在古典文獻(xiàn)研究中的運(yùn)用仍然存在著極為嚴(yán)重的缺陷也是不容回避的。筆者近幾年來主持并直接參加設(shè)計(jì)“e書庫”數(shù)據(jù)庫的過程中,感到有必要將自己的一些想法提供給正在設(shè)計(jì)有關(guān)軟件的計(jì)算機(jī)專業(yè)人員、愿意使用該類軟件的專家學(xué)者們參考。

  一、我國古典文獻(xiàn)數(shù)據(jù)庫建設(shè)的歷程

  自古以來,歷代學(xué)者對古典文獻(xiàn)整理與研究一直沿襲手工操作的方式,然而自上世紀(jì)80年代后,計(jì)算機(jī)技術(shù)開始涉入到古典文獻(xiàn)研究中,對傳統(tǒng)的古典文獻(xiàn)整理與研究方法(自然也對一切需要使用古典文獻(xiàn)資料的專業(yè)研究)起到了極大沖擊。
  首先簡單回顧一下計(jì)算機(jī)技術(shù)在古典文獻(xiàn)研究領(lǐng)域內(nèi)發(fā)展的歷程。上世紀(jì)80年代初,我國一些圖書館、大專院校及科研機(jī)構(gòu)陸續(xù)開始大規(guī)模地利用計(jì)算機(jī)設(shè)計(jì)并建立數(shù)據(jù)庫。大致說來有兩類數(shù)據(jù)庫,一類是書目數(shù)據(jù)庫,一類是文獻(xiàn)數(shù)據(jù)庫。南京圖書館于90年代初率先建立書目數(shù)據(jù)庫,對讀者檢索有關(guān)書目起到了極大的幫助。之后,各地圖書館紛紛效尤,類似的書目數(shù)據(jù)庫很快就普及了。雖說至今各地圖書館的書目數(shù)據(jù)庫的檢索方式,仍存在機(jī)讀編碼格式不統(tǒng)一的問題,然而書目數(shù)據(jù)庫提供的方便快捷的查詢功能,對讀者來說無疑是一件大好事,具體到學(xué)術(shù)研究來說,至少為研究者提供了一個比較方便的查找有關(guān)古典文獻(xiàn)的實(shí)用工具。
  在建立書目數(shù)據(jù)庫的同時,一些大專院校與科研機(jī)構(gòu)開始研發(fā)各自的文獻(xiàn)數(shù)據(jù)庫。從數(shù)據(jù)制作格式來說,大致可以區(qū)分為兩類,一類是圖像格式,即將按原著內(nèi)容掃描成PDF圖像文本,另一類是元數(shù)據(jù)格式,即錄入文獻(xiàn)文本內(nèi)容(或掃描并轉(zhuǎn)化為電子文本)導(dǎo)入數(shù)據(jù)庫,并轉(zhuǎn)換成可閱讀與檢索的數(shù)據(jù)庫機(jī)讀格式。一般說來,無論是PDF格式還是元數(shù)據(jù)格式,它們數(shù)據(jù)庫容量都較大,也提供了較為原始的檢索方式,為學(xué)術(shù)研究提供了不小的幫助。從上述兩類制作格式的數(shù)據(jù)庫來說,PDF圖像文本可以直接閱讀圖像文字,但總體說來不太適應(yīng)古典文獻(xiàn)整理與研究的需要。而元數(shù)據(jù)格式較為精致,初步具備了較為方便的常用的功能,可以檢索、作卡片等等。
  古典文獻(xiàn)數(shù)據(jù)庫從收錄的文獻(xiàn)內(nèi)容來說,大致可以分為兩類:一類是類目數(shù)據(jù)庫,即按“類”收錄有關(guān)圖籍,如經(jīng)學(xué)類、史學(xué)類、文學(xué)類以及甲骨文、金文或出土文獻(xiàn)資料、石刻資料等等,另一類是綜合數(shù)據(jù)庫,如《四庫全書》、《四部叢刊》、《國學(xué)寶典》之類數(shù)據(jù)庫。
  大陸最早的古典文獻(xiàn)數(shù)據(jù)庫是河南大學(xué)的《宋人筆記檢索系統(tǒng)南宋主要?dú)v史文獻(xiàn)》,建立于1987年。之后,各種數(shù)據(jù)庫紛紛涌現(xiàn),比較重要的有南京大學(xué)、河南大學(xué)、蘇州大學(xué)聯(lián)合研制的《計(jì)算機(jī)甲骨文信息處理系統(tǒng)》、中國社會科學(xué)院《全唐詩》、《先秦魏晉南北朝詩》、《全上古三代秦漢三國六朝文》、《十三經(jīng)》、《全唐文》、《諸子集成》等數(shù)據(jù)庫、北京大學(xué)《全宋詩》數(shù)據(jù)庫、南京師范大學(xué)《全唐五代宋詞》數(shù)據(jù)庫、四川大學(xué)《宋會要輯稿》數(shù)據(jù)庫(與海外合作)等等。港臺古籍?dāng)?shù)字化起步較早,均采用繁體字形式。1984年臺灣中央研究院歷史語言研究所開始研發(fā)《漢籍全文資料庫》,香港中文大學(xué)則有《漢及以前全部傳世文獻(xiàn)》、《魏晉南北朝全部傳世文獻(xiàn)》、《竹簡帛書出土文獻(xiàn)》數(shù)據(jù)庫等等。其中《竹簡帛書出土文獻(xiàn)》收錄《馬王堆漢墓帛書》、《武威漢簡》、《睡虎地秦墓?jié)h簡》、《銀雀山漢簡》、《居延漢簡釋文合!芳捌渌⒁姾啝┕140多萬字的竹簡帛書出土文獻(xiàn),價值頗高。
  值得注意的是,這些數(shù)據(jù)庫主要是提供給本單位研究人員使用的,當(dāng)然也有部分?jǐn)?shù)據(jù)庫對外開放,為其他研究者提供一定幫助。雖然這些數(shù)據(jù)庫有種種限制,但它們無疑為古典文獻(xiàn)的研究(當(dāng)然包括其它專業(yè)的學(xué)術(shù)研究)提供了方便。之后,隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,各科研機(jī)構(gòu)、大專院校、各地方的圖書館、以及其它數(shù)以百計(jì)的網(wǎng)站向用戶提供收費(fèi)或不收費(fèi)的古籍文獻(xiàn)檢索服務(wù),甚至還提供古籍文獻(xiàn)的下載服務(wù)。顯然,這些工作的開展,為學(xué)術(shù)研究的現(xiàn)代化提供了極為有力的支持。至今為止,據(jù)筆者所查索到的除科研機(jī)構(gòu)、大專院校、各地圖書館數(shù)據(jù)庫之外,提供各種文獻(xiàn)下載的中文網(wǎng)站至少在200個以上,其中就有不少古籍文獻(xiàn)下載的網(wǎng)站。這些古典文獻(xiàn)數(shù)據(jù)庫或有關(guān)網(wǎng)站的建立,確實(shí)為古典文獻(xiàn)整理與研究乃至其它學(xué)術(shù)研究提供了極有價值的幫助。

                二、目前存在的問題

  當(dāng)然,我們也應(yīng)該清醒地看到,在古典文獻(xiàn)數(shù)據(jù)庫大量涌現(xiàn)的同時,一些潛在的問題與數(shù)據(jù)庫本身的缺陷嚴(yán)重地制約著古典文獻(xiàn)數(shù)據(jù)庫的正常發(fā)展。
  從古典文獻(xiàn)數(shù)據(jù)庫技術(shù)發(fā)展角度來說,筆者認(rèn)為大致經(jīng)過三個發(fā)展階段。第一階段是PDF圖像文本數(shù)據(jù)庫,其數(shù)據(jù)來源主要是以掃描方式獲得,形成PDF圖像文本。這種圖像文本優(yōu)點(diǎn)是直觀,與原書分毫不差,但它的缺點(diǎn)是功能極其單一,僅可供瀏覽圖像和簡單地檢索書目。雖然第一階段的數(shù)據(jù)庫功能極少,但畢竟能方便而直觀地閱讀文獻(xiàn)了,因此引起了學(xué)者們廣泛的興趣。必須指出的是,由于功能太少,這類數(shù)據(jù)庫難以進(jìn)一步發(fā)展。
  第二階段是元數(shù)據(jù)數(shù)據(jù)庫,以香港迪志公司投資、書同文數(shù)字化技術(shù)有限公司設(shè)計(jì)、上海人民出版社出版的《四庫全書》、書同文數(shù)字化技術(shù)有限公司設(shè)計(jì)、萬方數(shù)據(jù)電子出版社的《四部叢刊》、尹小林《國學(xué)寶典》、南開大學(xué)永川公司的《二十四史》,以及大陸、港臺等大專院校或科研機(jī)構(gòu)制作的較大型的數(shù)據(jù)庫為代表。它們的優(yōu)點(diǎn)是具有較多的基本功能,如檢索、卡片、打印等功能,有些還附加了日歷查詢、字典、音樂背景等附加功能。然而,它們都不允許對數(shù)據(jù)庫內(nèi)的文本錯誤進(jìn)行修訂、沒有圖表處理能力、不提供功能升級服務(wù)(某些軟件提供所謂新版本,實(shí)際上只是增加一些文獻(xiàn)文本,并未真正提升軟件服務(wù)功能)。而且由于各自為政,開發(fā)者大都采取自定義方法來自造非常用的生僻詞,因此各種數(shù)據(jù)庫之間字庫不能相互兼容。這一階段的古典文獻(xiàn)數(shù)據(jù)庫也有吸收第一階段數(shù)據(jù)庫有圖像的優(yōu)點(diǎn),如上述提及的《四庫全書》就附有圖像,以利研究者核對文字。該階段絕大多數(shù)數(shù)據(jù)庫注意到版權(quán)問題,但仍有一些數(shù)據(jù)庫在版權(quán)上出現(xiàn)較大問題,乃至引起法律糾紛。
  計(jì)算機(jī)技術(shù)廣泛地涉入文科研究領(lǐng)域,各種古典文獻(xiàn)數(shù)據(jù)庫紛紛建立,當(dāng)然給古典文獻(xiàn)整理與研究的現(xiàn)代化提供了極其有利的幫助,然而,在筆者看來,目前計(jì)算機(jī)技術(shù)在這一領(lǐng)域中的運(yùn)用形成紛亂無序的“戰(zhàn)國時代”,有許多亟待解決的問題,否則將會影響或說削弱計(jì)算機(jī)技術(shù)在古典文獻(xiàn)研究(乃至其它學(xué)術(shù)研究)中巨大作用。對此弊病,筆者擬作一概述,企望引起有關(guān)部門、數(shù)據(jù)庫開發(fā)者及使用者的重視,以期真正使計(jì)算機(jī)技術(shù)對古典文獻(xiàn)整理與研究起到更大的促進(jìn)作用。大致說來,主要問題有以下幾個方面:
  其一,缺乏整體領(lǐng)導(dǎo)與規(guī)劃,國家投資與收益不對稱。當(dāng)然,首先應(yīng)該看到,國家有關(guān)部門已經(jīng)著手做了一些規(guī)劃,也實(shí)施建立一些比較大的古典文獻(xiàn)數(shù)據(jù)庫,如2002年10月,國家科技圖書文獻(xiàn)中心受科技部的委托,牽頭聯(lián)合中國科技信息研究所、國家圖書館、上海圖書館、中科院圖書館、北京大學(xué)圖書館等單位,啟動了我國數(shù)字圖書館標(biāo)準(zhǔn)規(guī)范建設(shè)項(xiàng)目。這一項(xiàng)目的目的就是力圖建立我國比較統(tǒng)一和規(guī)范的數(shù)字圖書館標(biāo)準(zhǔn),自然也會對建立古典文獻(xiàn)數(shù)據(jù)庫有較大的借鑒與參考的價值。又如北京大學(xué)《中國基本古籍庫》、上海圖書館《古籍影像光盤制作及檢索系統(tǒng)》等等,也由國家有關(guān)部門投入大量資金,而且已經(jīng)啟動并完成了部分內(nèi)容。不過也應(yīng)該強(qiáng)調(diào),由于國家沒有制定出一個比較符合國內(nèi)數(shù)據(jù)庫發(fā)展?fàn)顩r的真正有價值的規(guī)范體系,因此這些項(xiàng)目的承擔(dān)者仍是各自為政,數(shù)據(jù)庫之間并不能兼容,不可能形成技術(shù)“合力”。再從所取得的社會效益或說實(shí)際使用價值來看,也不盡人意。因?yàn)橹两駷橹菇⒌母鞣N數(shù)據(jù)庫仍人為地設(shè)置許多障礙,無法使它們實(shí)現(xiàn)較大的使用價值。數(shù)據(jù)庫由國家投資,收益自然應(yīng)該歸國家,或者成為不收費(fèi)的公益數(shù)據(jù)庫,但目前收益既不歸國家,又未能成為公益數(shù)據(jù)庫,這不能不說是個極大的遺憾。實(shí)際上,數(shù)據(jù)庫制作者無償利用國家投資進(jìn)行了開發(fā),制作完成后卻獲得相當(dāng)豐厚的收益,使人感到有“國家投資,個別單位圖利”的印象。筆者不反對交納一定使用費(fèi)用,但收費(fèi)單位一定應(yīng)該說明收費(fèi)后去向,絕不允許產(chǎn)生國家投資而由個別單位乃至某些個人得利的情況。
  其二,開發(fā)商嗜利忘義,數(shù)據(jù)庫錯誤嚴(yán)重。除上述由國家投資開發(fā)的古典文獻(xiàn)數(shù)據(jù)庫外,還有一些有一定技術(shù)實(shí)力的軟件開發(fā)商加入到古典文獻(xiàn)數(shù)據(jù)庫的開發(fā)中來了。比較而言,各科研機(jī)構(gòu)、大專院校及各地圖書館建立的古典文獻(xiàn)數(shù)據(jù)庫質(zhì)量較高,而開發(fā)商則很少關(guān)注數(shù)據(jù)庫中的文獻(xiàn)質(zhì)量。我們承認(rèn)確有少量開發(fā)商制作的數(shù)據(jù)庫質(zhì)量較高,如迪志公司開發(fā)的《四庫全書》之類,然而象《四庫全書》這樣的數(shù)據(jù)庫確實(shí)鳳毛麟角,難以尋覓。我們發(fā)現(xiàn),甚至有些開發(fā)商僅僅是把文本進(jìn)行文字掃描導(dǎo)入,疏于校對,因此文本錯誤百出,難以卒讀。由于利益驅(qū)使,絕大多數(shù)開發(fā)商都以“獨(dú)自開發(fā)”為己任,數(shù)據(jù)庫設(shè)計(jì)相互保密,互不兼容,使用戶深感不便。這些問題已嚴(yán)重地影響到古典文獻(xiàn)數(shù)據(jù)庫的正常發(fā)展了。
  其三,熱門文獻(xiàn)數(shù)據(jù)重復(fù),冷門文獻(xiàn)數(shù)據(jù)罕見。雖說目前數(shù)據(jù)庫品種繁多,但由于考慮到使用者對文獻(xiàn)內(nèi)容的需求,因此許多開發(fā)者熱衷于開發(fā)那些熱門數(shù)據(jù),而一些比較冷門的文獻(xiàn)則鮮有人問津。實(shí)際上,冷門的文獻(xiàn)并非是沒有學(xué)術(shù)價值的文獻(xiàn),只是使用人較少而已。因而,目前不但數(shù)據(jù)庫中文獻(xiàn)內(nèi)容重復(fù)現(xiàn)象極為普遍,甚至同名同姓的數(shù)據(jù)庫也有不少,如《四庫全書》就出現(xiàn)了武漢大學(xué)版、上海人民出版社版等數(shù)種不同版本。且不說那些數(shù)量繁多、質(zhì)量也不甚高的數(shù)據(jù)庫浪費(fèi)了多少人力物力,其實(shí)也使用戶陷入無可適從、欲舍不能的境地。用戶往往為了某些少量文獻(xiàn)內(nèi)容不得不購買和安裝整個數(shù)據(jù)庫操作系統(tǒng),而且這些龐大的數(shù)據(jù)庫大量占據(jù)硬盤空間,導(dǎo)致計(jì)算機(jī)運(yùn)行速度大為減慢。而那些允許網(wǎng)上檢索的文獻(xiàn)數(shù)據(jù)庫又往往容量極大,上網(wǎng)檢索者多,導(dǎo)致“交通阻塞”!
  其四,技術(shù)關(guān)卡重重,難以互相兼容。各開發(fā)者既鑒于不同開發(fā)目的與技術(shù)條件,又為防止他人解密,因此在開發(fā)過程中在數(shù)據(jù)庫某些程序中人為設(shè)置技術(shù)障礙,以保障自己利益不受損害。自然,開發(fā)者需要投入大量人力物力,保障本身利益不受損害是無可非議的。然而也由于人為地設(shè)置了障礙,卻使各種文獻(xiàn)數(shù)據(jù)庫之間不能兼容,無法形成合力,先進(jìn)的技術(shù)反而成為技術(shù)壁壘。實(shí)際上,這一情況大大浪費(fèi)了寶貴的人力資源與財(cái)力,對古典文獻(xiàn)的開發(fā)與利用有百害而無一利。另外,由于技術(shù)壁壘,在古典文獻(xiàn)數(shù)據(jù)庫的文字方面更導(dǎo)致許多問題。我國古籍常用漢字大約為4萬余個,這還不包括超過2萬個異體字及數(shù)千甲骨文、金文等古文字。然而我國目前在計(jì)算機(jī)上采納的國標(biāo)字庫(GB)和擴(kuò)展字庫(GBK),兩者相加也只有27000余字,這與我國古籍常用漢字?jǐn)?shù)量相比,實(shí)在差距太大。因此,如此小的字庫與需求相比確實(shí)是捉襟見肘。為了彌補(bǔ)這一缺陷,一些軟件設(shè)計(jì)者就采取在自定義區(qū)自造字(乃至占據(jù)字庫中擴(kuò)展B的位置)、有些也用圖片方式來填字。而這些自造字、圖片字,拷貝到WORD文本之后,由于內(nèi)碼位置的差異就變成其它字了,從而導(dǎo)致文本錯誤。
  其五,功能單調(diào),難以真正為科研服務(wù)。建立較早的古典文獻(xiàn)數(shù)據(jù)庫功能比較單調(diào),只能做些簡單檢索、拷貝,沒有更為先進(jìn)的功能,不能適應(yīng)學(xué)術(shù)研究的需要。后來的一些古典文獻(xiàn)數(shù)據(jù)庫也存在類似問題,例如《四庫全書》的檢索功能,雖說可以采用添加“作者”、“書名”等限定條件,但檢索結(jié)果只是羅列一排出處,無法直觀地了解檢索到的具體內(nèi)容。而且《四庫全書》也沒有提供更多的功能給用戶,因此這一巨大的工程仍遠(yuǎn)遠(yuǎn)不能滿足用戶的需求。況且這一數(shù)據(jù)庫目前已經(jīng)“定型”,不再繼續(xù)開發(fā),使用戶對此深感遺憾。而其它古典文獻(xiàn)數(shù)據(jù)庫設(shè)計(jì)者的思維大多仍停留在“文本之爭”當(dāng)中,重復(fù)著原來設(shè)計(jì)思想的錯誤,沒有更多地開發(fā)為科研服務(wù)的有效功能,因此在筆者看來,這一做法顯然不可能真正擺脫古典文獻(xiàn)數(shù)據(jù)庫目前面臨著的困境。
  其六,學(xué)術(shù)圈地,使人心有余而力難用。解放后,一些國家級出版社化費(fèi)了極大的精力,組織專家點(diǎn)校了不少重要古籍,為學(xué)術(shù)研究的發(fā)展作出了極大貢獻(xiàn)。然而時至計(jì)算機(jī)時代的來臨,卻出現(xiàn)了“版權(quán)”的問題。一些制作者忽視了國家有關(guān)版權(quán)法規(guī),直接利用了一些出版社的成果來牟取經(jīng)濟(jì)利益,理所當(dāng)然地會產(chǎn)生版權(quán)糾紛。筆者以為,保護(hù)版權(quán)是每個學(xué)者乃至每個公民應(yīng)盡的責(zé)任,根本毫無討價還價的余地。然而問題是,現(xiàn)在一些出版社由于各種原因,沒有對自己已出版的點(diǎn)校過的古籍進(jìn)行開發(fā),而愿意開發(fā)這些古籍資源者卻無法涉入其中,導(dǎo)致他們處于既想開發(fā)這一寶藏又無法回避版權(quán)問題的尷尬境地,這就使眾多需要使用者望洋興嘆。如果有關(guān)出版社不愿授權(quán),那么想要開發(fā)這些古籍者只能返回到?jīng)]有標(biāo)點(diǎn)的原始文本中去。這種情況確實(shí)使每一個希望使用古典文獻(xiàn)數(shù)據(jù)庫的用戶感到極其失望,而且嚴(yán)重影響了古典整理與研究的現(xiàn)代化進(jìn)度。
  上述種種現(xiàn)實(shí)情況,已經(jīng)是制約計(jì)算機(jī)技術(shù)對古典文獻(xiàn)整理與研究支持的瓶頸了,如果不解決這些問題,計(jì)算機(jī)技術(shù)即使再發(fā)達(dá),恐怕也難以對古典文獻(xiàn)整理與研究予以真正意義上的支持與幫助。

三、如何解決古典文獻(xiàn)數(shù)據(jù)庫存在的問題

  古典文獻(xiàn)數(shù)據(jù)庫存在的問題是十分明顯的,那么如何解決這些問題,以利學(xué)術(shù)研究(當(dāng)然包括文獻(xiàn)研究)的迅速發(fā)展?筆者以為現(xiàn)在應(yīng)該設(shè)計(jì)和開發(fā)出新一代文獻(xiàn)數(shù)據(jù)庫的軟件。按照筆者設(shè)想,這代軟件應(yīng)該以建立能自由升級的公共古典文獻(xiàn)數(shù)據(jù)庫為目的,是一種以提供強(qiáng)大功能為主、徹底解決版權(quán)問題的數(shù)據(jù)庫,實(shí)際上是建立一個規(guī)模巨大的功能相對完善的學(xué)術(shù)研究資源庫。所謂公共古典文獻(xiàn)數(shù)據(jù)庫是綜合性數(shù)據(jù)庫,只能由國家有關(guān)部門作為主要規(guī)劃者,它應(yīng)該盡可能地包羅我國傳世古典文獻(xiàn)、碑刻資料和出土文獻(xiàn)等。在此基礎(chǔ)上允許建立適應(yīng)每個研究者研究范圍的個性化的文獻(xiàn)檢索服務(wù)系統(tǒng)。個性化的文獻(xiàn)檢索服務(wù)系統(tǒng)是指每個具體研究者所擁有的安裝在各自計(jì)算機(jī)上的文獻(xiàn)檢索服務(wù)系統(tǒng),它擁有一定數(shù)量的適合自己研究的范圍的古典文獻(xiàn)文本。其實(shí),各個研究者并不需要一個“包羅萬象”的規(guī)模極其巨大的數(shù)據(jù)庫,即使象占據(jù)6至7個G硬盤的《四庫全書》,具體到一個研究者真正需要的內(nèi)容并不是全部,而是其中一部分內(nèi)容。
  問題的關(guān)鍵在于公共古典文獻(xiàn)數(shù)據(jù)庫與個性化文獻(xiàn)檢索服務(wù)系統(tǒng)兩者之間的技術(shù)“契合”,即兩者互相兼容的程度。公共古典文獻(xiàn)數(shù)據(jù)庫應(yīng)該與個性化文獻(xiàn)檢索服務(wù)系統(tǒng)有所區(qū)別,公共古典文獻(xiàn)數(shù)據(jù)庫應(yīng)該側(cè)重于文獻(xiàn)數(shù)量的完善、完備,而個性化文獻(xiàn)檢索服務(wù)系統(tǒng)則應(yīng)該考慮其功能強(qiáng)大。因此,從本質(zhì)上說,公共古典文獻(xiàn)數(shù)據(jù)庫應(yīng)該是一個統(tǒng)一的設(shè)計(jì)比較周密、與其它個性化數(shù)據(jù)庫在技術(shù)上能實(shí)現(xiàn)良好兼容的的數(shù)據(jù)庫;而個性化文獻(xiàn)檢索服務(wù)系統(tǒng)應(yīng)該是“百花齊放”式的但必須能與公共古典文獻(xiàn)數(shù)據(jù)庫兼容而非各自為政的小型數(shù)據(jù)庫。兩者關(guān)系是源與流的關(guān)系。鑒于此,筆者以為目前應(yīng)該從兩個層次上來解決問題,一是盡快建立公共古典文獻(xiàn)數(shù)據(jù)庫;一是繼續(xù)開發(fā)個性化文獻(xiàn)檢索服務(wù)系統(tǒng)。
根據(jù)筆者近幾年的實(shí)踐,感到要解決這些問題并非不可能的。其實(shí)只要認(rèn)真對目前計(jì)算機(jī)技術(shù)在古典文獻(xiàn)整理與研究中存在的問題作一分析與梳理,重點(diǎn)突破一些瓶頸問題,應(yīng)該說是能解決上述這些問題的。那么怎么才能突破上述這些瓶頸呢?筆者以為以下幾個方面是值得考慮的。
  其一,加強(qiáng)總體規(guī)劃,建立公共古典文獻(xiàn)數(shù)據(jù)庫。作為一個具體單位來說,誰也沒有可能建立一個包羅萬象的古典文獻(xiàn)數(shù)據(jù)庫,因此,這只能由國家有關(guān)部門組織人力物力來完成。其實(shí),就目前來說,國家投入資金并不少,但由于制度原因,只是向某些重點(diǎn)院;蚩蒲袉挝、向重點(diǎn)項(xiàng)目投入巨資,而這些單位建立起各自為政的古典文獻(xiàn)數(shù)據(jù)庫、期刊數(shù)據(jù)庫,雖然也為學(xué)術(shù)研究作了一些貢獻(xiàn),但不可否認(rèn)的是,由于各自設(shè)計(jì)思路不同,相互之間不能兼容,已經(jīng)妨礙到數(shù)據(jù)庫進(jìn)一步發(fā)展了。以筆者愚見,國家有關(guān)部門應(yīng)該主動負(fù)起責(zé)來,加強(qiáng)領(lǐng)導(dǎo),重新考慮古典文獻(xiàn)數(shù)據(jù)庫的立項(xiàng)問題,組織力量、投入資金,真正建立起一個規(guī)模巨大、能為絕大多數(shù)研究者利用的公共古典文獻(xiàn)數(shù)據(jù)庫。同時也應(yīng)該考慮所立項(xiàng)的古典文獻(xiàn)數(shù)據(jù)庫與其它數(shù)據(jù)庫(如現(xiàn)代文獻(xiàn)數(shù)據(jù)庫、當(dāng)代文獻(xiàn)數(shù)據(jù)庫、期刊數(shù)據(jù)庫等)之間的兼容關(guān)系,只有這樣,或許若干年之后就能建立起一個價值極大的能真正為學(xué)術(shù)服務(wù)的公共古典文獻(xiàn)數(shù)據(jù)庫,乃至包羅一切文獻(xiàn)的數(shù)據(jù)庫。當(dāng)然,就公共古典文獻(xiàn)數(shù)據(jù)庫來說,可以進(jìn)行適量收費(fèi)服務(wù),但主要仍應(yīng)該定位在“公益”上,不以“利”為主,這樣才能真正建立一個有價值的公共古典文獻(xiàn)數(shù)據(jù)庫來。
其二,數(shù)據(jù)庫內(nèi)容與文獻(xiàn)檢索服務(wù)系統(tǒng)分離。這個問題與上述問題是緊密關(guān)聯(lián)在一起的,如果不能真正做到數(shù)據(jù)庫內(nèi)容與文獻(xiàn)檢索服務(wù)系統(tǒng)分離,那么目前“列國紛爭”的面貌是不可能真正解決的。
  我們知道,一個古典文獻(xiàn)數(shù)據(jù)庫實(shí)際上是兩大部分組成的,一是古典文獻(xiàn)數(shù)據(jù)庫內(nèi)容,即數(shù)據(jù)庫所包括的文獻(xiàn)文本,二是對這些數(shù)據(jù)進(jìn)行管理的文獻(xiàn)檢索服務(wù)系統(tǒng)。其實(shí)目前所見有關(guān)古典文獻(xiàn)數(shù)據(jù)庫都是“兩者合一”,即既包含一些文獻(xiàn)數(shù)據(jù)內(nèi)容,又有具體的操作服務(wù)系統(tǒng)。事實(shí)上,這些古典文獻(xiàn)數(shù)據(jù)庫在功能上明顯存在缺陷的。就目前古典文獻(xiàn)數(shù)據(jù)庫管理形式來說,一是網(wǎng)絡(luò)管理,一是個人管理。前者是網(wǎng)絡(luò)數(shù)據(jù)庫,一般是單位所擁有的數(shù)據(jù)庫,即我們所說的網(wǎng)絡(luò)版,后者是安裝在個人電腦中的個人版。就功能來說,網(wǎng)絡(luò)版沒有必要具有卡片、文本修訂、書簽等個性化的功能,個人版應(yīng)該具有做卡片、文本修訂、書簽、文獻(xiàn)管理等個性化的功能。就文獻(xiàn)數(shù)量來說,網(wǎng)絡(luò)版自然力求文獻(xiàn)內(nèi)容豐富,盡可能包羅文獻(xiàn)文本,而個人版實(shí)際所需要的文獻(xiàn)數(shù)量是根據(jù)各自研究需要而定的,因而強(qiáng)行“規(guī)定”使用所有文獻(xiàn)內(nèi)容并不值得肯定。就文獻(xiàn)內(nèi)容來說,網(wǎng)絡(luò)版與個人版都應(yīng)該允許不斷地增加其數(shù)據(jù)庫文獻(xiàn)內(nèi)容,但不同的是,網(wǎng)絡(luò)版應(yīng)該是只增不減,而個人版應(yīng)該允許用戶根據(jù)研究需要自由增減文獻(xiàn)內(nèi)容。
在筆者看來,應(yīng)該從單純的文本內(nèi)容競爭的思維中解脫出來,進(jìn)入以文獻(xiàn)檢索服務(wù)系統(tǒng)競爭為主,文本竟?fàn)帪檩o的體系,或許是解決古籍文獻(xiàn)數(shù)據(jù)庫的出路。也就是說,擅長計(jì)算機(jī)技術(shù)的開發(fā)者(開發(fā)商)應(yīng)該注重文獻(xiàn)檢索服務(wù)功能的開發(fā)與完善,而具體文本的整理可由研究學(xué)術(shù)的專業(yè)人士來完成。這樣,開發(fā)者就可能開發(fā)出比較成功的文獻(xiàn)檢索服務(wù)系統(tǒng),而數(shù)據(jù)庫中的文本也由于專業(yè)人士的加入而能大大提高文本的準(zhǔn)確率,然后合成為一個規(guī)模較大的公共古典文獻(xiàn)數(shù)據(jù)庫。當(dāng)然,輸入和整理古典文獻(xiàn)文本可以采用投標(biāo)(或以申報項(xiàng)目形式)來確定,規(guī)定統(tǒng)一格式,要求保證文本的正確率達(dá)到一定比例,完成后再分別導(dǎo)入這一公共古典文獻(xiàn)數(shù)據(jù)庫中;經(jīng)過若干年努力,最終能形成一個規(guī)模巨大、適應(yīng)于學(xué)術(shù)研究的公共古典文獻(xiàn)數(shù)據(jù)庫。我想,采取這種措施不但節(jié)省了大量重復(fù)投資,真正做到人盡其才,物盡其用,而且一旦建立起這個規(guī)模巨大的公共古典文獻(xiàn)數(shù)據(jù)庫,可以解決了目前數(shù)據(jù)庫泛濫、文本錯誤太多、重復(fù)勞動等弊病,而且真正能做到廣大學(xué)者對古典資源“共享共有”。
  在此基礎(chǔ)上,各個開發(fā)商可以力求開發(fā)學(xué)者們個性化的文獻(xiàn)檢索服務(wù)系統(tǒng),它無須考慮文獻(xiàn)文本內(nèi)容,但必須功能強(qiáng)大、操作方便,并與公共古典文獻(xiàn)數(shù)據(jù)庫完全兼容,學(xué)者們通過“購買”文本或其它方式來方便地組建自己的數(shù)據(jù)庫,這樣或許會給學(xué)術(shù)研究帶來真正的方便。
  還須補(bǔ)充的是,我國的古典文獻(xiàn)中有大量表格與圖片,而由于技術(shù)原因,目前所有古典文獻(xiàn)數(shù)據(jù)庫都沒有導(dǎo)入原著的表格與圖片,極個別數(shù)據(jù)庫有少量圖片也是不能檢索,這是目前眾多古典文獻(xiàn)數(shù)據(jù)庫的重大失誤之一。其實(shí)只要真正化力氣去探索,這個問題是不難解決的。因?yàn)楣P者曾作過設(shè)計(jì)并反復(fù)試驗(yàn),只要設(shè)計(jì)合理,圖片與表格不但可以導(dǎo)入數(shù)據(jù)庫,而且都是可以在數(shù)據(jù)庫中進(jìn)行檢索。
  其三,加速確定字庫方案,以利數(shù)據(jù)庫健康發(fā)展。當(dāng)然,要真正解決公共古典文獻(xiàn)數(shù)據(jù)庫問題,還必須解決字庫問題。目前,國家雖然組織專家在論證有關(guān)字庫問題,然而由于進(jìn)程不快,遠(yuǎn)遠(yuǎn)落后于當(dāng)今計(jì)算機(jī)技術(shù)發(fā)展的需要。按照筆者的看法,應(yīng)該建立一個以Unicode字庫為基礎(chǔ)的、適應(yīng)漢語古籍需要的、并與國際接軌的真正有中國特色的字庫。這就需要抓緊工作,迅速落實(shí)擴(kuò)展字庫B的內(nèi)碼。同時根據(jù)我國漢字的具體特點(diǎn),對自定義區(qū)域的6400字的內(nèi)碼配置也應(yīng)該有所規(guī)范,這樣才能使?jié)h語字庫統(tǒng)一問題落實(shí)到實(shí)處。如果真能做到如此,那么就能真正解決目前古典文獻(xiàn)數(shù)據(jù)庫之間字庫互不兼容問題。
  與字庫相關(guān)聯(lián)的是字體問題。古典文獻(xiàn)數(shù)據(jù)庫應(yīng)該考慮到古代文獻(xiàn)對文字的特殊需要,筆者以為凡是古代文獻(xiàn)數(shù)據(jù)庫中的文本應(yīng)該保留繁體字,以防繁簡不分而導(dǎo)致文義偏差。就目前計(jì)算機(jī)技術(shù)來說,解決這一問題是毫無困難的。其實(shí)用繁體字輸入文本早已不是問題,而掃描古籍文本再轉(zhuǎn)換成文字的技術(shù)也十分成熟,如北京書同文公司的“數(shù)碼翰林”O(jiān)CR識別系統(tǒng),應(yīng)該說是極有價值的識別軟件,對絕大多數(shù)繁體文字能夠正確識別。如果能再進(jìn)一步加以改進(jìn),使擴(kuò)充字庫數(shù)量并與Unicode字庫兼容,那么古代文獻(xiàn)的文字識別問題是可以得到解決的。應(yīng)該強(qiáng)調(diào)的是,古代文獻(xiàn)以繁體字導(dǎo)入數(shù)據(jù)庫,但應(yīng)該允許在數(shù)據(jù)庫中自由進(jìn)行繁簡轉(zhuǎn)換,換句話說,若需要使用繁體字時,文本可以保留繁體字,而需要簡體時,可以十分方便地轉(zhuǎn)換成簡體,這樣就適應(yīng)用戶對繁簡體的不同需要了。
  其四,徹底解決古典文獻(xiàn)版權(quán)問題。這是困撓計(jì)算機(jī)古典文獻(xiàn)數(shù)據(jù)庫建設(shè)的重要難題之一。自然,這一問題要真正得到落實(shí)確實(shí)存在相當(dāng)困難的,因?yàn)榘鏅?quán)保護(hù)工作任重道遠(yuǎn)!不過,即使困難再大,古籍文獻(xiàn)數(shù)據(jù)化的發(fā)展的潮流是不可能停止的。筆者以為,有關(guān)出版社在維護(hù)自身法定的版權(quán)權(quán)益的前提下,應(yīng)該從大局出發(fā),在收取一定數(shù)量的報酬前提下,允許制作有關(guān)古典文獻(xiàn)的數(shù)據(jù)庫,以利學(xué)術(shù)研究的發(fā)展。至于報酬多少可以也應(yīng)該實(shí)事求是地酌情商定,國家有關(guān)部門應(yīng)該主動與那些出版社協(xié)調(diào),亦可將目前大量分散投入到各課題中的資金中抽出部分來補(bǔ)償有關(guān)出版社,雙贏互利,以求突破版權(quán)瓶頸,早日解決這一棘手的問題。
  與此相關(guān)的是古典文獻(xiàn)電子文本的版權(quán)問題,這也是個極難處理的問題。因?yàn)橛脩羧糌潏D小利,版權(quán)意識不強(qiáng),不愿化費(fèi)代價使用電子文本,就容易產(chǎn)生“盜版”問題,如此就使得制作古典文獻(xiàn)電子文本者的正當(dāng)利益大受損失。按筆者設(shè)想,如果真正能夠由國家有關(guān)部門主管古典文獻(xiàn)數(shù)據(jù)庫建設(shè)工作,那么就可以設(shè)想建立公共古典文獻(xiàn)數(shù)據(jù)庫規(guī)定導(dǎo)入數(shù)據(jù)庫的文獻(xiàn)文本都給予一個“統(tǒng)一編號”,沒有統(tǒng)一編號的文獻(xiàn)就不能直接導(dǎo)入公共古典文獻(xiàn)數(shù)據(jù)庫和個人使用的文獻(xiàn)檢索服務(wù)系統(tǒng)中,也就是說,個人使用古典文獻(xiàn)電子文獻(xiàn)必須化費(fèi)一定的代價才能取得使用權(quán),這樣就可以保證制作古典文獻(xiàn)電子文本者的一定收益,防止版權(quán)意識不強(qiáng)者侵權(quán)使用。同時由于古典文獻(xiàn)電子文本都有了統(tǒng)一編號,那么也就可以防止某一具體文獻(xiàn)文本重復(fù)錄入的問題。即使有部分重復(fù),古典文獻(xiàn)電子文本也可以在用戶選擇過程中優(yōu)勝劣汰。
  其五,建立公平的交易平臺。建立龐大的公共古典文獻(xiàn)數(shù)據(jù)庫當(dāng)然需要投入巨大的資金,而這種古典文獻(xiàn)數(shù)據(jù)庫自然不是每一個普通研究者購買得起的。在筆者看來,大專院校、科研機(jī)構(gòu)應(yīng)該在經(jīng)濟(jì)允許的前提下購買有關(guān)數(shù)據(jù)庫,以供教學(xué)、研究之需。當(dāng)然也應(yīng)該允許個人在交納一定數(shù)量的經(jīng)費(fèi)后,自由上網(wǎng)使用這一數(shù)據(jù)庫,并允許購買(下載)一定數(shù)量的古典文獻(xiàn)文本,自行導(dǎo)入各自的文獻(xiàn)檢索服務(wù)系統(tǒng),以利建立個性化的有實(shí)用價值的數(shù)據(jù)庫。如果真能做到這樣的話,那么就將會促進(jìn)學(xué)術(shù)研究的迅速發(fā)展。
  鑒于此,筆者以為就有必要建立一個公平的交易交流平臺,既不是“就此一家,別無分店”的壟斷式的高價出售,又不是無論你需要不需要而進(jìn)行的“一攬子交易”式的硬性搭售。在筆者看來,應(yīng)該允許研究者自己輸入的文本在交易平臺上自由交易或交換。當(dāng)然,學(xué)者將自行輸入文本無償贈送給同行應(yīng)該予以鼓勵,事實(shí)上,在網(wǎng)上已經(jīng)可以看到一些學(xué)者將自己輸入的文本無償提供的例證。學(xué)術(shù)是公器,沒有必要象守財(cái)奴那樣守住這一私產(chǎn)。筆者不反對從網(wǎng)上下載一些有價值的文獻(xiàn)文本或其它資料作為自己研究所用,但反對下載文獻(xiàn)文本或資料后,通過各種方式去“變錢”,成為牟利的手段。
  其六,發(fā)展新興學(xué)科,培養(yǎng)專業(yè)人才。就目前來說,數(shù)據(jù)庫開發(fā)主要由計(jì)算機(jī)專業(yè)的人才來進(jìn)行,由于專業(yè)的局限,對文獻(xiàn)數(shù)據(jù)庫尤其是古典文獻(xiàn)數(shù)據(jù)庫的建設(shè)肯定有相當(dāng)?shù)母糸u,作為統(tǒng)籌解決這一問題,應(yīng)該考慮在有條件的學(xué)校中打破原有招生專業(yè),設(shè)計(jì)一個文理交叉學(xué)科:古典文獻(xiàn)與計(jì)算機(jī)技術(shù)(古典文獻(xiàn)現(xiàn)代化)專業(yè)。這個專業(yè)以培養(yǎng)古典文獻(xiàn)素養(yǎng)較好,計(jì)算機(jī)技術(shù)出色的社會急需的專門人才為目的。其實(shí)培養(yǎng)這樣的人才并非是很難的事。在現(xiàn)有的國內(nèi)一些招古典文獻(xiàn)學(xué)本科專業(yè)中增加有關(guān)計(jì)算機(jī)技術(shù)課程,化上一兩年時間讓學(xué)生專門學(xué)習(xí)計(jì)算機(jī)技術(shù),就可以培養(yǎng)出一些有用之才來。當(dāng)然,還可以以歷史文獻(xiàn)或古典文獻(xiàn)專業(yè)與計(jì)算機(jī)專業(yè)聯(lián)合招收碩士研究生,以應(yīng)急需。我想,這種適應(yīng)于現(xiàn)代社會需要的新型專業(yè)人才是肯定會受到社會歡迎的。

關(guān)鍵字:通訊,北京
About Us - 關(guān)于我們 - 服務(wù)列表 - 付費(fèi)指導(dǎo) - 媒體合作 - 廣告服務(wù) - 版權(quán)聲明 - 聯(lián)系我們 - 網(wǎng)站地圖 - 常見問題 - 友情鏈接
Copyright©2014安裝信息網(wǎng) www.78375555.com. All rights reserved.
服務(wù)熱線:4000-293-296 聯(lián)系電話:0371-61311617 傳真:0371-55611201 QQ: 郵箱:zgazxxw@126.com 豫ICP備18030500號-4
未經(jīng)過本站允許,請勿將本站內(nèi)容傳播或復(fù)制
安全聯(lián)盟認(rèn)證