光台包養網心得亮日報:國學年夜數據時代來了


  訪談嘉賓:

  趙敏俐(首都師范年夜學文學院傳授、中國詩歌研討中間主任)
  孫茂松(清華年夜學計算機科學與技術系傳授、中國中文信息學會副理事長)
  張 濤(北京師范年夜學易學文明研包養網 討院傳授、院長)
  尹小林(首都師范年夜學電子文獻研討所所長)

  特邀掌管人:

  杜曉勤(北京年包養 夜學中文系傳授、中國現代詩歌研討中間包養 副主任)

  掌管人:21 世紀進進第二個十年,信息技術獲得突飛猛進的發展。我們正在進進一個全方位的“年夜數據時代”,呈現出從“云計算”到“年夜數包養 據”的發展趨勢。這個發展趨勢不是虛空的,而是正在對社會生涯和學術研討產生著實實在在的嚴重影響。明天在座的都是中國古籍數字化事業的參與者和見包養網 證人。我們盼望通過這樣一個小型的討論,與廣年夜讀者一路分送朋友列位關于古籍收拾與國學研討若何應對“年夜數據時代”問題的思慮。

  趙敏俐:“年夜包養 數據時代”已經降臨了。它表現在各個領域,不僅僅是生產領域,還包含知識領域。“年夜數據時代”是一場反動,它不僅會促進經濟發展、科技進步,在文明領域也會起到宏大的感化。十七屆六中全會《關于深化文明體制改造、推動社會主義文明年夜發展年夜繁榮若干嚴重問題的決定》明確提出:“要加強文明典籍收拾和出書任務,推進文明典籍資源數字化建設。”我們應站在“年夜數據時代”這樣一個新的高度,來懂得和認識中心推進古籍數據化事業的戰略意義。

  掌管人:趙敏俐傳授,您是倡導古籍數字化的主要學者,並且已經掌管研制了一些古籍數據庫。請問您對“年夜數據時代”之“年夜”是若何懂得的?

  趙敏俐:我想,“年夜”應該包含兩個方面的內容。起首是規模上的“年夜”。按尹小林的提法,幾百萬到一千萬字的數據庫算是小型數據庫;幾千萬到一億字的數據庫算是中型數據庫;從一億字到十億字算是年夜型數據庫,超過十億字以上的應該算是超年夜型數據庫。

  另一方面包養網 是效能上的“年夜”。效能的強年夜是超年夜規模古籍數據庫很主要的標志。怎樣才幹算效能的強年夜?到今朝為止,我們雖然已經做了良多古籍數字化的任務,好比把古籍做了普通的簡單掃描,進庫后也可以進行普通的查找,實現了一部門效能,但這個效能和我們想做的超年夜規模古籍數據庫還有差距。依照我的懂得,超年夜規模古籍數據庫應該有這樣幾方面的特點:第一,因為它有超年夜規模的數據量,此中文獻種類和內容都很是豐富,有更年夜的包涵性。和過往中小規模數據庫只是某一個類別、某一個專題的內容比擬,通過這樣的數據庫進行綜合收拾之后,可以把更多更豐富的信息匯集在一路,可以獲得更多、更周全、更準確的資料,為研討者供給更多的方便。第二,超年夜規模古籍數據庫的建設因為有更多技術層面的支撐,所以能夠實現更多的效能,如對古籍的自動識別、自動標點、自動排版、智能檢索、智能剖析,可實現多種數據格局的轉換和輸出,可以滿足文、史、哲、經各學科研討所提出的各種特別需求,更能適應跨學科綜合研討的高級需求。只要具備了這樣兩個特點,才幹稱之為超年夜規模古籍數包養網 據庫。

  為什么“年夜”就會帶來一些效能上的衝破呢?好比說,關于“中國現代詩詞韻律的發展狀況”這一研討課題。一向以來,我們的幻想是把先秦、兩漢、魏晉南北朝到唐宋時代每一首詩、每一首詞的每一個字的讀音包養 、聲調、韻部等全都統計出來,由此再考核中國現代詩歌聲律的發展,弄清它們之間的變化。這在過往是不成能做到的。現在有了中國現代詩歌文本和現代漢語音韻數據庫,這樣的任務就可以做了。超年夜規模古籍數據庫的建設,可以使得學者們從那種很是沉重的翻檢古書的勞動當中騰出更多的時間,發現後人未能發現的課題,或許後人雖已發現但囿于精神和技術條件未能研討的課題,進行更多的創造性勞動。將人文社會科學的研討和現代科學技術手腕完善結合起來,是未來的發展標的目的。超年夜規模古籍數據庫所帶來的效能是不成比擬的,對于學術的發展和人文學科的建設的推動都是宏大的。

  再好比,《二十四史》的標點。這項任務從上世紀五十年月末開始,先后參與的專家學者上百人,歷時20年才得以完成。假如用同樣的傳統人工方法,來標點總字數是《二十四藍媽媽點了點頭,沉吟了半晌,才問道:“你婆婆沒有要求你做什麼,或者她有沒有糾正你什麼?”史》25倍的《四庫全書》,同樣人力需求任務500年時間,這顯然是不現實的。明天就紛歧樣了,借助于現代技術手腕來標點,效力可以進步50倍以上。也就是說,最多10年就可以完成《四庫全書》的標點收拾任務。並且在這期間,技術還會不斷進步,時間是以還會縮短。我們預計,用5到8年把這個任務完成,是有相當掌握的。

  孫茂松:應用現代信息技術,將傳統文明典籍以數字化“年夜數據”的情勢保存下來,并且發揚光年夜,正在日益惹起許多國家,特別是發達國家的重視。一個典範的例子是,由哈佛年夜學、麻省理工學院、Google和年夜英百科全書的專家學者組成的一個研討小組,2011年1月在有名的《科學》雜志發表了一篇題為《基于數以百萬計數字化圖書的文明定量剖析》的文章。該項任務應用Google Books中數字化質量比較高的超過500萬種圖書,時間跨度從公元1500年到公元2000年,規模總計5000億詞,此中英文3610億詞、法文450億詞、西班牙文450億詞、德文370億詞、中文130億詞、俄文350億詞,以及希伯來文20億詞(據估計,占人類有史以來出書圖書總種數的4%),借鑒基因組學(Genomics)的思緒,對這些圖書組成的“年夜數據”進行剖析,如發現單詞某人名在歷史文獻中隨時間變化的頻率,由此推導出人類文明的發展趨勢和演變規律。他們把這個全新的研討領域稱為“文明組學”(Culturomics)。這個例子表現了歷史文獻“年夜數據”建設與高程度研討的勝利結合。值得留意的是,Google Books中的中文圖書其實已經具有相當規模了,這顯然對我們構成了一種宏大壓力。還需求指出的一點,與現實世界中源源不斷產生的科研年夜數據、互聯網年夜數據、企業年夜數據、感知年夜數據比擬,歷史文獻年夜數據的總量規模要小得多,并且基礎上已經“固化”了,原則上不會產生新的數據,數字化一點就離目標近一點,只需我們本著“愚公移山”的精力,就必定可以完成中國古籍數字化的歷史重擔。

  掌管人:標點收拾《四庫全書》的藍圖真是令包養網人振奮。我在想,假如把它作為我們國家應對年夜數據時代的挑戰,一個率先建設的超年夜規模古籍數據庫,一個文明強國的龍頭工程,諸位專家認為會有怎樣的文明意義和社會影響?

  張 濤:《四庫全書》的收拾是一個意義不凡的年夜型項目。若何更好地閱讀和應用《四庫全書》,怎樣進一個步驟發掘其在各個方面的價值,實際上也是我們古典文獻學、歷史文獻學,特別是新興的數字文獻學學科建設和學術發展需求面對的一個主要課題。

  根據我對古籍的認識,《四庫全書》的版本,也就是庫本,其文獻價值不容低估包養網 。有許多主要典籍,庫本是最好的。而要深度發掘和廣泛應用庫本在學術研討、文明推廣、社會影響等方面的價值,就需求超年夜規模數據庫的建設。

  《易經》是群經之首。我們比來幾年一向在做易學典籍的收拾研討任務,此中一個主要項目就是與首都師范年夜學電子文獻研討所一起配合研發《中華易學全書》。這是一次年夜型專題數據庫建設,是古籍數字化的一個很好的示范項目,也是我們進一個步驟深入認識數字文獻學之價值和意義的一個主要切進點。

  《四庫》經部易類圖書共有158種,1757卷,2400多萬字,可謂集年夜成,都是經典中的經典。這說明四庫館臣的學術目光、文明修養和研討程度是值得欽慕和稱道的,而數據庫的建設又凸顯了這些易學典籍的價值。尤其現在是一個讀圖時代,需求有高清楚度的易圖。以前出書的時候,光易卦符號和易圖就很難弄好,現在首都師范年夜學電子文獻研討所把這個問題解決了。有了高清楚度的易圖,對易學研討者來說是一個年夜年夜的驚喜,此中的學術價值天然也是無須置疑的。

  別的我認為包養網 ,雖然《四庫全書》的紙質版印了這么多,但翻閱、查找極其未便。盡管現在已有可以檢索的電子版,但沒有標點收拾,存在不少問題。是以,超年夜規模古籍數據庫建設,先選擇《四庫全書》作為一個切進點,以后再選擇更多的文明經典,這是切實可行、簡捷高效的任務思緒,也合適學術研討的發展規律。

  國家請求中華文明應以更年夜的程序走出往,并不斷擴年夜活著界文明對話中的話語權,年夜規模古籍數據化正順應了這一請求,將年夜年夜助力中華文明的對外傳播,助力更好地搭建中外文明對話的橋梁,推動人類文明進一個步驟向前發展。

  孫茂松:可以預期,這個古籍數據庫一旦建成,將對推動我國的文明傳承事業發揮主要感化,尤其是為相關研討的開展供給堅實的數據基礎。我在後面講過,國際上基于歷史文獻數據庫開展的研討是結果眾多的。如哈佛年夜學和麻省理工學院的學者2007年10月在有名的《天然》雜志上發表的文章《語言演變動力學的定量化》,應用一“你真的不需要說什麼,因為你的表情已經說明了一切。”藍沐會意地點點頭。個規模近1800萬詞、跨度長達120“女孩就是女孩!”0年的英語歷時語料庫CELEX,通過定量剖析提醒了英語不規則動詞向規則動詞的演變規律。再如,多倫多年夜學的學者比來借助計算機統計技術對年夜約100多萬份中世紀英國的契據(此中年夜多數契據都沒有標來歲代)進行斷代:他們應用1萬份署豐年代的契據,考核所應用的語言隨時間的變化情況,以此來確定其他契據的年月,獲得了有價值的實驗結果。此外,從2007年開始,歐洲每年都舉辦包養網 “文明遺產、社會科學和人類學中的語言技術論壇”(LaTeCH),研討的話題包含:文明遺產、社會科學和人類學中的知識表現、知識發現和文本發掘、本體、數據模子和層級體系的包養 自動構建和標準化、語篇剖析、分歧來源、載體信息的鏈接和檢索等。我國在這方面的研討實際上是落后了,需求奮起直追。依托“超年夜規模古籍數據庫”,可做的工作有良多,如計算機自動作詩和集句、歷史文獻斷代和作者推斷、中國歷史典籍和古典文學作品的詞匯層語言加工、中國傳統文明本體體系和知識圖譜構建、中國傳統文明基因在現代生涯中應用狀況年“媽媽,我女兒沒說什麼。”藍玉華低聲說道。夜規模量化調查等,囿于時間關系,我在這里就不展開談了。

包養

  掌管人:尹所長,就今朝你們所把握的技術而言,對超年夜規模古籍數據庫建設的支撐性究竟若何,你們能夠建成一個怎樣規模的年夜數據庫?

  尹小林:超年夜規模古籍數據庫建設專業性很強,難度很是年夜,除了需求計算機硬件、軟件、網絡等現代信息技術外,還觸及到文字、版本、目錄、訓詁、音韻等多個學科。只要買通這些專業領域,才幹將時間跨度上千年、分歧地區的存世文獻整合在一個年夜系統下。為什么我們明天能夠提出這個問題?因為我們在建設超年夜規模古籍數據庫的焦點技術方面,已經獲得嚴重衝破。以前的一個數據庫為什么年夜多只要幾百萬字、幾千萬字,至少一兩億字?緣由就在于技術上缺乏一個環節,缺乏對超年夜規模數據進行加工整合的才能。

  具體需求哪些技術呢?起首需求一個龐年夜的字庫,這個字庫必須能夠把一切數據文獻中所用的分歧的字在統一個平臺上顯示。包養 現在的計算機字庫已有很年夜的改觀,Unicode有7萬多字,再加上一些造字,漢語存世古籍的字庫問題基礎上解決了。

  第二個問題是數據加工。過往十年,我國處理轉換的古籍大要已經有數十億字,如《四庫全書》有7億字,《中國基礎古籍庫》有20億字,這些古籍都已經完成了掃描識別轉換。但文字的數據化轉換,只是數據庫建設的第一個步驟。超年夜規模古籍數據庫不僅僅是數據量年夜,並且數據收拾和軟件效能也需求達到一個標準。超年夜規模古籍數據庫中的古籍文獻必須是經過標點收拾并進行正確標引的結構數據,這一環節的難度和工程量都很是年夜。傳統的人工古籍標點的任務量非常宏大,並且只要經過訓練的專業人員才幹做。按一個專家一年標點50萬字的任務量計算,假如建設一個10億字的超年夜規模古籍數據庫,需求100個專家連續任務20年。首都師范年夜學電子文獻研討所經過多年的潛心研討,在古籍自動標點技術上獲得了衝破,勝利開發了一套包養網 自動標點軟件。往年在二十四史和包養 唐宋詩文集上做了勝利的嘗試,完成了上億字現代文獻的自動標點,正確率達90%以上,具有很高的實用價值。

  掌管人:你們開發這一技術年夜致用了多長時間?

  尹小林:研制時間很長,從2003年算起,用了將近10年時間。本年年頭開始投進試用。經過測試,假如後期數據準備任務做好了,天天可以標點500萬字。

  除了自動標點,我們還開發完成了自動比對、自動排版軟件。這些技術的推廣應用,可以年夜幅度進步古籍收拾的質量和速率,整體上下降出書本錢。自動排版軟件還可應用于網絡出書和個性化出書。

  需求100年才幹完成的工作,我們很包養 難規劃;假如是5~8年就能完成的事,我們就可以計劃立項。中國歷史上著名的文明工程《四庫全書》的編撰,前后歷時十多年。除往搜集圖書、編寫目錄和確定版本的時間,僅正式抄寫一項,最多時就用了2000人,花了5年多時間。《四庫全書》收書達3400多種,都是中國文明史上的主要文獻,所有的標點收拾后,總規模將超過10億字。假如正式立項,標點收拾可在5至8年內完成。超年夜規模古籍數據庫不僅可在互聯網平臺上運行,還可廣泛應用于各種移動終端。特別值得一提的是:包養網 超年夜規模古籍數據庫投進應用,將進一個步驟進步古籍收拾出書的創新才能和程度,為現代個性化出書、網絡出書供給強年夜支撐。

  掌管人:孫傳授,從技術的角度,您對首都師范年夜包養網 學研發的古籍自動標點、自動比對、自動排版三項技術有什么評價呢?包養

  孫茂松:無疑,這三項技術對建設超年夜規模古籍數據庫都很是主要。剖析起來,其技術難度是有所區別的。比擬較而言,自動比對技術難度相對較小,但也很好天時用了計算機能夠對海量文本進行疾速查找、婚配的“自然”才能,而這一點恰好是人類才能之所短,因此可以非常顯著地晉陞比對效力;自動排版難度更年夜,需求將古籍排版知識引進到計算機算法中,可以認為是一個基于“排版知識”的古籍排版專家系統;自動標點最難,這需求在專家標點過的年夜規模古籍語料庫的支撐下,設計相應的計算機算法,才有能夠實現。其任務過程年夜體上是:計算機算法從標點過的年夜規模古籍語料庫中學習有關標點(句讀)的知識,據之對新的古籍語料進行標點,經過專家校對后的帶有標點的語料再補充到這個語料庫中,由計算機算法再行學習。經過這一次“輪回”,自動標點的機能會獲得晉陞。上述過程屢次迭代,便無望使得自動標點技術漸趨完美。錢鐘書師長教師在他修正過的一篇文章《電腦里的唐詩》中曾經講過一句很是深入的話:“能夠幫助人的電腦,需求人的更多幫助。”自動標點技術在必定水平上“呼應”了錢“這到底是怎麼回事,小心告訴你媽媽。”蘭媽媽的表情頓時變得凝重起來。師長教師的這個設包養 法。應該說,自動標點技術較為充足地反應了“年夜數據”的特點,即:經過標點加工的數據規模越年夜,自動標點的機能便越好,于是乎對年夜數據的標點效力就越高,其結包養 果是人工標點數據規模的進一個步驟擴年夜,構成了正反饋。

  掌管人:這三年夜焦點技術,讓首都師年夜電子文獻研討地點中國古籍數字化的途徑上有了獨領風騷的才能與實力。這一點令人欽佩。

  趙敏俐:首都師范年夜學早在2002年就開始了古籍數字化的建設過程,2003年景立了電子文獻研討所,2007年又成立了國學傳播中間。為了適應古籍數字化建設發展的需求,2013年,我們將國學傳播中間擴建為國學傳播研討院。在近十余年的時間內,首都師范年夜學在古籍數字化方面做包養網 了一系列的任務,獲得了有目共睹的成績。第一項任務是國學網的建設。國學網建于2000年,現在已經發展成世界著名的中國文明網站,在國內外的人文社會科學研討領域里具有廣泛的影響。國學網的勝利建設,顯示了數字化技術下的網絡文明傳播的宏大潛力與功能。第二項任務是數據庫的建設。我們開發研制的《國學寶典》,從一開始就摸索與國內相關研發機構分歧的古籍數字化方法。其焦點是將浩如煙海的古籍一部一部、一字一字地錄進計算機系統,為今后日益先進的古籍數字化技術供給堅實的基礎,走可持續發展之路。在此基礎上,我們從2002年開始,聯合國內四所高校開發了具有多種效能的《中國現代文學電子史料庫》,匯集了將近2億字擺佈的文獻資料。第三項任務是學科建設。我們從20包養 07年包養 開始,在國內高校設立了第一個以古籍數字化為研討對象的穿插學科——數字文獻學,獲得了北京市教委的支撐,被列為北京市重點學科。這是北京市所建設的第一個人理科學和天然科學的重點穿插學科。2013年9月,第一屆數字文獻學研討生包養網 進校,這在國內也開了先例。人才的培養,必將為“年夜數據庫時代”的中國傳統文明建設供給長久的、堅實的支撐。

  我們的盡力獲得了國務院有關領導的高度確定,教導部領導唆使首都師范年夜學在以往獲得結果的基礎上,聯合全國高級院校、各年夜圖書館,在年夜數據庫的建設方面做出新的成績,要在全國起引領感化。我們為此深受鼓舞,今后將進一個步驟加速年夜數據庫的建設,以適應世界范圍“年夜數據時代”已經到來的形勢,為全國的人文社會科學發展,繁榮社會主義文明作出應有的貢獻。

  掌管人:列位專家的發言,使我們對超年夜規模古籍數據庫的建設充滿信念。當然,這一工程是浩蕩的,面臨良多現實的困難。那么,還有哪些問題需求獲得解決呢?

  尹小林:假如這個項目能變成一個國家工程,動員全國高校的古籍收拾氣力,有充分的經費保證,完成這個項目則指日可待。總的來說,需求三個方面的條件:第一,要有觀念上包養 的衝破。堅決打破古籍數據庫建設“小、散、亂”,各自為政的形式,構成學術共識。第二,要有體制上的變革。單純的商業形式或完整的當局立項,都難以完成這一宏大的文明工程。沒有高校和學術界的支撐,這項工程無法達到所需的質量;沒有企業高效力的治理形式,結果難于推廣,無法發揮持續的影響力。政企結合,是一個高效公道的形式。第三,要有政策上的支撐。年夜型古籍數據庫建設觸及到許多新情況、新問題,若何處理國家和個人、部分與全局、保護與創新的關系,需求有關部門制訂相應政策,攙扶和鼓勵這一產業的安康發展。我們正處于一個偉年夜的時代,需求產生偉年夜的作品,創造偉年夜的結果。

  掌管人:這也就是說,比起技術手腕來,現在更需求決策者的決心。這項工程單純依附一個高校的一個學術機構確實是難以完成的,需求多學科多個相關單位的共同努力,現代文史研討界和計算機信息化處理相關領域的一起配合,以及國家政策的配套,科研基金項目標支撐等等,這樣的一些條件假如都具備了,超年夜規模古籍數據庫的建設就能夠開展得比較順利。

  尹小林:的確,超年夜規模古籍數據庫建設是一個年夜型文明工程,非一己之力、一家之力、一時之力可以完成。像《中華年夜典》《清史》蔡修沖她搖頭。《儒躲》都動員了全國的專家學者,這個項目規模比《儒躲》《子躲》都要年夜得多,將來出來的結果也會年夜得多。

刊于《光亮日報》2包養網 013年9包養網 月16日第15版