打造"威尼斯時(shí)光機(jī)" 機(jī)器學(xué)習(xí)重現(xiàn)古城歷史

時(shí)間:2017-08-28

來源:網(wǎng)絡(luò)轉(zhuǎn)載

導(dǎo)語:默默矗立在意大利威尼斯的圣方濟(jì)會(huì)榮耀圣母教堂有著"威尼斯萬神殿"之稱。這座14世紀(jì)的古老教堂于1815年被改為威尼斯國家檔案館,里面存放著這座城市幾千年厚重的歷史。

默默矗立在意大利威尼斯的圣方濟(jì)會(huì)榮耀圣母教堂有著"威尼斯萬神殿"之稱。這座14世紀(jì)的古老教堂于1815年被改為威尼斯國家檔案館,里面存放著這座城市幾千年厚重的歷史。

海量的地圖、手稿和專著,以及威尼斯一代又一代的官方文件,都堆放在總長(zhǎng)超過80千米的書架上。但可惜的是,其中大部分都沒有被現(xiàn)代歷史學(xué)家閱讀過。由于年代久遠(yuǎn),很多文檔(如一些遺囑和手寫稿)已經(jīng)無法閱讀,因?yàn)橐唤?jīng)打開就會(huì)被損毀。

如今,一項(xiàng)雄心勃勃的新計(jì)劃正致力于發(fā)掘這座巨大檔案庫的秘密,并用數(shù)字化手段重建它所描述的那個(gè)威尼斯。

水城的黃金年代

威尼斯值得科學(xué)家們投入大量時(shí)間和精力,因?yàn)樗鼡碛写罅繕O具歷史價(jià)值、保存有序的文件。公元5世紀(jì),羅馬帝國公民為逃避入侵,南下建立了威尼斯。具有戰(zhàn)略優(yōu)勢(shì)的地理位置,使它成為西歐與東方的重要貿(mào)易樞紐,積累了大量財(cái)富和力量。

威尼斯在逐漸壯大的同時(shí),也建立起多套行政系統(tǒng),記錄了大量信息:誰在哪里居住,每一艘進(jìn)出港灣的船只的信息,還有每一次對(duì)建筑或運(yùn)河的改造?,F(xiàn)代銀行業(yè)起始于里亞爾托(威尼斯最古老的地區(qū)之一),那里的公證人記錄了所有的貿(mào)易交流和金融交易。

重要的是,這些記錄歷經(jīng)動(dòng)蕩的幾個(gè)世紀(jì)仍被保留了下來。在圣方濟(jì)會(huì)榮耀圣母教堂被改為威尼斯國家檔案館之后的幾十年里,所有的國家行政文件都被轉(zhuǎn)移至此,包括死亡登記簿、醫(yī)療記錄、公證記錄、地圖和建筑平面圖、專利登記簿及其他各式各樣的文檔,有些甚至來自意大利其他地方。其中意義重大的是來自歐洲和奧斯曼帝國的大使報(bào)告,這些獨(dú)一無二的資料為后人提供了當(dāng)時(shí)日常生活的詳細(xì)信息。大多數(shù)檔案都由拉丁文或威尼斯方言寫成,現(xiàn)代歷史學(xué)家從未讀過它們。

打造"威尼斯時(shí)光機(jī)"

瑞士洛桑聯(lián)邦理工學(xué)院(EPFL)數(shù)字人文科學(xué)實(shí)驗(yàn)室主管、計(jì)算機(jī)科學(xué)家弗雷德里克?卡普蘭致力于將人工智能(AI)應(yīng)用于人文科學(xué),尤其是語言學(xué)。他用AI搜索幾個(gè)世紀(jì)的新聞報(bào)道,尋找詞匯和詞組的使用規(guī)律,并借此建立了語言演化模型。他一直都渴望在某個(gè)擁有數(shù)百年檔案的歐洲城市,應(yīng)用這些技術(shù)來建造一臺(tái)時(shí)光機(jī)。

卡普蘭清楚地記得在2012年第一次走進(jìn)檔案館的場(chǎng)景。時(shí)間在這個(gè)擁有300多個(gè)房間的建筑中凝固了,里面既沒有空調(diào)也沒有暖氣;易碎的文件從地面一直堆到天花板,泛黃的紙張碎片時(shí)不時(shí)地從邊緣飄落。"我被眼前的場(chǎng)景震驚了。"他說,"見到上千年的檔案卻無法閱讀它們,我當(dāng)時(shí)就下定決心要做這個(gè)項(xiàng)目。"

威尼斯國家檔案保管員習(xí)慣于傳統(tǒng)的保護(hù)辦法,一開始并沒有接受這個(gè)想法。但是不到一年,他們就決定與卡普蘭以及一些歷史學(xué)家和檔案保管員開展跨學(xué)科全力合作。

"威尼斯時(shí)光機(jī)"項(xiàng)目致力于幫助研究者獲取存儲(chǔ)在威尼斯國家檔案館的大量數(shù)據(jù),每一頁文檔都要經(jīng)過掃描和數(shù)字化。通過這架虛擬的時(shí)光機(jī),現(xiàn)代歷史學(xué)家和公眾便能探索古代威尼斯書面文檔提供的數(shù)據(jù)集,內(nèi)容將涵蓋從貿(mào)易和金融市場(chǎng),到公共衛(wèi)生和疾病傳播的方方面面。為"威尼斯時(shí)光機(jī)"項(xiàng)目研發(fā)出的技術(shù),也可應(yīng)用于其他古老的檔案庫,為觀察過去打開一扇扇細(xì)致入微而又富于啟迪的窗戶。

自動(dòng)讀取古老手稿

在"威尼斯時(shí)光機(jī)"到來之前,威尼斯國家檔案館已經(jīng)開始了一項(xiàng)由意大利文化遺產(chǎn)部支持的數(shù)字化項(xiàng)目--自2006年起,一架特制的大型掃描儀開始對(duì)檔案館中超過3000幅的意大利城鎮(zhèn)地圖進(jìn)行數(shù)字化,其中許多是由拿破侖下令繪制的,可謂是鎮(zhèn)館之寶。

但對(duì)檔案中大量的手寫稿來說,普通的文字識(shí)別掃描軟件根本無法勝任精確的識(shí)別工作。"威尼斯時(shí)光機(jī)"項(xiàng)目能脫穎而出,依托的是新穎的技術(shù):既有能夠?qū)⑹謱懳募D(zhuǎn)變?yōu)閿?shù)字化文本的適應(yīng)算法,還有頂級(jí)的高速掃描儀。

其中一臺(tái)掃描儀有一條機(jī)械臂,能夠翻開書頁;還有一臺(tái)是壯觀的旋轉(zhuǎn)式掃描儀,它有一個(gè)兩米寬的轉(zhuǎn)臺(tái),技術(shù)人員能夠面對(duì)面站在兩邊,同時(shí)向其中添加多本A3大小的文檔。這些掃描儀組成一道流水線,每小時(shí)生成幾千張高清圖片,這些以兆兆字節(jié)計(jì)的信息被傳送到威尼斯的服務(wù)器進(jìn)行長(zhǎng)期存儲(chǔ),同時(shí)也被傳送到洛桑,那里的高性能計(jì)算機(jī)將圖片轉(zhuǎn)為可以加注釋的數(shù)字文本。

自動(dòng)讀取古老的手寫稿是一個(gè)巨大的挑戰(zhàn)。標(biāo)準(zhǔn)的字符識(shí)別軟件能一個(gè)字母一個(gè)字母(無論字體是什么)地讀取印刷本,使它們變成可搜索的文本。但是這并不適用于手寫稿,因?yàn)槌瓕憜T書寫的單個(gè)字母形狀差異巨大,并且隨著時(shí)間推移而發(fā)生變化。

在"威尼斯時(shí)光機(jī)"項(xiàng)目中,卡普蘭運(yùn)用了一種叫"機(jī)器學(xué)習(xí)"的方法來識(shí)別整個(gè)詞的形狀。機(jī)器學(xué)習(xí)依賴于能在搜集數(shù)據(jù)樣本的過程中修改自身規(guī)則和行為的算法,每一次的新體驗(yàn)會(huì)提升算法的能力。時(shí)光機(jī)的算法能夠分析書面文字的結(jié)構(gòu),并找出看起來相似的圖形,在兩者之間建立關(guān)聯(lián)。所以,用戶可以從某個(gè)文檔中挑選一個(gè)名字,然后要求系統(tǒng)找出同樣的名字在數(shù)據(jù)庫所有其它手稿中出現(xiàn)的位置。

在不同文件之間進(jìn)行匹配、交叉引用人名,意味著研究者能建立起威尼斯的社會(huì)關(guān)系網(wǎng)絡(luò),而地圖中包含的數(shù)據(jù)則能幫助他們重建威尼斯建筑建造(有時(shí)還有倒塌)的過程。接下來,研究者可以將地圖中的信息與歷史上的繪畫和現(xiàn)代的照片進(jìn)行交叉比對(duì),將這些畫面和那些看似平凡無奇的商業(yè)文書結(jié)合起來,這意味著歷史學(xué)家們可以重建出威尼斯在歷史上幾乎任何時(shí)間點(diǎn)的城市細(xì)節(jié)。

研究人員目前正在開發(fā)一種可掃描未打開書本的頂級(jí)掃描儀。這個(gè)概念基于醫(yī)學(xué)中的CT掃描技術(shù)---從不同角度拍攝X光照片,然后一層一層疊加,構(gòu)建身體內(nèi)部的3D圖像。目前,EPFL的科學(xué)家正在對(duì)該概念進(jìn)行完善,他們希望通過分析古代墨水的成分,找出能夠用來當(dāng)作X光造影劑的分子??ㄆ仗m說:"這種斷層掃描儀投入實(shí)際運(yùn)用或許還需要五年以上的時(shí)間,它將能實(shí)現(xiàn)無損掃描,且掃描速度更快。"

更多資訊請(qǐng)關(guān)注工業(yè)機(jī)器人頻道

中傳動(dòng)網(wǎng)版權(quán)與免責(zé)聲明:

凡本網(wǎng)注明[來源:中國傳動(dòng)網(wǎng)]的所有文字、圖片、音視和視頻文件,版權(quán)均為中國傳動(dòng)網(wǎng)(www.wangxinlc.cn)獨(dú)家所有。如需轉(zhuǎn)載請(qǐng)與0755-82949061聯(lián)系。任何媒體、網(wǎng)站或個(gè)人轉(zhuǎn)載使用時(shí)須注明來源“中國傳動(dòng)網(wǎng)”,違反者本網(wǎng)將追究其法律責(zé)任。

本網(wǎng)轉(zhuǎn)載并注明其他來源的稿件,均來自互聯(lián)網(wǎng)或業(yè)內(nèi)投稿人士,版權(quán)屬于原版權(quán)人。轉(zhuǎn)載請(qǐng)保留稿件來源及作者,禁止擅自篡改,違者自負(fù)版權(quán)法律責(zé)任。

如涉及作品內(nèi)容、版權(quán)等問題,請(qǐng)?jiān)谧髌钒l(fā)表之日起一周內(nèi)與本網(wǎng)聯(lián)系,否則視為放棄相關(guān)權(quán)利。

關(guān)注伺服與運(yùn)動(dòng)控制公眾號(hào)獲取更多資訊

關(guān)注直驅(qū)與傳動(dòng)公眾號(hào)獲取更多資訊

關(guān)注中國傳動(dòng)網(wǎng)公眾號(hào)獲取更多資訊

最新新聞
查看更多資訊

娓娓工業(yè)

廣州金升陽科技有限公司

熱搜詞
  • 運(yùn)動(dòng)控制
  • 伺服系統(tǒng)
  • 機(jī)器視覺
  • 機(jī)械傳動(dòng)
  • 編碼器
  • 直驅(qū)系統(tǒng)
  • 工業(yè)電源
  • 電力電子
  • 工業(yè)互聯(lián)
  • 高壓變頻器
  • 中低壓變頻器
  • 傳感器
  • 人機(jī)界面
  • PLC
  • 電氣聯(lián)接
  • 工業(yè)機(jī)器人
  • 低壓電器
  • 機(jī)柜
回頂部
點(diǎn)贊 0
取消 0