撰寫(xiě)新聞稿已經(jīng)不再是人的專(zhuān)屬權(quán)利了。7月初,美聯(lián)社宣布,將從本月起開(kāi)始利用美國(guó)自動(dòng)化洞察力公司的寫(xiě)稿軟件,自動(dòng)撰寫(xiě)長(zhǎng)度介于150字至300字美國(guó)公司收益稿件。借助這款軟件,美聯(lián)社每個(gè)季度產(chǎn)出的財(cái)報(bào)新聞數(shù)量將從300條上升到4400條。除此之外Yahoo、體育機(jī)構(gòu)NFL也在使用機(jī)器人撰寫(xiě)簡(jiǎn)單的新聞??窗?,機(jī)器人開(kāi)始挑戰(zhàn)紙媒記者了!
機(jī)器人寫(xiě)了條短消息
美聯(lián)社并不是第一個(gè)吃螃蟹的人。機(jī)器人介入新聞生產(chǎn)早已有跡可循。
今年3月17日,美國(guó)洛杉磯附近發(fā)生了里氏4.4級(jí)地震?!堵迳即墪r(shí)報(bào)》在地震發(fā)生半小時(shí)后,通過(guò)網(wǎng)站發(fā)布了全世界第一條地震簡(jiǎn)訊。
這條100字的短消息,是由一個(gè)名為Quakebot的機(jī)器人創(chuàng)作的。從創(chuàng)作到發(fā)布,前后只用了3分鐘。
《LongGoodRead》是一份由英國(guó)《衛(wèi)報(bào)》和報(bào)紙俱樂(lè)部聯(lián)手打造的新媒體報(bào)紙。在它的生產(chǎn)過(guò)程中,機(jī)器人成了當(dāng)之無(wú)愧的主角。
編輯只需處理鏈接、文字和圖像,然后安心撒手,把剩下的一切都交給一個(gè)ARTHR半自動(dòng)頁(yè)面處理程序工具。它會(huì)負(fù)責(zé)自動(dòng)排版。
機(jī)器人甚至能提供報(bào)紙的私人定制。
“報(bào)紙俱樂(lè)部”是一家致力于DIY印刷出版物的公司。它的設(shè)想是,讓任何人都能策劃、設(shè)計(jì)自己的報(bào)紙。該俱樂(lè)部為許多人制作過(guò)婚禮紀(jì)念冊(cè)式的報(bào)紙,還為博主們制作過(guò)以博客內(nèi)容為主的精美印刷品。
從整理數(shù)據(jù)到稿件創(chuàng)作,從版面設(shè)計(jì)再到報(bào)紙私人定制,這一批機(jī)器人先鋒隊(duì)慢慢深入媒體這個(gè)大后方。
那么,機(jī)器人到底是如何實(shí)現(xiàn)“寫(xiě)稿”的呢?
機(jī)器人是如何寫(xiě)稿的
“機(jī)器人寫(xiě)作,本質(zhì)上是信息技術(shù)創(chuàng)造信息的過(guò)程。”宏博知微CEO、中科院研究人員于霄告訴本報(bào)記者,他曾負(fù)責(zé)國(guó)內(nèi)早期最大的工業(yè)大數(shù)據(jù)平臺(tái)研發(fā)。知微則是國(guó)內(nèi)較早的一家專(zhuān)注于社交媒體大數(shù)據(jù)領(lǐng)域的社會(huì)網(wǎng)絡(luò)數(shù)據(jù)挖掘聯(lián)合實(shí)驗(yàn)室,與多家門(mén)戶(hù)網(wǎng)站合作,負(fù)責(zé)提供社會(huì)突發(fā)事件的輿情分析。
這里的“信息技術(shù)”指的是“算法”。機(jī)器人寫(xiě)作的過(guò)程就像是進(jìn)行函數(shù)運(yùn)算,只要把數(shù)據(jù)輸入到函數(shù)公式中,就可以得出結(jié)果。
而“算法”就是那個(gè)公式。
在機(jī)器人寫(xiě)作中,編程者需要先設(shè)計(jì)一個(gè)算法模型,然后將搜集到的原始數(shù)據(jù)輸入,最后,機(jī)器根據(jù)算法自動(dòng)生成一篇稿件。
一篇數(shù)據(jù)新聞的生產(chǎn)流程是這樣的:設(shè)計(jì)一個(gè)算法模型,利用算法快速搜集網(wǎng)絡(luò)上與事件相關(guān)的信息,把信息匯總到知識(shí)庫(kù)中,提煉知識(shí)庫(kù)中有價(jià)值的信息,根據(jù)挑選出來(lái)的信息自動(dòng)形成一篇數(shù)據(jù)報(bào)道。最后的這篇報(bào)道將呈現(xiàn)事件的來(lái)龍去脈和多元的大眾觀點(diǎn)。
對(duì)于一篇視角普通的數(shù)據(jù)新聞來(lái)說(shuō),從數(shù)據(jù)搜索到最終生成只需幾小時(shí)甚至幾分鐘。在這整個(gè)過(guò)程中,只需用到1位員工。
“可以這么說(shuō),報(bào)道的95%都是由算法操作完成,剩下的5%指的是檢驗(yàn)、查錯(cuò),確保品質(zhì),這得靠人工。”于霄介紹道,“你也完全可以把它叫做純自動(dòng)化生產(chǎn)。如果不考慮質(zhì)量,0個(gè)人都是可以的,只要有人操作計(jì)算接口的啟動(dòng)按鈕。”
機(jī)器人讓寫(xiě)作變簡(jiǎn)單
算法的存在讓機(jī)器人寫(xiě)作變得簡(jiǎn)單而迅捷。
你要做的只是把數(shù)據(jù)“套”進(jìn)去,然后坐等成品產(chǎn)出。甚至還沒(méi)等你完成“坐”這個(gè)動(dòng)作,一篇稿子就出爐了。
機(jī)器人寫(xiě)作的這種快速、大量地處理數(shù)據(jù)的核心優(yōu)勢(shì),是像“模子”一樣的算法所賦予的。但模子也意味著標(biāo)準(zhǔn)化生產(chǎn)。
算法模型的固定性注定機(jī)器人寫(xiě)作與“生動(dòng)”無(wú)緣。
“機(jī)器人寫(xiě)作適用于具有固定模式,勞動(dòng)特征有重復(fù)性的新聞報(bào)道,比如說(shuō)財(cái)務(wù)報(bào)告。”于霄這樣認(rèn)為。
事實(shí)也確實(shí)如此。到目前為止,機(jī)器人寫(xiě)作主要用于金融、體育這些比較“機(jī)械化”的新聞報(bào)道。
算法不是萬(wàn)能鑰匙。一種算法無(wú)法打開(kāi)所有新聞的大門(mén)。
不同類(lèi)別的新聞要設(shè)計(jì)不同的算法。金融新聞?dòng)幸惶姿惴P?,體育新聞則有另外一套,無(wú)法通用。
搭建算法模型的時(shí)間要根據(jù)它的復(fù)雜程度而定。“簡(jiǎn)單的模型可能只需幾分鐘,復(fù)雜的可能需要幾年,甚至更長(zhǎng)。”于霄說(shuō)。
算法的搭建當(dāng)然離不開(kāi)硬件。搭建一個(gè)算法模型所需的硬件設(shè)備視乎數(shù)據(jù)量的大小、對(duì)時(shí)效性的要求而定,“時(shí)效性要求不高,且要處理的數(shù)據(jù)量不大的,可能三臺(tái)機(jī)器就能完成,不然幾萬(wàn)臺(tái)都是需要的。”
機(jī)器人寫(xiě)作路還很長(zhǎng)
機(jī)器人寫(xiě)手來(lái)了,會(huì)導(dǎo)致記者失業(yè)嗎?
身為“技術(shù)樂(lè)觀派”的于霄認(rèn)為,這在非常遙遠(yuǎn)的未來(lái)有可能會(huì)發(fā)生,但是當(dāng)前絕無(wú)可能,“機(jī)器人寫(xiě)作會(huì)對(duì)簡(jiǎn)單的、重復(fù)性的新聞寫(xiě)作造成沖擊,但是創(chuàng)作型文字記者完全沒(méi)有必要擔(dān)心。因?yàn)闄C(jī)器人寫(xiě)作擅長(zhǎng)的是結(jié)構(gòu)化數(shù)據(jù)的處理,在非結(jié)構(gòu)化數(shù)據(jù)方面,比如語(yǔ)言、語(yǔ)義上的處理能力還是很弱的。”
浙江大學(xué)新聞傳媒與社會(huì)發(fā)展研究所副所長(zhǎng)沈愛(ài)國(guó)與于霄見(jiàn)解一致。他也認(rèn)為,在相當(dāng)長(zhǎng)一段時(shí)間內(nèi),機(jī)器人寫(xiě)作是不可能取代記者的。
“機(jī)器是冷冰冰的,但新聞是有溫度的。人與機(jī)器的最大區(qū)別在于人有主觀能動(dòng)性,有自主意識(shí),有情感,有價(jià)值判斷。雖然機(jī)器的智能化程度越來(lái)越高,但是它無(wú)法對(duì)肉眼所見(jiàn)的生動(dòng)場(chǎng)景、對(duì)采訪對(duì)象的情緒進(jìn)行把握。”沈教授表示。
“機(jī)器人寫(xiě)作還有很長(zhǎng)的路要走”,這幾乎是一種共識(shí)。但是,這條路該怎么走,至今還沒(méi)有明確的技術(shù)方向。
唯一能肯定的是,面對(duì)機(jī)器人寫(xiě)手,記者需要有所轉(zhuǎn)變。
“記者應(yīng)當(dāng)回歸‘到現(xiàn)場(chǎng)’的本位,花更多的時(shí)間深入現(xiàn)場(chǎng)進(jìn)行采訪,捕捉現(xiàn)場(chǎng)生動(dòng)的細(xì)節(jié)。”沈教授建議,“記者還應(yīng)該把更多的精力放在報(bào)道深度的挖掘上。因?yàn)閷?duì)錯(cuò)綜復(fù)雜事件的深度分析,尤其是前因后果的把握、觀點(diǎn)碰撞的解析,是電腦模板無(wú)法完成的。”