受惠于互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)的迅猛發(fā)展,數(shù)據(jù)正以前所未有的速度巨量生成,海量的數(shù)據(jù)資源由此產(chǎn)生。大數(shù)據(jù)資源日漸成為國家與社會(huì)的基礎(chǔ)性戰(zhàn)略資源,推動(dòng)世界大步邁向大數(shù)據(jù)時(shí)代。因應(yīng)于此,法律機(jī)關(guān)、尤其是司法機(jī)關(guān)大力推進(jìn)部門信息的電子化、數(shù)字化、公開化,使得法律大數(shù)據(jù)逐漸興起并進(jìn)入公眾視野。
法律大數(shù)據(jù)的出現(xiàn),使得基于法律大數(shù)據(jù)的司法實(shí)踐與新型實(shí)證研究成為可能,并可能帶來法學(xué)研究方式的革命性變化。這種可能性源于大數(shù)據(jù)所具有的獨(dú)特優(yōu)勢:(1)數(shù)據(jù)的“全樣本性”。大數(shù)據(jù)通常是特定領(lǐng)域的全面數(shù)據(jù),具有數(shù)量巨大與內(nèi)容全面之特性。基于全樣本數(shù)據(jù)的實(shí)證研究,能夠顯著減少傳統(tǒng)抽樣方法可能導(dǎo)致的誤差,增強(qiáng)對(duì)研究對(duì)象的整體把握,發(fā)現(xiàn)傳統(tǒng)抽樣數(shù)據(jù)中難以或根本無法獲取的信息,帶來研究視角、研究素材、研究方法的根本性轉(zhuǎn)變。(2)數(shù)據(jù)產(chǎn)生、收集、分析的快捷性。“數(shù)據(jù)分析的速度越來越快,經(jīng)常在數(shù)據(jù)剛剛敲進(jìn)去的時(shí)候就可以看到實(shí)時(shí)的分析結(jié)果”,這有助于研究者及時(shí)有效地掌握相關(guān)法律實(shí)踐狀況的全貌,從而克服傳統(tǒng)實(shí)證研究方法耗時(shí)、滯后的缺陷。(3)數(shù)據(jù)收集與分析技術(shù)的客觀性、科學(xué)性。
與具有親歷性的傳統(tǒng)手工作坊式實(shí)證研究“大多是自己收集、整理數(shù)據(jù)”“存在因?yàn)檠芯縿?dòng)機(jī)需要而選擇性收集、運(yùn)用數(shù)據(jù)”不同,海量材料與數(shù)據(jù)遠(yuǎn)非“人工作坊時(shí)代”研究者所能親自、逐一地審閱、統(tǒng)計(jì)和分析。大數(shù)據(jù)的收集和分析往往直接依托于數(shù)據(jù)技術(shù)自動(dòng)處理、完成。在開源條件下,研究過程具有相當(dāng)?shù)耐该鞫龋芯拷Y(jié)論可復(fù)盤檢驗(yàn),數(shù)據(jù)收集、分析的客觀性、科學(xué)性明顯增強(qiáng)。特別是,利用不同渠道收集的數(shù)據(jù)集產(chǎn)生了海量數(shù)據(jù),當(dāng)這些數(shù)據(jù)聚合到一起,可以對(duì)其進(jìn)行挖掘,并開展更深層次的分析,該深度分析能揭示出各種模式、相關(guān)關(guān)系,并進(jìn)行有統(tǒng)計(jì)意義的各種預(yù)測。這不僅能夠開展歷時(shí)性與變遷性的研究,也能夠進(jìn)行預(yù)測性研究與趨勢分析,最終促進(jìn)研究科學(xué)水準(zhǔn)的提升。
在國外,法律大數(shù)據(jù)已廣泛滲透到公權(quán)力與私權(quán)利領(lǐng)域的法律實(shí)踐。在公權(quán)力領(lǐng)域,法律大數(shù)據(jù)在兩個(gè)方面得到較多利用:一是在警務(wù)活動(dòng)中。美國、澳大利亞等國家早已開始利用法律大數(shù)據(jù)開展警務(wù)預(yù)測。在美國,法律大數(shù)據(jù)被充分運(yùn)用于犯罪趨勢分析、發(fā)案情況預(yù)測、警力分配以及調(diào)查工作重心的確定等。二是在審判活動(dòng)中。法律大數(shù)據(jù)已大量應(yīng)用于司法管理活動(dòng)和程序性司法決策。例如,法官通過對(duì)法律大數(shù)據(jù)進(jìn)行分析、評(píng)估,建立“何種情況下將影響嫌疑人到庭接受審判,何種情況下容易誘發(fā)新的犯罪”的保釋風(fēng)險(xiǎn)預(yù)測模型,以此決定嫌疑人能否被保釋;法官利用法律大數(shù)據(jù)對(duì)罪犯是否符合假釋條件進(jìn)行評(píng)估,以此作為判斷罪犯能否被假釋的重要參考。在私權(quán)利領(lǐng)域,律師(律所)和當(dāng)事人也高度重視對(duì)法律大數(shù)據(jù)的利用。例如,律師(律所)利用法律大數(shù)據(jù)進(jìn)行律所管理、成本控制以及訴訟(律師)費(fèi)用的評(píng)估、預(yù)測,律師、當(dāng)事人利用大數(shù)據(jù)挑選對(duì)自己有利的陪審團(tuán)、進(jìn)行訴訟結(jié)果預(yù)測。在大數(shù)據(jù)法律研究方面,國外學(xué)者除開始利用大數(shù)據(jù)對(duì)具體的法律問題展開研究外,對(duì)大數(shù)據(jù)法律研究與法律實(shí)踐的理論與方法問題(例如,如何確保數(shù)據(jù)本身的可靠性、公開性,如何克服算法的非透明性、非歸責(zé)性以及“數(shù)據(jù)歧視”,大數(shù)據(jù)運(yùn)用是否與美國聯(lián)邦憲法第四修正案產(chǎn)生沖突及如何協(xié)調(diào))尤為關(guān)注。
目前,中國利用大數(shù)據(jù)開展的法律實(shí)踐方興未艾。例如:基于司法公開而大力推進(jìn)的裁判文書上網(wǎng)工作;依托大數(shù)據(jù)技術(shù)建立犯罪信息判斷和趨勢預(yù)測;運(yùn)用大數(shù)據(jù)建設(shè)“檢察大數(shù)據(jù)標(biāo)準(zhǔn)體系、應(yīng)用體系、管理體系、科技支撐體系”;利用大數(shù)據(jù)建立案件權(quán)重系數(shù)和評(píng)價(jià)指標(biāo)體系,確定法官工作量,并進(jìn)行科學(xué)的員額分配、案件分流;基于大數(shù)據(jù)開展的多種法律人工智能實(shí)踐,嘗試如類案推薦、量刑輔助與偏離預(yù)警等應(yīng)用。其中,裁判文書大規(guī)模上網(wǎng),使得中國第一次有了全國性、公開的、細(xì)節(jié)化的法律數(shù)據(jù)。但總體而言,目前國內(nèi)對(duì)于法律大數(shù)據(jù)的實(shí)踐性運(yùn)用還相對(duì)有限,具體運(yùn)用并不普遍,在一定程度上呈現(xiàn)出“話語熱、實(shí)踐冷”的現(xiàn)象:一方面,應(yīng)用主體范圍有限,主要集中在少數(shù)司法機(jī)關(guān)、法律數(shù)據(jù)公司;另一方面,應(yīng)用領(lǐng)域相對(duì)較窄、實(shí)際運(yùn)用較少,主要集中在類案檢索、法律文書草擬、文書智能糾錯(cuò)等輔助辦案方面。
近年來,國內(nèi)也出現(xiàn)直接利用大量數(shù)據(jù)展開法學(xué)研究的探索,并已經(jīng)注意到法律大數(shù)據(jù)所面臨的倫理規(guī)范等問題。其中,有學(xué)者就如何開展大數(shù)據(jù)法律研究,提出了有啟發(fā)性的見解。不過,國內(nèi)的大數(shù)據(jù)法律研究整體上還處于探索階段,一些研究缺乏對(duì)法律大數(shù)據(jù)的基本認(rèn)識(shí),研究方法和過程其實(shí)建立在某些誤識(shí)上。因此,檢視大數(shù)據(jù)法律研究現(xiàn)狀,澄清若干誤識(shí),對(duì)于大數(shù)據(jù)法律研究的健康開展具有基礎(chǔ)性意義。
(一)大數(shù)據(jù)還是大量數(shù)據(jù)
大數(shù)據(jù)具備“4V”(Volume、Velocity、Variety、Value)特征,是關(guān)于某一領(lǐng)域(行業(yè))全樣本、能夠快速流轉(zhuǎn)、多樣化且富價(jià)值的數(shù)據(jù)。其中,“全樣本”是其最顯著的特征,“全樣本數(shù)據(jù)”意指相關(guān)的所有數(shù)據(jù)。然而,目前國內(nèi)的法律大數(shù)據(jù)基本上只是部分的、非完整的數(shù)據(jù),遠(yuǎn)非“相關(guān)的所有數(shù)據(jù)”,稱其為“大量數(shù)據(jù)”或更合適。基于這些大量數(shù)據(jù)展開的研究,似乎很難視為嚴(yán)格意義上的大數(shù)據(jù)法律研究。
從某種意義上講,中國的法律大數(shù)據(jù)肇始于裁判文書統(tǒng)一集中上網(wǎng);在裁判文書上網(wǎng)之前,中國并沒有法律大數(shù)據(jù)研究,法律實(shí)證研究基本上是基于“小數(shù)據(jù)”,即研究者自己在局部范圍或特定領(lǐng)域所收集的數(shù)據(jù),而展開的“手工作坊式”研究。裁判文書網(wǎng)的誕生與發(fā)展,使得豐富的全國性數(shù)據(jù)第一次制度性涌現(xiàn),其與既有實(shí)證研究所使用的數(shù)據(jù)在數(shù)量級(jí)、廣泛性上大不相同。然而,裁判文書網(wǎng)已經(jīng)公布的裁判文書數(shù)據(jù)整體上并不完全具備全樣本特征:公布文書數(shù)量與實(shí)際結(jié)案數(shù)量相差較大,數(shù)據(jù)缺失問題相當(dāng)嚴(yán)重。根據(jù)全國法院2014年和2015年的裁判文書上網(wǎng)統(tǒng)計(jì)顯示:按省份看,上網(wǎng)裁判文書占實(shí)際結(jié)案文書比重最高的達(dá)78.14%(陜西),最低的僅為15.17%(西藏);最高人民法院在這兩年的上網(wǎng)裁判文書僅占其實(shí)結(jié)案件量的46.13%,這一比重與全國的總體情況大體持平。截至2017年7月11日,四川省的法院在2012-2016年間的裁判文書上網(wǎng)1134249份,而根據(jù)四川省高級(jí)人民法院工作報(bào)告,2012-2016年全省共審結(jié)案件3865125件,上網(wǎng)量不足審結(jié)量的1/3。此外,上網(wǎng)裁判文書所涉及的案件類型并不全面,特別是一些重大職務(wù)犯罪類案件,其裁判文書往往并不上網(wǎng)。
概括起來,刑事案件的公開比率優(yōu)于民事案件,一般刑事案件的公開比率優(yōu)于敏感刑事案件。裁判文書上網(wǎng)的數(shù)量、地域、案件類型等方面的局限,使得相關(guān)數(shù)據(jù)往往并非全數(shù)據(jù),遠(yuǎn)離標(biāo)準(zhǔn)的大數(shù)據(jù),這容易導(dǎo)致一些基于裁判文書的實(shí)證研究存在支撐證據(jù)不足,甚至觀點(diǎn)可能錯(cuò)誤的問題。此外,部分地區(qū)法院在公開裁判文書時(shí)還對(duì)文書內(nèi)容進(jìn)行了刪減,其刪減往往并非對(duì)當(dāng)事人身份信息的屏蔽處理,而是對(duì)文書特定段落的刪除。這也會(huì)使得某些依靠從裁判文書網(wǎng)獲取的文書對(duì)特定問題的分析,存在不同程度的數(shù)據(jù)偏差。因此,盡管特定領(lǐng)域、特定區(qū)域的分類數(shù)據(jù)可能較為齊全,但從整體上看中國當(dāng)下的法律大數(shù)據(jù),雖然數(shù)據(jù)量可能較多,許多領(lǐng)域均可能有20-70%左右的全國性或全局性數(shù)據(jù),但其實(shí)仍多是大量數(shù)據(jù)。
如何認(rèn)識(shí)大量數(shù)據(jù)的學(xué)術(shù)研究價(jià)值?一方面,完美的法律大數(shù)據(jù)往往難以強(qiáng)求。作為官方化的數(shù)據(jù),公開與不公開往往并存,法律、政治、傳統(tǒng)的各種因素都會(huì)影響法律和司法數(shù)據(jù)的公開程度。歐洲國家地方法院裁判文書的公開度往往不如中國,美國法院刑事審判中同樣少有關(guān)于裁判心證的公開信息。無論中外,法律數(shù)據(jù)都均非豐富、完整,難以完全反映法律和司法實(shí)踐。由此,有缺失的大量數(shù)據(jù)往往可能是“現(xiàn)實(shí)中的大數(shù)據(jù)”。另一方面,大量數(shù)據(jù)不僅在數(shù)據(jù)量、豐富性方面遠(yuǎn)超小數(shù)據(jù),而且經(jīng)過清洗后可以具有相當(dāng)?shù)娜执硇浴T谇笕坏玫臈l件下,如果能夠正確清洗數(shù)據(jù),正確把握數(shù)據(jù)缺失的程度、特別是有無系統(tǒng)性缺失,大量數(shù)據(jù)就具有不可替代的學(xué)術(shù)研究價(jià)值。
(二)法律數(shù)據(jù)的官方性、結(jié)構(gòu)化
相比于商業(yè)、社會(huì)領(lǐng)域的大數(shù)據(jù),法律大數(shù)據(jù)具有自身的獨(dú)特性:商業(yè)、社會(huì)領(lǐng)域的大數(shù)據(jù)往往是非官方的機(jī)構(gòu)收集并使用的,而法律領(lǐng)域大數(shù)據(jù)則具有“官方化”的特征;這種差異深刻影響數(shù)據(jù)的生成和使用。官方化特征不僅使得法律數(shù)據(jù)的公開程度受到影響,也影響到法律數(shù)據(jù)的內(nèi)容、類型及格式。基于法律機(jī)關(guān)的政策考慮,相關(guān)法律數(shù)據(jù)的內(nèi)容多表現(xiàn)出格式化、預(yù)設(shè)性與法律化特征,據(jù)此向社會(huì)公開的法律數(shù)據(jù)其實(shí)是按照司法機(jī)關(guān)的管理目標(biāo)所生產(chǎn)的內(nèi)容,而非公眾所欲知曉的有關(guān)法律實(shí)踐的充分、真實(shí)數(shù)據(jù)。這與商業(yè)、社會(huì)領(lǐng)域的大數(shù)據(jù)頗不相同,后者常常是更為自然的非結(jié)構(gòu)性數(shù)據(jù)。
比較典型的結(jié)構(gòu)化數(shù)據(jù),主要是來源于司法機(jī)關(guān)工作報(bào)告與法律統(tǒng)計(jì)年鑒的數(shù)據(jù)。此類數(shù)據(jù)都經(jīng)過“精細(xì)加工”,數(shù)據(jù)發(fā)布主體自身的價(jià)值偏好也潛藏其中。目前,“公開的司法統(tǒng)計(jì)數(shù)據(jù)不完整,許多應(yīng)當(dāng)公開的數(shù)據(jù)并未公開,公開比例也難以令人滿意”,諸如刑事案件律師辯護(hù)率、民事案件律師代理率等數(shù)據(jù)難以獲得;數(shù)據(jù)的統(tǒng)計(jì)口徑往往也不一致,甚至同一主題在不同年份的統(tǒng)計(jì)口徑也會(huì)出現(xiàn)變化,以致數(shù)據(jù)的連貫性較差。這些結(jié)構(gòu)化或半結(jié)構(gòu)化特征明顯的大量數(shù)據(jù),對(duì)司法管理具有一定的參考意義,也有相當(dāng)?shù)难芯抠Y料價(jià)值,但由于其生產(chǎn)目的的特定性,整體上并不充分和全面,尤其是中觀、微觀層面數(shù)據(jù)的缺失,使得它并不完全具備大數(shù)據(jù)的特征。對(duì)于此類數(shù)據(jù),或許視作“重要和宏觀的司法數(shù)據(jù)”更恰當(dāng)。而裁判文書的結(jié)構(gòu)性則要弱一些,或可稱為半結(jié)構(gòu)化的數(shù)據(jù)。裁判文書的事實(shí)認(rèn)定與法律適用的表述思路和風(fēng)格,是由眾多風(fēng)格各異的法律實(shí)踐者個(gè)人或集體完成的,但其基本寫作邏輯和格式仍然受到制度與實(shí)踐層面的嚴(yán)格規(guī)范,大體上還是半結(jié)構(gòu)化的。
真正豐富的法律大數(shù)據(jù)應(yīng)兼具大數(shù)據(jù)的自然特征與法律特征,主要由各種法律主體參與生產(chǎn)、制作并發(fā)布,具有全樣本、即時(shí)性、多樣化特征。現(xiàn)階段中國法律大數(shù)據(jù)整體上是以裁判文書網(wǎng)為主要來源的官方化、結(jié)構(gòu)化或半結(jié)構(gòu)化的大量數(shù)據(jù),實(shí)質(zhì)上只是法律領(lǐng)域中的有限數(shù)據(jù),也是角度特定的數(shù)據(jù)。
(三)數(shù)據(jù)在研究上的應(yīng)用:方法和目的
作為實(shí)證研究的一種新形式,大數(shù)據(jù)法律研究應(yīng)當(dāng)遵從實(shí)證研究的一般范式,即利用大數(shù)據(jù)分析、發(fā)現(xiàn)經(jīng)驗(yàn)現(xiàn)象,并基于經(jīng)驗(yàn)現(xiàn)象提出、證實(shí)或證偽假設(shè),最終發(fā)展和創(chuàng)新理論。同時(shí),大數(shù)據(jù)與小數(shù)據(jù)的分析方式在研究模式方面有著共性:都應(yīng)用數(shù)理統(tǒng)計(jì)的一般規(guī)律,采用統(tǒng)計(jì)學(xué)的許多方法,尤其是回歸分析。當(dāng)然,實(shí)踐中“大小數(shù)據(jù)”研究的界限時(shí)常有所模糊。一些小數(shù)據(jù)并不小,特別是一些區(qū)域性數(shù)據(jù)研究涉及的樣本可能高達(dá)十幾萬甚至幾十萬個(gè),其研究方式可能與大數(shù)據(jù)研究并無二致,甚至有的小數(shù)據(jù)研究已經(jīng)在使用復(fù)雜的機(jī)器學(xué)習(xí)。
盡管如此,大數(shù)據(jù)法律研究有其獨(dú)特性,與小數(shù)據(jù)研究存在諸多不同:(1)研究者的親歷性不同。由于小數(shù)據(jù)的有限性,研究者一般親自、逐一收集、審閱和分析每一個(gè)研究樣本,具有很強(qiáng)的親歷性。然而,面對(duì)全國性的裁判文書或者某個(gè)領(lǐng)域的裁判文書時(shí),研究者便無力如此操作了。對(duì)于此類研究,如果沒有好的數(shù)據(jù)收集、分析方式與技術(shù),研究根本不可能有效地開展。因此,小數(shù)據(jù)研究中的判斷一般是親歷性、實(shí)感化的判斷,大數(shù)據(jù)研究中的判斷往往依賴計(jì)算機(jī)軟件,是一種間接性的判斷,實(shí)感性較弱。(2)數(shù)據(jù)量的差異使得大數(shù)據(jù)研究更依賴諸如機(jī)器學(xué)習(xí)等新方式。面對(duì)海量數(shù)據(jù),應(yīng)用計(jì)算機(jī)軟件和機(jī)器學(xué)習(xí)在所難免。巨大的數(shù)據(jù)量使得精細(xì)梳理變量間關(guān)系的研究受到挑戰(zhàn):大數(shù)據(jù)本身既可能粗糙,也可能信息過載,干擾因素與各種相關(guān)變量較多,研究者往往難以有效把握。這或許也是很多實(shí)證研究者依然致力于小數(shù)據(jù)研究的重要原因。
就當(dāng)前的研究現(xiàn)狀來看,雖然中國的大數(shù)據(jù)法律研究已經(jīng)開始使用爬蟲軟件等抓取數(shù)據(jù),但內(nèi)容分析仍以描述性的數(shù)據(jù)分析為主,很少有研究者能夠使用統(tǒng)計(jì)軟件與統(tǒng)計(jì)學(xué)分析方法對(duì)數(shù)據(jù)資料進(jìn)行精確的定量分析。對(duì)于如何整理與分析大數(shù)據(jù),法學(xué)研究者大多“還不能科學(xué)、熟練地運(yùn)用數(shù)理統(tǒng)計(jì)等分析手段與方法對(duì)問題展開統(tǒng)計(jì)學(xué)意義上的定量分析,更遑論在研究中進(jìn)行數(shù)理模型的建構(gòu),從而在定量研究的方法上與統(tǒng)計(jì)學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)等其他學(xué)科展開對(duì)話”。如果不得不采取數(shù)據(jù)科學(xué)方法,研究者往往也只能依靠統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家進(jìn)行數(shù)據(jù)收集、挖掘、統(tǒng)計(jì)與分析。但技術(shù)專家經(jīng)常不能把握法學(xué)研究者的真正意圖,對(duì)基本法律問題也缺乏相應(yīng)判斷,這無疑增加法學(xué)研究人員與統(tǒng)計(jì)學(xué)家、數(shù)據(jù)科學(xué)家之間的溝通成本。或許不得不承認(rèn),當(dāng)前“對(duì)大數(shù)據(jù)的收集、研究和應(yīng)用還處在一個(gè)比較粗淺的層面上,司法大數(shù)據(jù)可能具有的超凡價(jià)值遠(yuǎn)遠(yuǎn)沒有得到挖掘”。
對(duì)于經(jīng)驗(yàn)性法律現(xiàn)象,如律師辯護(hù)率、刑民事案件二審的改判率等,基于法律大數(shù)據(jù)的描述性分析可能是適當(dāng)?shù)摹H欢蓪?shí)證研究畢竟是一種可量化的社會(huì)科學(xué)研究,需要?dú)w納出法律運(yùn)作過程的規(guī)律,并對(duì)其背后的因果關(guān)系進(jìn)行深度闡釋,或至少指出需進(jìn)一步探究的相關(guān)性。一旦需要進(jìn)行更多的因果關(guān)系或相關(guān)性研究,描述性分析則明顯力有不逮。例如,通過大數(shù)據(jù)來分析家庭經(jīng)濟(jì)收入、父母受教育程度、父母情感關(guān)系、同輩朋友中的犯罪情況、未成年人的學(xué)習(xí)情況等,是否對(duì)未成年人犯罪具有直接影響以及影響的強(qiáng)弱時(shí),傳統(tǒng)的描述性統(tǒng)計(jì)分析可能就難以勝任。更加深入的法律大數(shù)據(jù)研究,還涉及機(jī)器學(xué)習(xí)與算法應(yīng)用,尤其在對(duì)法律大數(shù)據(jù)進(jìn)行應(yīng)用研究時(shí)更是如此。例如,對(duì)于通過數(shù)據(jù)關(guān)聯(lián)分析在大量散亂的數(shù)據(jù)中如何發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性,并將這些數(shù)據(jù)形成一個(gè)數(shù)據(jù)集,從而描繪出某個(gè)事物或事件的發(fā)展規(guī)律或趨勢,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法往往力不從心,需要通過機(jī)器學(xué)習(xí)實(shí)現(xiàn)研究目標(biāo)。Jon Kleinberg等人利用決策樹、迭代算法等機(jī)器學(xué)習(xí)算法,分析了美國15萬余件重罪案件的法官假釋決定,認(rèn)為機(jī)器學(xué)習(xí)算法的預(yù)測要優(yōu)于人類法官的判斷。
實(shí)際上,大數(shù)據(jù)法律研究是一項(xiàng)綜合性、系統(tǒng)性工程,研究者掌握與運(yùn)用相關(guān)研究方法的能力在很大程度上決定了研究的深度與層次。法律大數(shù)據(jù)研究的核心在于對(duì)海量數(shù)據(jù)的價(jià)值挖掘、處理,這就涉及上述數(shù)據(jù)的獲取、清洗與使用。以典型的裁判文書大數(shù)據(jù)分析為例,由于目前上載的裁判文書達(dá)到4000萬以上的量級(jí),傳統(tǒng)人工下載的方式遠(yuǎn)遠(yuǎn)無法滿足研究的需要。這就必須借助爬蟲軟件自動(dòng)從互聯(lián)網(wǎng)上下載海量文書。然而,文書的獲取只是大數(shù)據(jù)研究的第一步。由于爬蟲軟件抓取的文書是典型的無標(biāo)簽非結(jié)構(gòu)化數(shù)據(jù),其中包含重復(fù)文書、空白文書等“臟數(shù)據(jù)”,此時(shí)就必須借助數(shù)據(jù)清洗手段處理這些文書,添加案號(hào)、案由、審級(jí)等常規(guī)標(biāo)簽。在數(shù)據(jù)清洗的基礎(chǔ)之上,才可能進(jìn)行數(shù)據(jù)挖掘。由于人工統(tǒng)計(jì)無法完成數(shù)據(jù)挖掘的任務(wù),因而需要運(yùn)用正則表達(dá)式等數(shù)據(jù)挖掘方法。可見,大數(shù)據(jù)本身為法學(xué)實(shí)證研究設(shè)定了先天的技術(shù)門檻。
舍恩伯格等認(rèn)為,“大數(shù)據(jù)時(shí)代絕對(duì)不是一個(gè)理論消亡的時(shí)代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面”,“大數(shù)據(jù)不會(huì)叫囂‘理論已死’”,反而會(huì)“從根本上改變我們理解世界的方式”。目前有關(guān)大數(shù)據(jù)的法律研究,在研究取向上偏重于實(shí)踐型、應(yīng)用型,而非學(xué)理性、抽象性,側(cè)重?cái)?shù)據(jù)的調(diào)查與描述,過度沉迷于讓數(shù)據(jù)“自己說話”甚至“自己思考”,疏于開展深度的理論剖析與建構(gòu)。很多冠以“大數(shù)據(jù)”的實(shí)證研究不過是運(yùn)用大數(shù)據(jù)或大量數(shù)據(jù)對(duì)某個(gè)法律現(xiàn)象或問題的簡單描述,各種法律數(shù)據(jù)的簡單歸類統(tǒng)計(jì),以及在此基礎(chǔ)上提出問題與解決對(duì)策。對(duì)大數(shù)據(jù)所呈現(xiàn)的普遍現(xiàn)象進(jìn)行深度剖析與理論解讀的研究還較為缺乏,更遑論相關(guān)理論建構(gòu)。
(四)作為方法的大數(shù)據(jù)法律研究
基于大數(shù)據(jù)的法律研究對(duì)法律研究方法到底意味著什么?這是否一場新的研究范式革命?法學(xué)界目前更多只是將之看作一種實(shí)踐現(xiàn)象。大數(shù)據(jù)法律研究的一些基本理論問題,如它的內(nèi)涵、特征、優(yōu)勢與局限,大數(shù)據(jù)法律研究與社科法學(xué)、實(shí)證法律研究之關(guān)聯(lián),如何適當(dāng)運(yùn)用、科學(xué)展開等,至今尚未得到充分討論。如果說基于小數(shù)據(jù)法律實(shí)證研究的理論圖景已日漸清晰,那么基于大數(shù)據(jù)法律實(shí)證研究的理論問題似乎未昭未揭。這可能會(huì)使研究者陷入“過分關(guān)注技術(shù)分析,忽視創(chuàng)新思維和思辨分析”的窠臼中。有論者在談到大數(shù)據(jù)對(duì)社會(huì)學(xué)研究的影響時(shí)指出,“‘大數(shù)據(jù)’概念的廣泛應(yīng)用和巨大影響,對(duì)社會(huì)學(xué)研究的沖擊更為直接。這種沖擊涉及數(shù)據(jù)來源、研究方法、社會(huì)測量等諸多重要領(lǐng)域”。事實(shí)上,這種沖擊和影響甚至已經(jīng)開始波及法學(xué)研究。從研究對(duì)象看,大數(shù)據(jù)法律研究擴(kuò)展了法學(xué)研究的問題域,使法學(xué)研究不再拘泥于傳統(tǒng)的研究對(duì)象和素材,從而拓展了法學(xué)研究的領(lǐng)域和格局。從研究范式看,大數(shù)據(jù)法律研究可能推動(dòng)實(shí)證研究的跨越式發(fā)展,特別是機(jī)器學(xué)習(xí)方式的引入,會(huì)使法學(xué)研究從法教義學(xué)、社科法學(xué)和實(shí)證法律研究等范式轉(zhuǎn)向數(shù)據(jù)科學(xué)式的法學(xué)研究,形成“數(shù)據(jù)驅(qū)動(dòng)+理論假設(shè)驅(qū)動(dòng)”的范式革命,最終重構(gòu)傳統(tǒng)法律實(shí)證研究。就此而言,或許可以將其視為法律實(shí)證研究的新階段。
大數(shù)據(jù)法律研究應(yīng)當(dāng)具有什么樣的問題意識(shí)?當(dāng)前,一些大數(shù)據(jù)法律研究缺乏必要的問題意識(shí),主要是描述式研究,淪為“調(diào)查報(bào)告式”的數(shù)據(jù)展示。針對(duì)法律實(shí)證研究,曾有論者提出“受眾是誰”的問題,大數(shù)據(jù)法律研究同樣應(yīng)重視此問題。從某種程度上講,“受眾”不僅是指知識(shí)生產(chǎn)所面向的市場,也意味著知識(shí)生產(chǎn)者與消費(fèi)者之間的互動(dòng)。一方面,大數(shù)據(jù)法律研究應(yīng)該面向司法實(shí)踐與司法改革,從司法機(jī)關(guān)與公眾真正關(guān)心、急欲解決的現(xiàn)實(shí)問題中尋找研究靈感,從而使大數(shù)據(jù)法律研究具備較強(qiáng)的實(shí)踐性。例如,最高人民法院和最高人民檢察院正圍繞“智慧法院”“智慧檢察”,深入推進(jìn)法院與檢察院辦案、辦公的陽光化、網(wǎng)絡(luò)化、智能化,人工智能開始運(yùn)用于司法改革推進(jìn)和司法建設(shè)之中,而司法領(lǐng)域人工智能的運(yùn)用顯然無法離開法律大數(shù)據(jù)的支撐。因此,大數(shù)據(jù)法律研究應(yīng)該回應(yīng)“智慧司法”“智慧檢察”的實(shí)踐需要,并藉此獲得更大的致用空間,在理論與實(shí)踐的互動(dòng)過程中形成問題意識(shí),推進(jìn)大數(shù)據(jù)法律研究的發(fā)展。另一方面,大數(shù)據(jù)法律研究也應(yīng)該直面一些傳統(tǒng)的法學(xué)理論命題,借助法律大數(shù)據(jù)分析工具對(duì)其進(jìn)行檢驗(yàn)或創(chuàng)新發(fā)展。當(dāng)然,基于大數(shù)據(jù)發(fā)現(xiàn)新的法律現(xiàn)象、提出新的理論命題,并利用大數(shù)據(jù)分析技術(shù)進(jìn)行論證,亦是大數(shù)據(jù)法律研究的應(yīng)有之義。
對(duì)大數(shù)據(jù)法律研究規(guī)范與倫理問題的討論亦很重要。大數(shù)據(jù)法律研究涉及海量數(shù)據(jù)的收集、整理和分析,這對(duì)數(shù)據(jù)收集、分析主體的專業(yè)水平,特別是研究規(guī)范提出了較高甚至是苛刻的要求。如果大數(shù)據(jù)研究人員的專業(yè)水平有限,對(duì)研究規(guī)范不夠重視,很有可能導(dǎo)致收集的數(shù)據(jù)失真、分析結(jié)果失準(zhǔn),不僅不能對(duì)法律現(xiàn)象進(jìn)行客觀量化,甚至可能形成錯(cuò)誤結(jié)論,以致謬以千里。在數(shù)據(jù)本身有限且運(yùn)用相對(duì)簡單的條件下,其他主體可以對(duì)研究結(jié)論進(jìn)行重復(fù)性或經(jīng)驗(yàn)式驗(yàn)證,但在大數(shù)據(jù)背景下,這種驗(yàn)證無疑困難得多,成本也更為高昂。特別是,在當(dāng)前數(shù)據(jù)公司與研究者普遍不愿公布數(shù)據(jù)來源、內(nèi)容、收集工具、分析標(biāo)準(zhǔn)的情況下,如果研究者不能對(duì)大數(shù)據(jù)法律研究抱持嚴(yán)謹(jǐn)態(tài)度并恪守必要的研究規(guī)范,甚或不遵守相關(guān)學(xué)術(shù)倫理,基于功利動(dòng)機(jī)而突破學(xué)術(shù)底線,將導(dǎo)致相應(yīng)的大數(shù)據(jù)法律研究存在研究標(biāo)準(zhǔn)不科學(xué)、研究結(jié)論荒謬甚至數(shù)據(jù)造假等問題。此外,大數(shù)據(jù)法律研究表面上是圍繞數(shù)據(jù)展開,但由于很多數(shù)據(jù)其實(shí)指涉或反映主體的行為、意識(shí)與習(xí)慣等,這使得大數(shù)據(jù)法律研究不可避免地牽涉“人”的問題,甚至可能會(huì)將作為研究對(duì)象的“人”置于相對(duì)危險(xiǎn)的境地。這樣的倫理問題目前似乎并未引起研究者的注意,對(duì)此更應(yīng)有意識(shí)地采取相應(yīng)的技術(shù)處理策略。
(一)致力于獲取全面、多樣的法律數(shù)據(jù)
第一,盡力獲取全面化的法律數(shù)據(jù)。數(shù)據(jù)的官方化,是法律大數(shù)據(jù)不同于商業(yè)性、社會(huì)性數(shù)據(jù)的特殊之處,這就決定了法律大數(shù)據(jù)的獲取與應(yīng)用水平在相當(dāng)程度上取決于法律機(jī)構(gòu)是否充分、及時(shí)公開其收集、掌握的法律信息。所以,法律機(jī)構(gòu)基于共享理念推行數(shù)據(jù)公開機(jī)制是法律大數(shù)據(jù)獲取和應(yīng)用的關(guān)鍵之一。前已述及,裁判文書網(wǎng)所收集、整理、統(tǒng)計(jì)的數(shù)據(jù)往往并不能稱作“法律大數(shù)據(jù)”,甚至有時(shí)數(shù)據(jù)質(zhì)量可能還不如抽樣調(diào)查中的“代表性數(shù)據(jù)”。雖然2016年最高人民法院修訂了《關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》(法釋[2016]19號(hào)),但由于其約束力不強(qiáng)、操作性較弱,事實(shí)上并未實(shí)現(xiàn)“(除不予公布的)其他裁判文書一律在互聯(lián)網(wǎng)公布”的目標(biāo)。為了提高司法的公開水平,促進(jìn)法學(xué)實(shí)證研究的發(fā)展,法學(xué)界需要呼吁最高人民法院進(jìn)一步健全裁判文書發(fā)布的責(zé)任機(jī)制,加強(qiáng)對(duì)裁判文書不上網(wǎng)的審查力度,大力推動(dòng)并真正實(shí)現(xiàn)裁判文書網(wǎng)絡(luò)發(fā)布的“應(yīng)上盡上”原則,促進(jìn)裁判文書網(wǎng)不斷由大量數(shù)據(jù)平臺(tái)向大數(shù)據(jù)平臺(tái)轉(zhuǎn)變。
第二,努力擴(kuò)展法律數(shù)據(jù)的來源。數(shù)據(jù)是大數(shù)據(jù)法律研究展開的基礎(chǔ),“只有具備足夠的數(shù)據(jù)源才可以挖掘出數(shù)據(jù)背后的價(jià)值”。然而,在法律大數(shù)據(jù)的來源上,目前過度依賴官方尤其是法院的主動(dòng)發(fā)布,內(nèi)容、渠道存在單一性、有限性等問題。中國法治和中國司法的整體樣貌不可能據(jù)此充分展現(xiàn),司法決策信息更不是裁判文書所能充分顯示的。當(dāng)前,除了對(duì)外公布的法律裁判文書,法律決策過程中的關(guān)鍵行為,如形成決策的內(nèi)部討論,往往是高度非文字化、非數(shù)據(jù)化的。“一方面,‘庭審筆錄不是一種公開的法律證明文書’,其亦未實(shí)現(xiàn)充分的數(shù)據(jù)化;另一方面,大量的程序過程如警察的偵查過程、檢察院的起訴過程、法院庭審前后的過程也沒有公開的、正式或非正式的文字記錄,更遑論在此基礎(chǔ)之上的數(shù)據(jù)化了。”為此,首先要拓寬法律大數(shù)據(jù)的領(lǐng)域。只有將檢察機(jī)關(guān)、公安機(jī)關(guān)、司法行政機(jī)關(guān)所收集和制作的、符合公開條件的數(shù)據(jù)全面納入公開范圍,才可能“推動(dòng)形成有利于平臺(tái)互聯(lián)互通、信息共享共用、業(yè)務(wù)銜接聯(lián)動(dòng)的體制機(jī)制”,進(jìn)而實(shí)現(xiàn)公、檢、法、司的相關(guān)數(shù)據(jù)接駁、聯(lián)通共享,提高法律大數(shù)據(jù)的集成化水平。其次,要豐富法律大數(shù)據(jù)的類別與內(nèi)容。其他類型的訴訟文書(或材料),如庭前會(huì)議筆錄、庭審筆錄、案卷材料等,尚未成為法律大數(shù)據(jù)的來源。檢察機(jī)關(guān)雖然公布了部分訴訟文書,但存在數(shù)量少、不全面以及可獲得性較差等問題。一些相當(dāng)重要的司法數(shù)據(jù),如檢察機(jī)關(guān)的批捕、公訴與抗訴等數(shù)據(jù),并未充分公開。隨著語音識(shí)別、文本抓取等人工智能技術(shù)在實(shí)踐中的運(yùn)用得到普及,對(duì)更多訴訟活動(dòng)進(jìn)行電子記錄、數(shù)據(jù)提取,將一些“僵尸數(shù)據(jù)”轉(zhuǎn)化為可計(jì)量、可使用的統(tǒng)計(jì)數(shù)據(jù)已成為可能。因此,未來應(yīng)將視野拓展到裁判文書和司法統(tǒng)計(jì)之外的信息,更加重視對(duì)起訴書、庭審筆錄等記錄訴訟活動(dòng)與程序的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的收集和整理,尤要思考如何將實(shí)踐中大量的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為有價(jià)值、可運(yùn)用的結(jié)構(gòu)化數(shù)據(jù),確保大數(shù)據(jù)的有效性、有用性。另外,電子卷宗的推廣、證據(jù)標(biāo)準(zhǔn)判斷的數(shù)據(jù)化,也為更多地使用裁判文書以外的其他數(shù)據(jù)來源提供了重要機(jī)遇。這有助于我們獲得裁判文書網(wǎng)以外的豐富材料,進(jìn)而助力開展更為多元的研究。只有當(dāng)法官乃至所有法律行動(dòng)者的行為模式與決策信息充分?jǐn)?shù)據(jù)化時(shí),法律大數(shù)據(jù)才能真正被稱為“大數(shù)據(jù)”。
第三,重視和利用好當(dāng)下的大量數(shù)據(jù),包括區(qū)域性的全樣本數(shù)據(jù)。受制于各種客觀條件,大量數(shù)據(jù)而非大數(shù)據(jù)可能是研究者在很長一段時(shí)間內(nèi)所面臨的窘境。但大量數(shù)據(jù)也是法學(xué)研究的重要材料,值得高度重視與充分利用。為此,一方面,要避免數(shù)據(jù)樣本帶來的數(shù)據(jù)偏誤,特別是系統(tǒng)性偏差。了解現(xiàn)有數(shù)據(jù)公布的偏差情況,是利用好已有的數(shù)據(jù)材料,尤其是裁判文書網(wǎng)所公布的裁判文書的前提所在。例如,由于不同案件公開的比例差異,在進(jìn)行裁判文書的數(shù)據(jù)挖掘時(shí),刑事類的分析所包含的數(shù)據(jù)偏誤就天然小于民事類;一般刑事案件的分析就優(yōu)于貪腐類犯罪;離婚糾紛由于大量采用調(diào)解的方式結(jié)案,而調(diào)解文書通常不予公開,這就決定了有關(guān)婚姻類的大數(shù)據(jù)挖掘報(bào)告需要謹(jǐn)慎對(duì)待。基于數(shù)據(jù)本身的局限性,在利用裁判文書網(wǎng)進(jìn)行研究時(shí),可以適當(dāng)縮小研究范圍,并限定研究對(duì)象,確保在有限的數(shù)據(jù)條件下盡可能地收集、獲取某領(lǐng)域或某類別相對(duì)完整、具有一定代表性的真實(shí)數(shù)據(jù)。此外,還可運(yùn)用諸如“貝葉斯方法”和“大數(shù)定律”等數(shù)理統(tǒng)計(jì)方法對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行推斷,從而正確識(shí)別并驗(yàn)證數(shù)據(jù)的代表性。另一方面,重視區(qū)域性的全樣本法律大數(shù)據(jù)。我國疆域遼闊,不同地域之間的人文、地理環(huán)境差異巨大,收集全國范圍內(nèi)的全樣本(或近似于全樣本)數(shù)據(jù)無疑具有相當(dāng)難度,如果轉(zhuǎn)而收集若干具有代表性的區(qū)域性全樣本數(shù)據(jù),則可以提高數(shù)據(jù)收集的成功率。
(二)探索并深入展開大數(shù)據(jù)法律研究的科學(xué)方式
第一,探索新型、專門的大數(shù)據(jù)獲取、分析技術(shù),并充分運(yùn)用于大數(shù)據(jù)法律研究。“基于大數(shù)據(jù)技術(shù)而獲取的數(shù)據(jù),已經(jīng)不同于社會(huì)科學(xué)研究中普遍使用的隨機(jī)數(shù)據(jù)”,因而,“在統(tǒng)計(jì)推斷等方面需要因應(yīng)調(diào)整”。在大數(shù)據(jù)挖掘、整理、分析方面,目前已經(jīng)有較為成熟的統(tǒng)計(jì)方式和數(shù)據(jù)科學(xué)方式,而與統(tǒng)計(jì)學(xué)相關(guān)但又頗為不同的機(jī)器學(xué)習(xí)方法也已崛起并運(yùn)用于大數(shù)據(jù)分析之中。如何甄別大數(shù)據(jù)的有效性、真實(shí)性,如何分析、判斷數(shù)據(jù)之間的相關(guān)性與因果關(guān)系,還應(yīng)有更多的方法與技術(shù)。在目前的大數(shù)據(jù)法律研究領(lǐng)域,數(shù)據(jù)挖掘依然主要通過正則表達(dá)式的方式。該方式在處理高度規(guī)整的文書表達(dá)時(shí)具有很強(qiáng)的準(zhǔn)確性,如從海量文書中自動(dòng)提取辯護(hù)人的數(shù)量、身份等表述高度一致的數(shù)據(jù)。然而,正則表達(dá)式在面臨高度多元化的表達(dá)時(shí),由于無法窮盡表述,就多少顯得力不從心。例如,“自首”也許在文書中并不會(huì)以“自首”的關(guān)鍵詞出現(xiàn),而是以“家屬扭送”等諸多樣態(tài)的語詞呈現(xiàn),此時(shí)就需要用自然語義識(shí)別技術(shù)(NLP)。這類技術(shù)在法學(xué)領(lǐng)域才剛剛起步,主要出現(xiàn)在大數(shù)據(jù)與人工智能的司法實(shí)踐中,還較少被應(yīng)用于法律大數(shù)據(jù)的研究中。
專門的數(shù)據(jù)分析機(jī)構(gòu)具有得天獨(dú)厚的技術(shù)與人才優(yōu)勢,法律研究者和司法部門必須思考如何更好地借助專門數(shù)據(jù)分析機(jī)構(gòu)和人工智能科技公司的優(yōu)勢,充分挖掘、分析與利用數(shù)據(jù)。中國電子信息產(chǎn)業(yè)發(fā)展研究院在2017年發(fā)布的《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展水平評(píng)估報(bào)告》中指出,“我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展將迎來‘黃金期’,產(chǎn)業(yè)聚集將進(jìn)一步特色化發(fā)展,技術(shù)融合創(chuàng)新將更加深入”。法律研究者也應(yīng)搭乘大數(shù)據(jù)發(fā)展的“快車”,充分發(fā)揮專門的大數(shù)據(jù)獲取、分析技術(shù)的作用。這些技術(shù)往往既非傳統(tǒng)法律實(shí)證研究的方法,也不全是當(dāng)下分析小數(shù)據(jù)所運(yùn)用的統(tǒng)計(jì)方法,而是數(shù)學(xué)與計(jì)算機(jī)內(nèi)容交叉、不斷發(fā)展進(jìn)化的、以機(jī)器學(xué)習(xí)為主的新型方法。當(dāng)然,研究者也需要注重對(duì)技術(shù)的深度學(xué)習(xí)與直接使用,努力做到自己掌握、使用現(xiàn)有技術(shù)工具進(jìn)行數(shù)據(jù)收集、挖掘與分析。
第二,充分利用數(shù)據(jù)進(jìn)行深度分析。簡單的描述性統(tǒng)計(jì)分析方法在面對(duì)海量數(shù)據(jù)時(shí)顯得力不從心,特別是當(dāng)大數(shù)據(jù)獲取的信息本身就“漫無邊際”“支離破碎”而“根本不可能直接用于任何量化分析時(shí)”更是如此。為了提升大數(shù)據(jù)的利用水平與分析效能,需要將小數(shù)據(jù)社科研究中已普遍運(yùn)用和相對(duì)成熟的數(shù)據(jù)分析方法,如列聯(lián)表分析、相關(guān)性分析、回歸分析與統(tǒng)計(jì)學(xué)中處理高維數(shù)據(jù)的方法等,運(yùn)用到大數(shù)據(jù)分析中,熟練運(yùn)用SPSS、SAS等統(tǒng)計(jì)分析軟件深度挖掘隱藏在法律大數(shù)據(jù)之中的寶藏。“只有通過對(duì)數(shù)據(jù)的大量輸入并加上復(fù)雜運(yùn)算,讓數(shù)據(jù)不斷產(chǎn)生又不斷拆分、整合,融合生成新的產(chǎn)品,然后輸出、使用,才能形成‘?dāng)?shù)據(jù)生產(chǎn)信息,信息改善決策’,這正是大數(shù)據(jù)發(fā)揮作用的基本原理。”考慮到大數(shù)據(jù)分析的重要性,必須思考如何在中短期內(nèi)提升大數(shù)據(jù)深度分析水平。當(dāng)然,大數(shù)據(jù)法律研究在多大程度上真正需要運(yùn)用以及如何運(yùn)用統(tǒng)計(jì)學(xué)之外的其他分析方法,還有待進(jìn)一步思考與探索。此外,面對(duì)法律大數(shù)據(jù)在數(shù)量、內(nèi)容上的急遽增加,特別是面對(duì)“來源更加廣泛,數(shù)據(jù)粒度更小,記錄單元更加碎片化,結(jié)構(gòu)更加多元化”的大數(shù)據(jù),現(xiàn)有的分析工具和統(tǒng)計(jì)手段可能無法滿足處理需求,此時(shí)就要借助人工智能。通過將人工智能與法律大數(shù)據(jù)結(jié)合,對(duì)巨量數(shù)據(jù)進(jìn)行智能篩選與算法分析,從而提升海量數(shù)據(jù)的分析效能。
隨著數(shù)據(jù)來源以驚人的速度擴(kuò)展,人們會(huì)逐漸加深對(duì)大數(shù)據(jù)的依賴,也需要保持對(duì)大數(shù)據(jù)及其相關(guān)技術(shù)的超脫。一方面,大數(shù)據(jù)的分析手段如人工智能的算法本身就面臨諸多“技術(shù)陷阱”,甚至被一些研究者認(rèn)為是在黑箱中運(yùn)作,因此必須警惕其潛在風(fēng)險(xiǎn)。另一方面,特別“要防止為技術(shù)所裹挾,避免成為簡單的技術(shù)主義者”。只有如此,才能保持“人文社會(huì)科學(xué)工作者的思想高度、理論品格和價(jià)值定位”,進(jìn)而產(chǎn)出更有溫度的優(yōu)秀成果。
第三,推動(dòng)研究的團(tuán)隊(duì)化與多學(xué)科的交叉融合,并致力于培養(yǎng)復(fù)合型大數(shù)據(jù)法學(xué)人才。以往的法律實(shí)證研究注重研究者的專業(yè)性和個(gè)體性,表現(xiàn)為研究者獨(dú)自收集資料、分析問題、撰寫文章,個(gè)人的冥思與獨(dú)創(chuàng)發(fā)揮著主要作用。在小數(shù)據(jù)研究中,這種模式能基本勝任。但大數(shù)據(jù)法律研究時(shí)常所處理的是海量雜亂數(shù)據(jù),這“意味著人類的記錄范圍、測量范圍和分析范圍在不斷擴(kuò)大,知識(shí)的邊界在不斷延伸”。大數(shù)據(jù)時(shí)代的到來,“提供了人文社會(huì)科學(xué)學(xué)者大規(guī)模協(xié)作的可能”,也使之成為一種必要。在大數(shù)據(jù)法律研究及相關(guān)人工智能應(yīng)用研究中,無論是數(shù)據(jù)的收集、整理,還是其分析、運(yùn)用,都需要研究者具有多學(xué)科的知識(shí)與經(jīng)驗(yàn),如數(shù)據(jù)挖掘就涉及數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、模式識(shí)別、知識(shí)庫工程、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)、信息的可視化等眾多領(lǐng)域,知識(shí)結(jié)構(gòu)單一的研究者甚至研究團(tuán)隊(duì),往往難以應(yīng)對(duì)。為了更好地開展大數(shù)據(jù)法律研究,法學(xué)研究者需要通過加強(qiáng)團(tuán)隊(duì)建設(shè),特別是加強(qiáng)與計(jì)算機(jī)科學(xué)、軟件科學(xué)、統(tǒng)計(jì)學(xué)等相關(guān)學(xué)科的專業(yè)人士以及大數(shù)據(jù)、人工智能科技公司之間的合作,以更好地應(yīng)對(duì)大數(shù)據(jù)法律研究帶來的機(jī)遇與挑戰(zhàn)。同時(shí),大數(shù)據(jù)法律研究者自身更需要突破知識(shí)儲(chǔ)備、學(xué)術(shù)理念、價(jià)值方面的障礙,學(xué)習(xí)、掌握和應(yīng)用統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)的知識(shí)與研究方法。就此而言,面向未來的大數(shù)據(jù)法律研究復(fù)合型人才培養(yǎng)極為重要。目前,國內(nèi)一些高校已經(jīng)相繼開設(shè)了大數(shù)據(jù)課程。未來,具備資源優(yōu)勢和技術(shù)條件的院校可以制定“大數(shù)據(jù)——法學(xué)復(fù)合型人才培養(yǎng)計(jì)劃”,系統(tǒng)培養(yǎng)既懂技術(shù)又懂法律的復(fù)合型人才,為大數(shù)據(jù)法律研究與實(shí)踐儲(chǔ)備更多生力軍。
第四,長期以來,基于小數(shù)據(jù)的法律實(shí)證研究一直是主流研究方式,有其重大學(xué)術(shù)價(jià)值。大數(shù)據(jù)研究在數(shù)據(jù)不足、方法把握不夠的情況下,如何確保研究的科學(xué)性呢?對(duì)此,將小數(shù)據(jù)研究和大數(shù)據(jù)研究相結(jié)合應(yīng)該是重要思路。具體而言,一是要在同一研究中就同一問題既應(yīng)用大數(shù)據(jù)研究,也開展小數(shù)據(jù)研究,共同驗(yàn)證研究結(jié)論;二是在大數(shù)據(jù)研究中適當(dāng)使用小數(shù)據(jù)研究的精細(xì)化思路與方法,把大數(shù)據(jù)研究細(xì)致化,從而提升大數(shù)據(jù)法律研究的科學(xué)性。
總之,身處大數(shù)據(jù)時(shí)代,我們正無時(shí)不刻不受到大數(shù)據(jù)廣泛而深刻的影響。這不僅為大數(shù)據(jù)法律研究的發(fā)展提供了空前機(jī)遇,也是傳統(tǒng)法律實(shí)證研究乃至法學(xué)研究范式升級(jí)轉(zhuǎn)型的一個(gè)重要契機(jī)。立足眼下,更為要緊的工作可能是正視并努力突破大數(shù)據(jù)法律研究所面臨的困境與羈絆。要正確理解法律大數(shù)據(jù),科學(xué)、有效地開展大數(shù)據(jù)法律研究,開發(fā)大數(shù)據(jù)法律研究獨(dú)特的技術(shù)與方法,提升數(shù)據(jù)獲取與分析技術(shù),注重培養(yǎng)復(fù)合型的研究人才。
作者左衛(wèi)民,四川大學(xué)法學(xué)院教授。
受惠于互聯(lián)網(wǎng)與大數(shù)據(jù)技術(shù)的迅猛發(fā)展,數(shù)據(jù)正以前所未有的速度巨量生成,海量的數(shù)據(jù)資源由此產(chǎn)生。大數(shù)據(jù)資源日漸成為國家與社會(huì)的基礎(chǔ)性戰(zhàn)略資源,推動(dòng)世界大步邁向大數(shù)據(jù)時(shí)代。因應(yīng)于此,法律機(jī)關(guān)、尤其是司法機(jī)關(guān)大力推進(jìn)部門信息的電子化、數(shù)字化、公開化,使得法律大數(shù)據(jù)逐漸興起并進(jìn)入公眾視野。
法律大數(shù)據(jù)的出現(xiàn),使得基于法律大數(shù)據(jù)的司法實(shí)踐與新型實(shí)證研究成為可能,并可能帶來法學(xué)研究方式的革命性變化。這種可能性源于大數(shù)據(jù)所具有的獨(dú)特優(yōu)勢:(1)數(shù)據(jù)的“全樣本性”。大數(shù)據(jù)通常是特定領(lǐng)域的全面數(shù)據(jù),具有數(shù)量巨大與內(nèi)容全面之特性。基于全樣本數(shù)據(jù)的實(shí)證研究,能夠顯著減少傳統(tǒng)抽樣方法可能導(dǎo)致的誤差,增強(qiáng)對(duì)研究對(duì)象的整體把握,發(fā)現(xiàn)傳統(tǒng)抽樣數(shù)據(jù)中難以或根本無法獲取的信息,帶來研究視角、研究素材、研究方法的根本性轉(zhuǎn)變。(2)數(shù)據(jù)產(chǎn)生、收集、分析的快捷性。“數(shù)據(jù)分析的速度越來越快,經(jīng)常在數(shù)據(jù)剛剛敲進(jìn)去的時(shí)候就可以看到實(shí)時(shí)的分析結(jié)果”,這有助于研究者及時(shí)有效地掌握相關(guān)法律實(shí)踐狀況的全貌,從而克服傳統(tǒng)實(shí)證研究方法耗時(shí)、滯后的缺陷。(3)數(shù)據(jù)收集與分析技術(shù)的客觀性、科學(xué)性。
與具有親歷性的傳統(tǒng)手工作坊式實(shí)證研究“大多是自己收集、整理數(shù)據(jù)”“存在因?yàn)檠芯縿?dòng)機(jī)需要而選擇性收集、運(yùn)用數(shù)據(jù)”不同,海量材料與數(shù)據(jù)遠(yuǎn)非“人工作坊時(shí)代”研究者所能親自、逐一地審閱、統(tǒng)計(jì)和分析。大數(shù)據(jù)的收集和分析往往直接依托于數(shù)據(jù)技術(shù)自動(dòng)處理、完成。在開源條件下,研究過程具有相當(dāng)?shù)耐该鞫龋芯拷Y(jié)論可復(fù)盤檢驗(yàn),數(shù)據(jù)收集、分析的客觀性、科學(xué)性明顯增強(qiáng)。特別是,利用不同渠道收集的數(shù)據(jù)集產(chǎn)生了海量數(shù)據(jù),當(dāng)這些數(shù)據(jù)聚合到一起,可以對(duì)其進(jìn)行挖掘,并開展更深層次的分析,該深度分析能揭示出各種模式、相關(guān)關(guān)系,并進(jìn)行有統(tǒng)計(jì)意義的各種預(yù)測。這不僅能夠開展歷時(shí)性與變遷性的研究,也能夠進(jìn)行預(yù)測性研究與趨勢分析,最終促進(jìn)研究科學(xué)水準(zhǔn)的提升。
在國外,法律大數(shù)據(jù)已廣泛滲透到公權(quán)力與私權(quán)利領(lǐng)域的法律實(shí)踐。在公權(quán)力領(lǐng)域,法律大數(shù)據(jù)在兩個(gè)方面得到較多利用:一是在警務(wù)活動(dòng)中。美國、澳大利亞等國家早已開始利用法律大數(shù)據(jù)開展警務(wù)預(yù)測。在美國,法律大數(shù)據(jù)被充分運(yùn)用于犯罪趨勢分析、發(fā)案情況預(yù)測、警力分配以及調(diào)查工作重心的確定等。二是在審判活動(dòng)中。法律大數(shù)據(jù)已大量應(yīng)用于司法管理活動(dòng)和程序性司法決策。例如,法官通過對(duì)法律大數(shù)據(jù)進(jìn)行分析、評(píng)估,建立“何種情況下將影響嫌疑人到庭接受審判,何種情況下容易誘發(fā)新的犯罪”的保釋風(fēng)險(xiǎn)預(yù)測模型,以此決定嫌疑人能否被保釋;法官利用法律大數(shù)據(jù)對(duì)罪犯是否符合假釋條件進(jìn)行評(píng)估,以此作為判斷罪犯能否被假釋的重要參考。在私權(quán)利領(lǐng)域,律師(律所)和當(dāng)事人也高度重視對(duì)法律大數(shù)據(jù)的利用。例如,律師(律所)利用法律大數(shù)據(jù)進(jìn)行律所管理、成本控制以及訴訟(律師)費(fèi)用的評(píng)估、預(yù)測,律師、當(dāng)事人利用大數(shù)據(jù)挑選對(duì)自己有利的陪審團(tuán)、進(jìn)行訴訟結(jié)果預(yù)測。在大數(shù)據(jù)法律研究方面,國外學(xué)者除開始利用大數(shù)據(jù)對(duì)具體的法律問題展開研究外,對(duì)大數(shù)據(jù)法律研究與法律實(shí)踐的理論與方法問題(例如,如何確保數(shù)據(jù)本身的可靠性、公開性,如何克服算法的非透明性、非歸責(zé)性以及“數(shù)據(jù)歧視”,大數(shù)據(jù)運(yùn)用是否與美國聯(lián)邦憲法第四修正案產(chǎn)生沖突及如何協(xié)調(diào))尤為關(guān)注。
目前,中國利用大數(shù)據(jù)開展的法律實(shí)踐方興未艾。例如:基于司法公開而大力推進(jìn)的裁判文書上網(wǎng)工作;依托大數(shù)據(jù)技術(shù)建立犯罪信息判斷和趨勢預(yù)測;運(yùn)用大數(shù)據(jù)建設(shè)“檢察大數(shù)據(jù)標(biāo)準(zhǔn)體系、應(yīng)用體系、管理體系、科技支撐體系”;利用大數(shù)據(jù)建立案件權(quán)重系數(shù)和評(píng)價(jià)指標(biāo)體系,確定法官工作量,并進(jìn)行科學(xué)的員額分配、案件分流;基于大數(shù)據(jù)開展的多種法律人工智能實(shí)踐,嘗試如類案推薦、量刑輔助與偏離預(yù)警等應(yīng)用。其中,裁判文書大規(guī)模上網(wǎng),使得中國第一次有了全國性、公開的、細(xì)節(jié)化的法律數(shù)據(jù)。但總體而言,目前國內(nèi)對(duì)于法律大數(shù)據(jù)的實(shí)踐性運(yùn)用還相對(duì)有限,具體運(yùn)用并不普遍,在一定程度上呈現(xiàn)出“話語熱、實(shí)踐冷”的現(xiàn)象:一方面,應(yīng)用主體范圍有限,主要集中在少數(shù)司法機(jī)關(guān)、法律數(shù)據(jù)公司;另一方面,應(yīng)用領(lǐng)域相對(duì)較窄、實(shí)際運(yùn)用較少,主要集中在類案檢索、法律文書草擬、文書智能糾錯(cuò)等輔助辦案方面。
近年來,國內(nèi)也出現(xiàn)直接利用大量數(shù)據(jù)展開法學(xué)研究的探索,并已經(jīng)注意到法律大數(shù)據(jù)所面臨的倫理規(guī)范等問題。其中,有學(xué)者就如何開展大數(shù)據(jù)法律研究,提出了有啟發(fā)性的見解。不過,國內(nèi)的大數(shù)據(jù)法律研究整體上還處于探索階段,一些研究缺乏對(duì)法律大數(shù)據(jù)的基本認(rèn)識(shí),研究方法和過程其實(shí)建立在某些誤識(shí)上。因此,檢視大數(shù)據(jù)法律研究現(xiàn)狀,澄清若干誤識(shí),對(duì)于大數(shù)據(jù)法律研究的健康開展具有基礎(chǔ)性意義。
(一)大數(shù)據(jù)還是大量數(shù)據(jù)
大數(shù)據(jù)具備“4V”(Volume、Velocity、Variety、Value)特征,是關(guān)于某一領(lǐng)域(行業(yè))全樣本、能夠快速流轉(zhuǎn)、多樣化且富價(jià)值的數(shù)據(jù)。其中,“全樣本”是其最顯著的特征,“全樣本數(shù)據(jù)”意指相關(guān)的所有數(shù)據(jù)。然而,目前國內(nèi)的法律大數(shù)據(jù)基本上只是部分的、非完整的數(shù)據(jù),遠(yuǎn)非“相關(guān)的所有數(shù)據(jù)”,稱其為“大量數(shù)據(jù)”或更合適。基于這些大量數(shù)據(jù)展開的研究,似乎很難視為嚴(yán)格意義上的大數(shù)據(jù)法律研究。
從某種意義上講,中國的法律大數(shù)據(jù)肇始于裁判文書統(tǒng)一集中上網(wǎng);在裁判文書上網(wǎng)之前,中國并沒有法律大數(shù)據(jù)研究,法律實(shí)證研究基本上是基于“小數(shù)據(jù)”,即研究者自己在局部范圍或特定領(lǐng)域所收集的數(shù)據(jù),而展開的“手工作坊式”研究。裁判文書網(wǎng)的誕生與發(fā)展,使得豐富的全國性數(shù)據(jù)第一次制度性涌現(xiàn),其與既有實(shí)證研究所使用的數(shù)據(jù)在數(shù)量級(jí)、廣泛性上大不相同。然而,裁判文書網(wǎng)已經(jīng)公布的裁判文書數(shù)據(jù)整體上并不完全具備全樣本特征:公布文書數(shù)量與實(shí)際結(jié)案數(shù)量相差較大,數(shù)據(jù)缺失問題相當(dāng)嚴(yán)重。根據(jù)全國法院2014年和2015年的裁判文書上網(wǎng)統(tǒng)計(jì)顯示:按省份看,上網(wǎng)裁判文書占實(shí)際結(jié)案文書比重最高的達(dá)78.14%(陜西),最低的僅為15.17%(西藏);最高人民法院在這兩年的上網(wǎng)裁判文書僅占其實(shí)結(jié)案件量的46.13%,這一比重與全國的總體情況大體持平。截至2017年7月11日,四川省的法院在2012-2016年間的裁判文書上網(wǎng)1134249份,而根據(jù)四川省高級(jí)人民法院工作報(bào)告,2012-2016年全省共審結(jié)案件3865125件,上網(wǎng)量不足審結(jié)量的1/3。此外,上網(wǎng)裁判文書所涉及的案件類型并不全面,特別是一些重大職務(wù)犯罪類案件,其裁判文書往往并不上網(wǎng)。
概括起來,刑事案件的公開比率優(yōu)于民事案件,一般刑事案件的公開比率優(yōu)于敏感刑事案件。裁判文書上網(wǎng)的數(shù)量、地域、案件類型等方面的局限,使得相關(guān)數(shù)據(jù)往往并非全數(shù)據(jù),遠(yuǎn)離標(biāo)準(zhǔn)的大數(shù)據(jù),這容易導(dǎo)致一些基于裁判文書的實(shí)證研究存在支撐證據(jù)不足,甚至觀點(diǎn)可能錯(cuò)誤的問題。此外,部分地區(qū)法院在公開裁判文書時(shí)還對(duì)文書內(nèi)容進(jìn)行了刪減,其刪減往往并非對(duì)當(dāng)事人身份信息的屏蔽處理,而是對(duì)文書特定段落的刪除。這也會(huì)使得某些依靠從裁判文書網(wǎng)獲取的文書對(duì)特定問題的分析,存在不同程度的數(shù)據(jù)偏差。因此,盡管特定領(lǐng)域、特定區(qū)域的分類數(shù)據(jù)可能較為齊全,但從整體上看中國當(dāng)下的法律大數(shù)據(jù),雖然數(shù)據(jù)量可能較多,許多領(lǐng)域均可能有20-70%左右的全國性或全局性數(shù)據(jù),但其實(shí)仍多是大量數(shù)據(jù)。
如何認(rèn)識(shí)大量數(shù)據(jù)的學(xué)術(shù)研究價(jià)值?一方面,完美的法律大數(shù)據(jù)往往難以強(qiáng)求。作為官方化的數(shù)據(jù),公開與不公開往往并存,法律、政治、傳統(tǒng)的各種因素都會(huì)影響法律和司法數(shù)據(jù)的公開程度。歐洲國家地方法院裁判文書的公開度往往不如中國,美國法院刑事審判中同樣少有關(guān)于裁判心證的公開信息。無論中外,法律數(shù)據(jù)都均非豐富、完整,難以完全反映法律和司法實(shí)踐。由此,有缺失的大量數(shù)據(jù)往往可能是“現(xiàn)實(shí)中的大數(shù)據(jù)”。另一方面,大量數(shù)據(jù)不僅在數(shù)據(jù)量、豐富性方面遠(yuǎn)超小數(shù)據(jù),而且經(jīng)過清洗后可以具有相當(dāng)?shù)娜执硇浴T谇笕坏玫臈l件下,如果能夠正確清洗數(shù)據(jù),正確把握數(shù)據(jù)缺失的程度、特別是有無系統(tǒng)性缺失,大量數(shù)據(jù)就具有不可替代的學(xué)術(shù)研究價(jià)值。
(二)法律數(shù)據(jù)的官方性、結(jié)構(gòu)化
相比于商業(yè)、社會(huì)領(lǐng)域的大數(shù)據(jù),法律大數(shù)據(jù)具有自身的獨(dú)特性:商業(yè)、社會(huì)領(lǐng)域的大數(shù)據(jù)往往是非官方的機(jī)構(gòu)收集并使用的,而法律領(lǐng)域大數(shù)據(jù)則具有“官方化”的特征;這種差異深刻影響數(shù)據(jù)的生成和使用。官方化特征不僅使得法律數(shù)據(jù)的公開程度受到影響,也影響到法律數(shù)據(jù)的內(nèi)容、類型及格式。基于法律機(jī)關(guān)的政策考慮,相關(guān)法律數(shù)據(jù)的內(nèi)容多表現(xiàn)出格式化、預(yù)設(shè)性與法律化特征,據(jù)此向社會(huì)公開的法律數(shù)據(jù)其實(shí)是按照司法機(jī)關(guān)的管理目標(biāo)所生產(chǎn)的內(nèi)容,而非公眾所欲知曉的有關(guān)法律實(shí)踐的充分、真實(shí)數(shù)據(jù)。這與商業(yè)、社會(huì)領(lǐng)域的大數(shù)據(jù)頗不相同,后者常常是更為自然的非結(jié)構(gòu)性數(shù)據(jù)。
比較典型的結(jié)構(gòu)化數(shù)據(jù),主要是來源于司法機(jī)關(guān)工作報(bào)告與法律統(tǒng)計(jì)年鑒的數(shù)據(jù)。此類數(shù)據(jù)都經(jīng)過“精細(xì)加工”,數(shù)據(jù)發(fā)布主體自身的價(jià)值偏好也潛藏其中。目前,“公開的司法統(tǒng)計(jì)數(shù)據(jù)不完整,許多應(yīng)當(dāng)公開的數(shù)據(jù)并未公開,公開比例也難以令人滿意”,諸如刑事案件律師辯護(hù)率、民事案件律師代理率等數(shù)據(jù)難以獲得;數(shù)據(jù)的統(tǒng)計(jì)口徑往往也不一致,甚至同一主題在不同年份的統(tǒng)計(jì)口徑也會(huì)出現(xiàn)變化,以致數(shù)據(jù)的連貫性較差。這些結(jié)構(gòu)化或半結(jié)構(gòu)化特征明顯的大量數(shù)據(jù),對(duì)司法管理具有一定的參考意義,也有相當(dāng)?shù)难芯抠Y料價(jià)值,但由于其生產(chǎn)目的的特定性,整體上并不充分和全面,尤其是中觀、微觀層面數(shù)據(jù)的缺失,使得它并不完全具備大數(shù)據(jù)的特征。對(duì)于此類數(shù)據(jù),或許視作“重要和宏觀的司法數(shù)據(jù)”更恰當(dāng)。而裁判文書的結(jié)構(gòu)性則要弱一些,或可稱為半結(jié)構(gòu)化的數(shù)據(jù)。裁判文書的事實(shí)認(rèn)定與法律適用的表述思路和風(fēng)格,是由眾多風(fēng)格各異的法律實(shí)踐者個(gè)人或集體完成的,但其基本寫作邏輯和格式仍然受到制度與實(shí)踐層面的嚴(yán)格規(guī)范,大體上還是半結(jié)構(gòu)化的。
真正豐富的法律大數(shù)據(jù)應(yīng)兼具大數(shù)據(jù)的自然特征與法律特征,主要由各種法律主體參與生產(chǎn)、制作并發(fā)布,具有全樣本、即時(shí)性、多樣化特征。現(xiàn)階段中國法律大數(shù)據(jù)整體上是以裁判文書網(wǎng)為主要來源的官方化、結(jié)構(gòu)化或半結(jié)構(gòu)化的大量數(shù)據(jù),實(shí)質(zhì)上只是法律領(lǐng)域中的有限數(shù)據(jù),也是角度特定的數(shù)據(jù)。
(三)數(shù)據(jù)在研究上的應(yīng)用:方法和目的
作為實(shí)證研究的一種新形式,大數(shù)據(jù)法律研究應(yīng)當(dāng)遵從實(shí)證研究的一般范式,即利用大數(shù)據(jù)分析、發(fā)現(xiàn)經(jīng)驗(yàn)現(xiàn)象,并基于經(jīng)驗(yàn)現(xiàn)象提出、證實(shí)或證偽假設(shè),最終發(fā)展和創(chuàng)新理論。同時(shí),大數(shù)據(jù)與小數(shù)據(jù)的分析方式在研究模式方面有著共性:都應(yīng)用數(shù)理統(tǒng)計(jì)的一般規(guī)律,采用統(tǒng)計(jì)學(xué)的許多方法,尤其是回歸分析。當(dāng)然,實(shí)踐中“大小數(shù)據(jù)”研究的界限時(shí)常有所模糊。一些小數(shù)據(jù)并不小,特別是一些區(qū)域性數(shù)據(jù)研究涉及的樣本可能高達(dá)十幾萬甚至幾十萬個(gè),其研究方式可能與大數(shù)據(jù)研究并無二致,甚至有的小數(shù)據(jù)研究已經(jīng)在使用復(fù)雜的機(jī)器學(xué)習(xí)。
盡管如此,大數(shù)據(jù)法律研究有其獨(dú)特性,與小數(shù)據(jù)研究存在諸多不同:(1)研究者的親歷性不同。由于小數(shù)據(jù)的有限性,研究者一般親自、逐一收集、審閱和分析每一個(gè)研究樣本,具有很強(qiáng)的親歷性。然而,面對(duì)全國性的裁判文書或者某個(gè)領(lǐng)域的裁判文書時(shí),研究者便無力如此操作了。對(duì)于此類研究,如果沒有好的數(shù)據(jù)收集、分析方式與技術(shù),研究根本不可能有效地開展。因此,小數(shù)據(jù)研究中的判斷一般是親歷性、實(shí)感化的判斷,大數(shù)據(jù)研究中的判斷往往依賴計(jì)算機(jī)軟件,是一種間接性的判斷,實(shí)感性較弱。(2)數(shù)據(jù)量的差異使得大數(shù)據(jù)研究更依賴諸如機(jī)器學(xué)習(xí)等新方式。面對(duì)海量數(shù)據(jù),應(yīng)用計(jì)算機(jī)軟件和機(jī)器學(xué)習(xí)在所難免。巨大的數(shù)據(jù)量使得精細(xì)梳理變量間關(guān)系的研究受到挑戰(zhàn):大數(shù)據(jù)本身既可能粗糙,也可能信息過載,干擾因素與各種相關(guān)變量較多,研究者往往難以有效把握。這或許也是很多實(shí)證研究者依然致力于小數(shù)據(jù)研究的重要原因。
就當(dāng)前的研究現(xiàn)狀來看,雖然中國的大數(shù)據(jù)法律研究已經(jīng)開始使用爬蟲軟件等抓取數(shù)據(jù),但內(nèi)容分析仍以描述性的數(shù)據(jù)分析為主,很少有研究者能夠使用統(tǒng)計(jì)軟件與統(tǒng)計(jì)學(xué)分析方法對(duì)數(shù)據(jù)資料進(jìn)行精確的定量分析。對(duì)于如何整理與分析大數(shù)據(jù),法學(xué)研究者大多“還不能科學(xué)、熟練地運(yùn)用數(shù)理統(tǒng)計(jì)等分析手段與方法對(duì)問題展開統(tǒng)計(jì)學(xué)意義上的定量分析,更遑論在研究中進(jìn)行數(shù)理模型的建構(gòu),從而在定量研究的方法上與統(tǒng)計(jì)學(xué)、社會(huì)學(xué)、經(jīng)濟(jì)學(xué)等其他學(xué)科展開對(duì)話”。如果不得不采取數(shù)據(jù)科學(xué)方法,研究者往往也只能依靠統(tǒng)計(jì)學(xué)家和數(shù)據(jù)科學(xué)家進(jìn)行數(shù)據(jù)收集、挖掘、統(tǒng)計(jì)與分析。但技術(shù)專家經(jīng)常不能把握法學(xué)研究者的真正意圖,對(duì)基本法律問題也缺乏相應(yīng)判斷,這無疑增加法學(xué)研究人員與統(tǒng)計(jì)學(xué)家、數(shù)據(jù)科學(xué)家之間的溝通成本。或許不得不承認(rèn),當(dāng)前“對(duì)大數(shù)據(jù)的收集、研究和應(yīng)用還處在一個(gè)比較粗淺的層面上,司法大數(shù)據(jù)可能具有的超凡價(jià)值遠(yuǎn)遠(yuǎn)沒有得到挖掘”。
對(duì)于經(jīng)驗(yàn)性法律現(xiàn)象,如律師辯護(hù)率、刑民事案件二審的改判率等,基于法律大數(shù)據(jù)的描述性分析可能是適當(dāng)?shù)摹H欢蓪?shí)證研究畢竟是一種可量化的社會(huì)科學(xué)研究,需要?dú)w納出法律運(yùn)作過程的規(guī)律,并對(duì)其背后的因果關(guān)系進(jìn)行深度闡釋,或至少指出需進(jìn)一步探究的相關(guān)性。一旦需要進(jìn)行更多的因果關(guān)系或相關(guān)性研究,描述性分析則明顯力有不逮。例如,通過大數(shù)據(jù)來分析家庭經(jīng)濟(jì)收入、父母受教育程度、父母情感關(guān)系、同輩朋友中的犯罪情況、未成年人的學(xué)習(xí)情況等,是否對(duì)未成年人犯罪具有直接影響以及影響的強(qiáng)弱時(shí),傳統(tǒng)的描述性統(tǒng)計(jì)分析可能就難以勝任。更加深入的法律大數(shù)據(jù)研究,還涉及機(jī)器學(xué)習(xí)與算法應(yīng)用,尤其在對(duì)法律大數(shù)據(jù)進(jìn)行應(yīng)用研究時(shí)更是如此。例如,對(duì)于通過數(shù)據(jù)關(guān)聯(lián)分析在大量散亂的數(shù)據(jù)中如何發(fā)現(xiàn)數(shù)據(jù)之間的相關(guān)性,并將這些數(shù)據(jù)形成一個(gè)數(shù)據(jù)集,從而描繪出某個(gè)事物或事件的發(fā)展規(guī)律或趨勢,傳統(tǒng)的統(tǒng)計(jì)學(xué)方法往往力不從心,需要通過機(jī)器學(xué)習(xí)實(shí)現(xiàn)研究目標(biāo)。Jon Kleinberg等人利用決策樹、迭代算法等機(jī)器學(xué)習(xí)算法,分析了美國15萬余件重罪案件的法官假釋決定,認(rèn)為機(jī)器學(xué)習(xí)算法的預(yù)測要優(yōu)于人類法官的判斷。
實(shí)際上,大數(shù)據(jù)法律研究是一項(xiàng)綜合性、系統(tǒng)性工程,研究者掌握與運(yùn)用相關(guān)研究方法的能力在很大程度上決定了研究的深度與層次。法律大數(shù)據(jù)研究的核心在于對(duì)海量數(shù)據(jù)的價(jià)值挖掘、處理,這就涉及上述數(shù)據(jù)的獲取、清洗與使用。以典型的裁判文書大數(shù)據(jù)分析為例,由于目前上載的裁判文書達(dá)到4000萬以上的量級(jí),傳統(tǒng)人工下載的方式遠(yuǎn)遠(yuǎn)無法滿足研究的需要。這就必須借助爬蟲軟件自動(dòng)從互聯(lián)網(wǎng)上下載海量文書。然而,文書的獲取只是大數(shù)據(jù)研究的第一步。由于爬蟲軟件抓取的文書是典型的無標(biāo)簽非結(jié)構(gòu)化數(shù)據(jù),其中包含重復(fù)文書、空白文書等“臟數(shù)據(jù)”,此時(shí)就必須借助數(shù)據(jù)清洗手段處理這些文書,添加案號(hào)、案由、審級(jí)等常規(guī)標(biāo)簽。在數(shù)據(jù)清洗的基礎(chǔ)之上,才可能進(jìn)行數(shù)據(jù)挖掘。由于人工統(tǒng)計(jì)無法完成數(shù)據(jù)挖掘的任務(wù),因而需要運(yùn)用正則表達(dá)式等數(shù)據(jù)挖掘方法。可見,大數(shù)據(jù)本身為法學(xué)實(shí)證研究設(shè)定了先天的技術(shù)門檻。
舍恩伯格等認(rèn)為,“大數(shù)據(jù)時(shí)代絕對(duì)不是一個(gè)理論消亡的時(shí)代,相反地,理論貫穿于大數(shù)據(jù)分析的方方面面”,“大數(shù)據(jù)不會(huì)叫囂‘理論已死’”,反而會(huì)“從根本上改變我們理解世界的方式”。目前有關(guān)大數(shù)據(jù)的法律研究,在研究取向上偏重于實(shí)踐型、應(yīng)用型,而非學(xué)理性、抽象性,側(cè)重?cái)?shù)據(jù)的調(diào)查與描述,過度沉迷于讓數(shù)據(jù)“自己說話”甚至“自己思考”,疏于開展深度的理論剖析與建構(gòu)。很多冠以“大數(shù)據(jù)”的實(shí)證研究不過是運(yùn)用大數(shù)據(jù)或大量數(shù)據(jù)對(duì)某個(gè)法律現(xiàn)象或問題的簡單描述,各種法律數(shù)據(jù)的簡單歸類統(tǒng)計(jì),以及在此基礎(chǔ)上提出問題與解決對(duì)策。對(duì)大數(shù)據(jù)所呈現(xiàn)的普遍現(xiàn)象進(jìn)行深度剖析與理論解讀的研究還較為缺乏,更遑論相關(guān)理論建構(gòu)。
(四)作為方法的大數(shù)據(jù)法律研究
基于大數(shù)據(jù)的法律研究對(duì)法律研究方法到底意味著什么?這是否一場新的研究范式革命?法學(xué)界目前更多只是將之看作一種實(shí)踐現(xiàn)象。大數(shù)據(jù)法律研究的一些基本理論問題,如它的內(nèi)涵、特征、優(yōu)勢與局限,大數(shù)據(jù)法律研究與社科法學(xué)、實(shí)證法律研究之關(guān)聯(lián),如何適當(dāng)運(yùn)用、科學(xué)展開等,至今尚未得到充分討論。如果說基于小數(shù)據(jù)法律實(shí)證研究的理論圖景已日漸清晰,那么基于大數(shù)據(jù)法律實(shí)證研究的理論問題似乎未昭未揭。這可能會(huì)使研究者陷入“過分關(guān)注技術(shù)分析,忽視創(chuàng)新思維和思辨分析”的窠臼中。有論者在談到大數(shù)據(jù)對(duì)社會(huì)學(xué)研究的影響時(shí)指出,“‘大數(shù)據(jù)’概念的廣泛應(yīng)用和巨大影響,對(duì)社會(huì)學(xué)研究的沖擊更為直接。這種沖擊涉及數(shù)據(jù)來源、研究方法、社會(huì)測量等諸多重要領(lǐng)域”。事實(shí)上,這種沖擊和影響甚至已經(jīng)開始波及法學(xué)研究。從研究對(duì)象看,大數(shù)據(jù)法律研究擴(kuò)展了法學(xué)研究的問題域,使法學(xué)研究不再拘泥于傳統(tǒng)的研究對(duì)象和素材,從而拓展了法學(xué)研究的領(lǐng)域和格局。從研究范式看,大數(shù)據(jù)法律研究可能推動(dòng)實(shí)證研究的跨越式發(fā)展,特別是機(jī)器學(xué)習(xí)方式的引入,會(huì)使法學(xué)研究從法教義學(xué)、社科法學(xué)和實(shí)證法律研究等范式轉(zhuǎn)向數(shù)據(jù)科學(xué)式的法學(xué)研究,形成“數(shù)據(jù)驅(qū)動(dòng)+理論假設(shè)驅(qū)動(dòng)”的范式革命,最終重構(gòu)傳統(tǒng)法律實(shí)證研究。就此而言,或許可以將其視為法律實(shí)證研究的新階段。
大數(shù)據(jù)法律研究應(yīng)當(dāng)具有什么樣的問題意識(shí)?當(dāng)前,一些大數(shù)據(jù)法律研究缺乏必要的問題意識(shí),主要是描述式研究,淪為“調(diào)查報(bào)告式”的數(shù)據(jù)展示。針對(duì)法律實(shí)證研究,曾有論者提出“受眾是誰”的問題,大數(shù)據(jù)法律研究同樣應(yīng)重視此問題。從某種程度上講,“受眾”不僅是指知識(shí)生產(chǎn)所面向的市場,也意味著知識(shí)生產(chǎn)者與消費(fèi)者之間的互動(dòng)。一方面,大數(shù)據(jù)法律研究應(yīng)該面向司法實(shí)踐與司法改革,從司法機(jī)關(guān)與公眾真正關(guān)心、急欲解決的現(xiàn)實(shí)問題中尋找研究靈感,從而使大數(shù)據(jù)法律研究具備較強(qiáng)的實(shí)踐性。例如,最高人民法院和最高人民檢察院正圍繞“智慧法院”“智慧檢察”,深入推進(jìn)法院與檢察院辦案、辦公的陽光化、網(wǎng)絡(luò)化、智能化,人工智能開始運(yùn)用于司法改革推進(jìn)和司法建設(shè)之中,而司法領(lǐng)域人工智能的運(yùn)用顯然無法離開法律大數(shù)據(jù)的支撐。因此,大數(shù)據(jù)法律研究應(yīng)該回應(yīng)“智慧司法”“智慧檢察”的實(shí)踐需要,并藉此獲得更大的致用空間,在理論與實(shí)踐的互動(dòng)過程中形成問題意識(shí),推進(jìn)大數(shù)據(jù)法律研究的發(fā)展。另一方面,大數(shù)據(jù)法律研究也應(yīng)該直面一些傳統(tǒng)的法學(xué)理論命題,借助法律大數(shù)據(jù)分析工具對(duì)其進(jìn)行檢驗(yàn)或創(chuàng)新發(fā)展。當(dāng)然,基于大數(shù)據(jù)發(fā)現(xiàn)新的法律現(xiàn)象、提出新的理論命題,并利用大數(shù)據(jù)分析技術(shù)進(jìn)行論證,亦是大數(shù)據(jù)法律研究的應(yīng)有之義。
對(duì)大數(shù)據(jù)法律研究規(guī)范與倫理問題的討論亦很重要。大數(shù)據(jù)法律研究涉及海量數(shù)據(jù)的收集、整理和分析,這對(duì)數(shù)據(jù)收集、分析主體的專業(yè)水平,特別是研究規(guī)范提出了較高甚至是苛刻的要求。如果大數(shù)據(jù)研究人員的專業(yè)水平有限,對(duì)研究規(guī)范不夠重視,很有可能導(dǎo)致收集的數(shù)據(jù)失真、分析結(jié)果失準(zhǔn),不僅不能對(duì)法律現(xiàn)象進(jìn)行客觀量化,甚至可能形成錯(cuò)誤結(jié)論,以致謬以千里。在數(shù)據(jù)本身有限且運(yùn)用相對(duì)簡單的條件下,其他主體可以對(duì)研究結(jié)論進(jìn)行重復(fù)性或經(jīng)驗(yàn)式驗(yàn)證,但在大數(shù)據(jù)背景下,這種驗(yàn)證無疑困難得多,成本也更為高昂。特別是,在當(dāng)前數(shù)據(jù)公司與研究者普遍不愿公布數(shù)據(jù)來源、內(nèi)容、收集工具、分析標(biāo)準(zhǔn)的情況下,如果研究者不能對(duì)大數(shù)據(jù)法律研究抱持嚴(yán)謹(jǐn)態(tài)度并恪守必要的研究規(guī)范,甚或不遵守相關(guān)學(xué)術(shù)倫理,基于功利動(dòng)機(jī)而突破學(xué)術(shù)底線,將導(dǎo)致相應(yīng)的大數(shù)據(jù)法律研究存在研究標(biāo)準(zhǔn)不科學(xué)、研究結(jié)論荒謬甚至數(shù)據(jù)造假等問題。此外,大數(shù)據(jù)法律研究表面上是圍繞數(shù)據(jù)展開,但由于很多數(shù)據(jù)其實(shí)指涉或反映主體的行為、意識(shí)與習(xí)慣等,這使得大數(shù)據(jù)法律研究不可避免地牽涉“人”的問題,甚至可能會(huì)將作為研究對(duì)象的“人”置于相對(duì)危險(xiǎn)的境地。這樣的倫理問題目前似乎并未引起研究者的注意,對(duì)此更應(yīng)有意識(shí)地采取相應(yīng)的技術(shù)處理策略。
(一)致力于獲取全面、多樣的法律數(shù)據(jù)
第一,盡力獲取全面化的法律數(shù)據(jù)。數(shù)據(jù)的官方化,是法律大數(shù)據(jù)不同于商業(yè)性、社會(huì)性數(shù)據(jù)的特殊之處,這就決定了法律大數(shù)據(jù)的獲取與應(yīng)用水平在相當(dāng)程度上取決于法律機(jī)構(gòu)是否充分、及時(shí)公開其收集、掌握的法律信息。所以,法律機(jī)構(gòu)基于共享理念推行數(shù)據(jù)公開機(jī)制是法律大數(shù)據(jù)獲取和應(yīng)用的關(guān)鍵之一。前已述及,裁判文書網(wǎng)所收集、整理、統(tǒng)計(jì)的數(shù)據(jù)往往并不能稱作“法律大數(shù)據(jù)”,甚至有時(shí)數(shù)據(jù)質(zhì)量可能還不如抽樣調(diào)查中的“代表性數(shù)據(jù)”。雖然2016年最高人民法院修訂了《關(guān)于人民法院在互聯(lián)網(wǎng)公布裁判文書的規(guī)定》(法釋[2016]19號(hào)),但由于其約束力不強(qiáng)、操作性較弱,事實(shí)上并未實(shí)現(xiàn)“(除不予公布的)其他裁判文書一律在互聯(lián)網(wǎng)公布”的目標(biāo)。為了提高司法的公開水平,促進(jìn)法學(xué)實(shí)證研究的發(fā)展,法學(xué)界需要呼吁最高人民法院進(jìn)一步健全裁判文書發(fā)布的責(zé)任機(jī)制,加強(qiáng)對(duì)裁判文書不上網(wǎng)的審查力度,大力推動(dòng)并真正實(shí)現(xiàn)裁判文書網(wǎng)絡(luò)發(fā)布的“應(yīng)上盡上”原則,促進(jìn)裁判文書網(wǎng)不斷由大量數(shù)據(jù)平臺(tái)向大數(shù)據(jù)平臺(tái)轉(zhuǎn)變。
第二,努力擴(kuò)展法律數(shù)據(jù)的來源。數(shù)據(jù)是大數(shù)據(jù)法律研究展開的基礎(chǔ),“只有具備足夠的數(shù)據(jù)源才可以挖掘出數(shù)據(jù)背后的價(jià)值”。然而,在法律大數(shù)據(jù)的來源上,目前過度依賴官方尤其是法院的主動(dòng)發(fā)布,內(nèi)容、渠道存在單一性、有限性等問題。中國法治和中國司法的整體樣貌不可能據(jù)此充分展現(xiàn),司法決策信息更不是裁判文書所能充分顯示的。當(dāng)前,除了對(duì)外公布的法律裁判文書,法律決策過程中的關(guān)鍵行為,如形成決策的內(nèi)部討論,往往是高度非文字化、非數(shù)據(jù)化的。“一方面,‘庭審筆錄不是一種公開的法律證明文書’,其亦未實(shí)現(xiàn)充分的數(shù)據(jù)化;另一方面,大量的程序過程如警察的偵查過程、檢察院的起訴過程、法院庭審前后的過程也沒有公開的、正式或非正式的文字記錄,更遑論在此基礎(chǔ)之上的數(shù)據(jù)化了。”為此,首先要拓寬法律大數(shù)據(jù)的領(lǐng)域。只有將檢察機(jī)關(guān)、公安機(jī)關(guān)、司法行政機(jī)關(guān)所收集和制作的、符合公開條件的數(shù)據(jù)全面納入公開范圍,才可能“推動(dòng)形成有利于平臺(tái)互聯(lián)互通、信息共享共用、業(yè)務(wù)銜接聯(lián)動(dòng)的體制機(jī)制”,進(jìn)而實(shí)現(xiàn)公、檢、法、司的相關(guān)數(shù)據(jù)接駁、聯(lián)通共享,提高法律大數(shù)據(jù)的集成化水平。其次,要豐富法律大數(shù)據(jù)的類別與內(nèi)容。其他類型的訴訟文書(或材料),如庭前會(huì)議筆錄、庭審筆錄、案卷材料等,尚未成為法律大數(shù)據(jù)的來源。檢察機(jī)關(guān)雖然公布了部分訴訟文書,但存在數(shù)量少、不全面以及可獲得性較差等問題。一些相當(dāng)重要的司法數(shù)據(jù),如檢察機(jī)關(guān)的批捕、公訴與抗訴等數(shù)據(jù),并未充分公開。隨著語音識(shí)別、文本抓取等人工智能技術(shù)在實(shí)踐中的運(yùn)用得到普及,對(duì)更多訴訟活動(dòng)進(jìn)行電子記錄、數(shù)據(jù)提取,將一些“僵尸數(shù)據(jù)”轉(zhuǎn)化為可計(jì)量、可使用的統(tǒng)計(jì)數(shù)據(jù)已成為可能。因此,未來應(yīng)將視野拓展到裁判文書和司法統(tǒng)計(jì)之外的信息,更加重視對(duì)起訴書、庭審筆錄等記錄訴訟活動(dòng)與程序的結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的收集和整理,尤要思考如何將實(shí)踐中大量的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)轉(zhuǎn)化為有價(jià)值、可運(yùn)用的結(jié)構(gòu)化數(shù)據(jù),確保大數(shù)據(jù)的有效性、有用性。另外,電子卷宗的推廣、證據(jù)標(biāo)準(zhǔn)判斷的數(shù)據(jù)化,也為更多地使用裁判文書以外的其他數(shù)據(jù)來源提供了重要機(jī)遇。這有助于我們獲得裁判文書網(wǎng)以外的豐富材料,進(jìn)而助力開展更為多元的研究。只有當(dāng)法官乃至所有法律行動(dòng)者的行為模式與決策信息充分?jǐn)?shù)據(jù)化時(shí),法律大數(shù)據(jù)才能真正被稱為“大數(shù)據(jù)”。
第三,重視和利用好當(dāng)下的大量數(shù)據(jù),包括區(qū)域性的全樣本數(shù)據(jù)。受制于各種客觀條件,大量數(shù)據(jù)而非大數(shù)據(jù)可能是研究者在很長一段時(shí)間內(nèi)所面臨的窘境。但大量數(shù)據(jù)也是法學(xué)研究的重要材料,值得高度重視與充分利用。為此,一方面,要避免數(shù)據(jù)樣本帶來的數(shù)據(jù)偏誤,特別是系統(tǒng)性偏差。了解現(xiàn)有數(shù)據(jù)公布的偏差情況,是利用好已有的數(shù)據(jù)材料,尤其是裁判文書網(wǎng)所公布的裁判文書的前提所在。例如,由于不同案件公開的比例差異,在進(jìn)行裁判文書的數(shù)據(jù)挖掘時(shí),刑事類的分析所包含的數(shù)據(jù)偏誤就天然小于民事類;一般刑事案件的分析就優(yōu)于貪腐類犯罪;離婚糾紛由于大量采用調(diào)解的方式結(jié)案,而調(diào)解文書通常不予公開,這就決定了有關(guān)婚姻類的大數(shù)據(jù)挖掘報(bào)告需要謹(jǐn)慎對(duì)待。基于數(shù)據(jù)本身的局限性,在利用裁判文書網(wǎng)進(jìn)行研究時(shí),可以適當(dāng)縮小研究范圍,并限定研究對(duì)象,確保在有限的數(shù)據(jù)條件下盡可能地收集、獲取某領(lǐng)域或某類別相對(duì)完整、具有一定代表性的真實(shí)數(shù)據(jù)。此外,還可運(yùn)用諸如“貝葉斯方法”和“大數(shù)定律”等數(shù)理統(tǒng)計(jì)方法對(duì)現(xiàn)有數(shù)據(jù)進(jìn)行推斷,從而正確識(shí)別并驗(yàn)證數(shù)據(jù)的代表性。另一方面,重視區(qū)域性的全樣本法律大數(shù)據(jù)。我國疆域遼闊,不同地域之間的人文、地理環(huán)境差異巨大,收集全國范圍內(nèi)的全樣本(或近似于全樣本)數(shù)據(jù)無疑具有相當(dāng)難度,如果轉(zhuǎn)而收集若干具有代表性的區(qū)域性全樣本數(shù)據(jù),則可以提高數(shù)據(jù)收集的成功率。
(二)探索并深入展開大數(shù)據(jù)法律研究的科學(xué)方式
第一,探索新型、專門的大數(shù)據(jù)獲取、分析技術(shù),并充分運(yùn)用于大數(shù)據(jù)法律研究。“基于大數(shù)據(jù)技術(shù)而獲取的數(shù)據(jù),已經(jīng)不同于社會(huì)科學(xué)研究中普遍使用的隨機(jī)數(shù)據(jù)”,因而,“在統(tǒng)計(jì)推斷等方面需要因應(yīng)調(diào)整”。在大數(shù)據(jù)挖掘、整理、分析方面,目前已經(jīng)有較為成熟的統(tǒng)計(jì)方式和數(shù)據(jù)科學(xué)方式,而與統(tǒng)計(jì)學(xué)相關(guān)但又頗為不同的機(jī)器學(xué)習(xí)方法也已崛起并運(yùn)用于大數(shù)據(jù)分析之中。如何甄別大數(shù)據(jù)的有效性、真實(shí)性,如何分析、判斷數(shù)據(jù)之間的相關(guān)性與因果關(guān)系,還應(yīng)有更多的方法與技術(shù)。在目前的大數(shù)據(jù)法律研究領(lǐng)域,數(shù)據(jù)挖掘依然主要通過正則表達(dá)式的方式。該方式在處理高度規(guī)整的文書表達(dá)時(shí)具有很強(qiáng)的準(zhǔn)確性,如從海量文書中自動(dòng)提取辯護(hù)人的數(shù)量、身份等表述高度一致的數(shù)據(jù)。然而,正則表達(dá)式在面臨高度多元化的表達(dá)時(shí),由于無法窮盡表述,就多少顯得力不從心。例如,“自首”也許在文書中并不會(huì)以“自首”的關(guān)鍵詞出現(xiàn),而是以“家屬扭送”等諸多樣態(tài)的語詞呈現(xiàn),此時(shí)就需要用自然語義識(shí)別技術(shù)(NLP)。這類技術(shù)在法學(xué)領(lǐng)域才剛剛起步,主要出現(xiàn)在大數(shù)據(jù)與人工智能的司法實(shí)踐中,還較少被應(yīng)用于法律大數(shù)據(jù)的研究中。
專門的數(shù)據(jù)分析機(jī)構(gòu)具有得天獨(dú)厚的技術(shù)與人才優(yōu)勢,法律研究者和司法部門必須思考如何更好地借助專門數(shù)據(jù)分析機(jī)構(gòu)和人工智能科技公司的優(yōu)勢,充分挖掘、分析與利用數(shù)據(jù)。中國電子信息產(chǎn)業(yè)發(fā)展研究院在2017年發(fā)布的《中國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展水平評(píng)估報(bào)告》中指出,“我國大數(shù)據(jù)產(chǎn)業(yè)發(fā)展將迎來‘黃金期’,產(chǎn)業(yè)聚集將進(jìn)一步特色化發(fā)展,技術(shù)融合創(chuàng)新將更加深入”。法律研究者也應(yīng)搭乘大數(shù)據(jù)發(fā)展的“快車”,充分發(fā)揮專門的大數(shù)據(jù)獲取、分析技術(shù)的作用。這些技術(shù)往往既非傳統(tǒng)法律實(shí)證研究的方法,也不全是當(dāng)下分析小數(shù)據(jù)所運(yùn)用的統(tǒng)計(jì)方法,而是數(shù)學(xué)與計(jì)算機(jī)內(nèi)容交叉、不斷發(fā)展進(jìn)化的、以機(jī)器學(xué)習(xí)為主的新型方法。當(dāng)然,研究者也需要注重對(duì)技術(shù)的深度學(xué)習(xí)與直接使用,努力做到自己掌握、使用現(xiàn)有技術(shù)工具進(jìn)行數(shù)據(jù)收集、挖掘與分析。
第二,充分利用數(shù)據(jù)進(jìn)行深度分析。簡單的描述性統(tǒng)計(jì)分析方法在面對(duì)海量數(shù)據(jù)時(shí)顯得力不從心,特別是當(dāng)大數(shù)據(jù)獲取的信息本身就“漫無邊際”“支離破碎”而“根本不可能直接用于任何量化分析時(shí)”更是如此。為了提升大數(shù)據(jù)的利用水平與分析效能,需要將小數(shù)據(jù)社科研究中已普遍運(yùn)用和相對(duì)成熟的數(shù)據(jù)分析方法,如列聯(lián)表分析、相關(guān)性分析、回歸分析與統(tǒng)計(jì)學(xué)中處理高維數(shù)據(jù)的方法等,運(yùn)用到大數(shù)據(jù)分析中,熟練運(yùn)用SPSS、SAS等統(tǒng)計(jì)分析軟件深度挖掘隱藏在法律大數(shù)據(jù)之中的寶藏。“只有通過對(duì)數(shù)據(jù)的大量輸入并加上復(fù)雜運(yùn)算,讓數(shù)據(jù)不斷產(chǎn)生又不斷拆分、整合,融合生成新的產(chǎn)品,然后輸出、使用,才能形成‘?dāng)?shù)據(jù)生產(chǎn)信息,信息改善決策’,這正是大數(shù)據(jù)發(fā)揮作用的基本原理。”考慮到大數(shù)據(jù)分析的重要性,必須思考如何在中短期內(nèi)提升大數(shù)據(jù)深度分析水平。當(dāng)然,大數(shù)據(jù)法律研究在多大程度上真正需要運(yùn)用以及如何運(yùn)用統(tǒng)計(jì)學(xué)之外的其他分析方法,還有待進(jìn)一步思考與探索。此外,面對(duì)法律大數(shù)據(jù)在數(shù)量、內(nèi)容上的急遽增加,特別是面對(duì)“來源更加廣泛,數(shù)據(jù)粒度更小,記錄單元更加碎片化,結(jié)構(gòu)更加多元化”的大數(shù)據(jù),現(xiàn)有的分析工具和統(tǒng)計(jì)手段可能無法滿足處理需求,此時(shí)就要借助人工智能。通過將人工智能與法律大數(shù)據(jù)結(jié)合,對(duì)巨量數(shù)據(jù)進(jìn)行智能篩選與算法分析,從而提升海量數(shù)據(jù)的分析效能。
隨著數(shù)據(jù)來源以驚人的速度擴(kuò)展,人們會(huì)逐漸加深對(duì)大數(shù)據(jù)的依賴,也需要保持對(duì)大數(shù)據(jù)及其相關(guān)技術(shù)的超脫。一方面,大數(shù)據(jù)的分析手段如人工智能的算法本身就面臨諸多“技術(shù)陷阱”,甚至被一些研究者認(rèn)為是在黑箱中運(yùn)作,因此必須警惕其潛在風(fēng)險(xiǎn)。另一方面,特別“要防止為技術(shù)所裹挾,避免成為簡單的技術(shù)主義者”。只有如此,才能保持“人文社會(huì)科學(xué)工作者的思想高度、理論品格和價(jià)值定位”,進(jìn)而產(chǎn)出更有溫度的優(yōu)秀成果。
第三,推動(dòng)研究的團(tuán)隊(duì)化與多學(xué)科的交叉融合,并致力于培養(yǎng)復(fù)合型大數(shù)據(jù)法學(xué)人才。以往的法律實(shí)證研究注重研究者的專業(yè)性和個(gè)體性,表現(xiàn)為研究者獨(dú)自收集資料、分析問題、撰寫文章,個(gè)人的冥思與獨(dú)創(chuàng)發(fā)揮著主要作用。在小數(shù)據(jù)研究中,這種模式能基本勝任。但大數(shù)據(jù)法律研究時(shí)常所處理的是海量雜亂數(shù)據(jù),這“意味著人類的記錄范圍、測量范圍和分析范圍在不斷擴(kuò)大,知識(shí)的邊界在不斷延伸”。大數(shù)據(jù)時(shí)代的到來,“提供了人文社會(huì)科學(xué)學(xué)者大規(guī)模協(xié)作的可能”,也使之成為一種必要。在大數(shù)據(jù)法律研究及相關(guān)人工智能應(yīng)用研究中,無論是數(shù)據(jù)的收集、整理,還是其分析、運(yùn)用,都需要研究者具有多學(xué)科的知識(shí)與經(jīng)驗(yàn),如數(shù)據(jù)挖掘就涉及數(shù)據(jù)庫技術(shù)、機(jī)器學(xué)習(xí)、模式識(shí)別、知識(shí)庫工程、神經(jīng)網(wǎng)絡(luò)、數(shù)理統(tǒng)計(jì)、信息的可視化等眾多領(lǐng)域,知識(shí)結(jié)構(gòu)單一的研究者甚至研究團(tuán)隊(duì),往往難以應(yīng)對(duì)。為了更好地開展大數(shù)據(jù)法律研究,法學(xué)研究者需要通過加強(qiáng)團(tuán)隊(duì)建設(shè),特別是加強(qiáng)與計(jì)算機(jī)科學(xué)、軟件科學(xué)、統(tǒng)計(jì)學(xué)等相關(guān)學(xué)科的專業(yè)人士以及大數(shù)據(jù)、人工智能科技公司之間的合作,以更好地應(yīng)對(duì)大數(shù)據(jù)法律研究帶來的機(jī)遇與挑戰(zhàn)。同時(shí),大數(shù)據(jù)法律研究者自身更需要突破知識(shí)儲(chǔ)備、學(xué)術(shù)理念、價(jià)值方面的障礙,學(xué)習(xí)、掌握和應(yīng)用統(tǒng)計(jì)學(xué)、數(shù)據(jù)科學(xué)的知識(shí)與研究方法。就此而言,面向未來的大數(shù)據(jù)法律研究復(fù)合型人才培養(yǎng)極為重要。目前,國內(nèi)一些高校已經(jīng)相繼開設(shè)了大數(shù)據(jù)課程。未來,具備資源優(yōu)勢和技術(shù)條件的院校可以制定“大數(shù)據(jù)——法學(xué)復(fù)合型人才培養(yǎng)計(jì)劃”,系統(tǒng)培養(yǎng)既懂技術(shù)又懂法律的復(fù)合型人才,為大數(shù)據(jù)法律研究與實(shí)踐儲(chǔ)備更多生力軍。
第四,長期以來,基于小數(shù)據(jù)的法律實(shí)證研究一直是主流研究方式,有其重大學(xué)術(shù)價(jià)值。大數(shù)據(jù)研究在數(shù)據(jù)不足、方法把握不夠的情況下,如何確保研究的科學(xué)性呢?對(duì)此,將小數(shù)據(jù)研究和大數(shù)據(jù)研究相結(jié)合應(yīng)該是重要思路。具體而言,一是要在同一研究中就同一問題既應(yīng)用大數(shù)據(jù)研究,也開展小數(shù)據(jù)研究,共同驗(yàn)證研究結(jié)論;二是在大數(shù)據(jù)研究中適當(dāng)使用小數(shù)據(jù)研究的精細(xì)化思路與方法,把大數(shù)據(jù)研究細(xì)致化,從而提升大數(shù)據(jù)法律研究的科學(xué)性。
總之,身處大數(shù)據(jù)時(shí)代,我們正無時(shí)不刻不受到大數(shù)據(jù)廣泛而深刻的影響。這不僅為大數(shù)據(jù)法律研究的發(fā)展提供了空前機(jī)遇,也是傳統(tǒng)法律實(shí)證研究乃至法學(xué)研究范式升級(jí)轉(zhuǎn)型的一個(gè)重要契機(jī)。立足眼下,更為要緊的工作可能是正視并努力突破大數(shù)據(jù)法律研究所面臨的困境與羈絆。要正確理解法律大數(shù)據(jù),科學(xué)、有效地開展大數(shù)據(jù)法律研究,開發(fā)大數(shù)據(jù)法律研究獨(dú)特的技術(shù)與方法,提升數(shù)據(jù)獲取與分析技術(shù),注重培養(yǎng)復(fù)合型的研究人才。
聯(lián)系客服
微信登錄中...
請(qǐng)勿關(guān)閉此頁面