精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
NLP:自然語言處理技術的簡介、發展歷史、案例應用之詳細攻略

NLP:自然語言處理技術的簡介、發展歷史、案例應用之詳細攻略


相關文章
NLP:自然語言處理技術的簡介、發展歷史、案例應用之詳細攻略
Paper之ACL&EMNLP:2009年~2019年ACL計算語言學協會年會&EMNLP自然語言處理的經驗方法會議歷年最佳論文簡介及其解讀

自然語言處理技術的簡介

? ? ? ?自然語言處理(Natural Language Processing,NLP)是計算機科學,人工智能,語言學關注計算機和人類(自然)語言之間的相互作用的領域。自然語言處理是計算機科學領域與人工智能領域中的一個重要方向。它研究能實現人與計算機之間用自然語言進行有效通信的各種理論和方法。自然語言處理是一門融語言學、計算機科學、數學于一體的科學。因此,這一領域的研究將涉及自然語言,即人們日常使用的語言,所以它與語言學的研究有著密切的聯系,但又有重要的區別。自然語言處理并不是一般地研究自然語言,而在于研制能有效地實現自然語言通信的計算機系統,特別是其中的軟件系統。因而它是計算機科學的一部分。

1、自然語言+處理

? ? ? ?自然語言是指漢語、英語、法語等人們日常使用的語言,是人類社會發展演變而來的語言,而不是人造的語言,它是人類學習生活的重要工具。概括說來,自然語言是指人類社會約定俗成的,區別于如程序設計的語言的人工語言。在整個人類歷史上以語言文字形式記載和流傳的知識占到知識總量的80%以上。就計算機應用而言,據統計,用于數學計算的僅占10%,用于過程控制的不到5%,其余85%左右都是用于語言文字的信息處理。
? ? ? ?處理包含理解、轉化、生成等過程。自然語言處理,是指用計算機對自然語言的形、音、義等信息進行處理,即對字、詞、句、篇章的輸入、輸出、識別、分析、理解、生成等的操作和加工。實現人機間的信息交流,是人工智能、計算機科學和語言學所共同關注的重要問題。自然語言處理的具體表現形式包括機器翻譯、文本摘要、文本分類、文本校對、信息抽取、語音合成、語音識別等。可以說,自然語言處理就是要計算機理解自然語言,自然語言處理機制涉及兩個流程,包括自然語言理解自然語言生成。自然語言理解是指計算機能夠理解自然語言文本的意義,自然語言生成則是指能以自然語言文本來表達給定的意圖。

2、NLP技術的意義

? ? ? ?用自然語言與計算機進行通信,這是人們長期以來所追求的。因為它既有明顯的實際意義,同時也有重要的理論意義:人們可以用自己最習慣的語言來使用計算機,而無需再花大量的時間和精力去學習不很自然和習慣的各種計算機語言;人們也可通過它進一步了解人類的語言能力和智能的機制。

3、NLP的兩個方向——自然語言理解自然語言生成

? ? ? ?實現人機間自然語言通信意味著要使計算機既能理解自然語言文本的意義,也能以自然語言文本來表達給定的意圖、思想等。前者稱為自然語言理解,后者稱為自然語言生成。因此,自然語言處理大體包括了自然語言理解和自然語言生成兩個部分。歷史上對自然語言理解研究得較多,而對自然語言生成研究得較少。但這種狀況已有所改變。
? ? ? ?無論實現自然語言理解,還是自然語言生成,都遠不如人們原來想象的那么簡單,而是十分困難的。從現有的理論和技術現狀看,通用的、高質量的自然語言處理系統,仍然是較長期的努力目標,但是針對一定應用,具有相當自然語言處理能力的實用系統已經出現,有些已商品化,甚至開始產業化。典型的例子有:多語種數據庫和專家系統的自然語言接口、各種機器翻譯系統、全文信息檢索系統、自動文摘系統等。

4、自然語言理解的五個層次

? ? ? ?自然語言的理解和分析是一個層次化的過程,許多語言學家把這一過程分為五個層次,可以更好地體現語言本身的構成,五個層次分別是語音分析、詞法分析、句法分析、語義分析語用分析

  • 語音分析:要根據音位規則,從語音流中區分出一個個獨立的音素,再根據音位形態規則找出音節及其對應的詞素或詞。
  • 詞法分析:找出詞匯的各個詞素,從中獲得語言學的信息
  • 句法分析:對句子和短語的結構進行分析,目的是要找出詞、短語等的相互關系以及各自在句中的作用
  • 語義分析:找出詞義、結構意義及其結合意義,從而確定語言所表達的真正含義或概念
  • 語用分析:研究語言所存在的外界環境對語言使用者所產生的影響

5、圖靈試驗判斷計算機是否理解了某種自然語言

? ? ? ?在人工智能領域或者是語音信息處理領域中,學者們普遍認為采用圖靈試驗可以判斷計算機是否理解了某種自然語言,具體的判別標準有以下幾條:

  • 問答:機器人能正確回答輸入文本中的有關問題;
  • 文摘生成:機器有能力生成輸入文本的摘要;
  • 釋義:機器能用不同的詞語和句型來復述其輸入的文本;
  • 翻譯:機器具有把一種語言翻譯成另一種語言的能力。

自然語言處理技術的發展歷史

? ? ? ?自然語言處理是包括了計算機科學、語言學心理認知學等一系列學科的一門交叉學科,這些學科性質不同但又彼此相互交叉。最早的自然語言理解方面的研究工作是機器翻譯。1949年,美國人威弗首先提出了機器翻譯設計方案。20世紀60年代,國外對機器翻譯曾有大規模的研究工作,耗費了巨額費用,但人們當時顯然是低估了自然語言的復雜性,語言處理的理論和技術均不成熱,所以進展不大。
? ? ? ?近年自然語言處理在詞向量(word embedding)表示、文本的(編碼)encoder和decoder(反編碼)技術以及大規模預訓練模型(pre-trained)上的方法極大地促進了自然語言處理的研究。

1、20世紀50年代到70年代——采用基于規則的方法

? ? ? ?1950年圖靈提出了著名的“圖靈測試”,這一般被認為是自然語言處理思想的開端,20世紀50年代到70年代自然語言處理主要采用基于規則的方法,研究人員們認為自然語言處理的過程和人類學習認知一門語言的過程是類似的,所以大量的研究員基于這個觀點來進行研究,這時的自然語言處理停留在理性主義思潮階段,以基于規則的方法為代表。但是基于規則的方法具有不可避免的缺點,首先規則不可能覆蓋所有語句,其次這種方法對開發者的要求極高,開發者不僅要精通計算機還要精通語言學,因此,這一階段雖然解決了一些簡單的問題,但是無法從根本上將自然語言理解實用化。

2、20世紀70年代到21世紀初——采用基于統計的方法

? ? ? ?70年代以后隨著互聯網的高速發展,豐富的語料庫成為現實以及硬件不斷更新完善,自然語言處理思潮由經驗主義向理性主義過渡,基于統計的方法逐漸代替了基于規則的方法。賈里尼克和他領導的IBM華生實驗室是推動這一轉變的關鍵,他們采用基于統計的方法,將當時的語音識別率從70%提升到90%。在這一階段,自然語言處理基于數學模型和統計的方法取得了實質性的突破,從實驗室走向實際應用。

3、2008年到2019年——深度學習的RNN、LSTM、GRU

? ? ? ?從2008年到現在,在圖像識別和語音識別領域的成果激勵下,人們也逐漸開始引入深度學習來做自然語言處理研究,由最初的詞向量到2013年的word2vec,將深度學習與自然語言處理的結合推向了高潮,并在機器翻譯、問答系統、閱讀理解等領域取得了一定成功。深度學習是一個多層的神經網絡,從輸入層開始經過逐層非線性的變化得到輸出。從輸入到輸出做端到端的訓練。把輸入到輸出對的數據準備好,設計并訓練一個神經網絡,即可執行預想的任務。RNN已經是自然語言處理最常用的方法之一,GRU、LSTM等模型相繼引發了一輪又一輪的熱潮。

4、自然語言處理最新進展

? ? ? ?近年來,預訓練語言模型在自然語言處理領域有了重要進展。預訓練模型指的是首先在大規模無監督的語料上進行長時間的無監督或者是自監督的預先訓練(pre-training),獲得通用的語言建模和表示能力。之后在應用到實際任務上時對模型不需要做大的改動,只需要在原有語言表示模型上增加針對特定任務獲得輸出結果的輸出層,并使用任務語料對模型進行少許訓練即可,這一步驟被稱作微調(fine tuning)。
? ? ? ?自 ELMo、GPT、BERT 等一系列預訓練語言表示模型(Pre-trained Language Representation Model)出現以來,預訓練模型在絕大多數自然語言處理任務上都展現出了遠遠超過傳統模型的效果,受到越來越多的關注,是 NLP 領域近年來最大的突破之一,是自然語言處理領域的最重要進展。?

? ? ? ?BERT(Bidirectional Encoder Representation from Transformer)是 Google AI于NAACL2019 提出的一個預訓練語言模型。BERT 的創新點是提出了有效的無監督預訓練任務,從而使得模型能夠從無標注語料中獲得通用的語言建模能力。BERT之后涌現了許多對其進行擴展的模型(如上圖所示),包括:跨語言預訓練的XLM和UDify,跨模態預訓練的模型,融合知識圖譜的ERNIE,將seq2seq等語言生成任務整合入BERT類模型的MASS, UniLM等。其中幾個重要的進展包括:

  • (1)XLNet使用Transformer-XL替代了Transformer作為基礎模型,擁有編碼超長序列的能力。XLNet提出了一個新的預訓練語言任務:Permutation Language Modeling(排列語言模型),模型將句子內的詞語打亂順序,從而使得預測當前詞語時可以利用雙向信息。XLNet相對BERT也使用了更多的語料。
  • (2)RoBERTa采用了與BERT具有相同的模型結構,同樣采用了屏蔽語言模型任務進行預訓練,但舍棄了 BERT中下句預測模型。此外,RoBERTa采用了更大規模的數據和更魯棒的優化方法,從而取得了更好的表現。
  • (3)ALBERT模型針對BERT參數量過大難以訓練的問題做了優化,一是對詞向量矩陣做分解,二是在層與層之間共享參數。此外,ALBERT將下句預測模型替換為句序預測任務,即給定一些句子預測它們的排列順序。

自然語言處理技術的案例應用

1、算法實踐中常用的庫

  • word2vec
  • nltk
  • jieba

2、應用案例集合

NLP之情感分析:基于python編程(jieba庫)實現中文文本情感分析(得到的是情感評分)
NLP之TEA:基于SnowNLP實現自然語言處理之對輸入文本進行情感分析(分詞→詞性標注→拼音&簡繁轉換→情感分析→測試)
NLP之WordCloud:基于jieba+matplotlib庫對一段文本生成詞云圖~~情人節最好的禮物(給你一張過去的詞云圖,看看那時我們的愛情)
NLP:基于textrank4zh庫對文本實現提取文本關鍵詞、文本關鍵短語和文本摘要
NLP:基于snownlp庫對文本實現提取文本關鍵詞和文本摘要

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
2019年上半年收集到的人工智能自然語言處理方向干貨文章
哈工大計算學部長聘教授車萬翔:ChatGPT淺析
自然語言處理的蓬勃發展及其未來
詳解自然語言處理(NLP)5大語義分析技術及14類應用(建議收藏)
自然語言處理簡介
谷歌開源BERT模型源代碼,最先進的自然語言處理前訓練技術
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 汶川县| 渝中区| 蚌埠市| 龙里县| 邵武市| 镇康县| 洱源县| 邢台市| 蚌埠市| 定远县| 永州市| 油尖旺区| 长治市| 江源县| 高安市| 枣阳市| 石棉县| 唐山市| 辽宁省| 连城县| 彰化县| 武山县| 重庆市| 红安县| 浮梁县| 本溪市| 工布江达县| 娱乐| 湟中县| 宣汉县| 梁山县| 兰溪市| 肥乡县| 苍梧县| 云和县| 岳普湖县| 清水县| 古田县| 察雅县| 阳信县| 平泉县|