您現(xiàn)在的位置:首頁 > 背景提升 > 2024暑期iHUB·深圳:菁英項目:計算語言學專題: 自然語言的形式化數(shù)學模型建立及Python等計算機程序在上述模型中的分析處理方法研究【大學組】
驗證碼

獲取驗證碼

2024暑期iHUB·深圳:菁英項目:計算語言學專題: 自然語言的形式化數(shù)學模型建立及Python等計算機程序在上述模型中的分析處理方法研究【大學組】

專業(yè):人工智能

項目類型:海外導師線下項目

開始時間:2024年07月20日

是否可加論文:是

項目周期:1周在線科研+14天面授科研+5周在線論文指導

語言:英文

有無剩余名額:名額充足

建議學生年級:大學生

是否必需面試:否

適合專業(yè):計算機科學軟件工程信號與信息處理機器學習數(shù)據(jù)科學數(shù)據(jù)分析深度學習人工智能自然語言處理

地點:深圳國際預科書院

建議選修:Python編程與數(shù)據(jù)處理

建議具備的基礎:計算機科學、人工智能、計算語言學等專業(yè)或者希望修讀相關專業(yè)的學生; 學生需要具備初等線性代數(shù)基礎,至少會使用一門編程語言實現(xiàn)如貝葉斯分類器等經典機器學習算法,有深度學習項目開發(fā)經驗的申請者優(yōu)先;

產出:1周在線科研+14天面授科研+5周在線論文指導 項目報告 優(yōu)秀學員獲主導師Reference Letter EI/CPCI/Scopus/ProQuest/Crossref/EBSCO或同等級別索引國際會議全文投遞與發(fā)表指導(可用于申請) 結業(yè)證書 成績單

項目背景:“You are what you say.”語言是思維的表達,思維是語言的內容。思維和語言是人類意識的集中體現(xiàn),更是人與機器的分野。長久以來,人工智能依然停留在“弱人工智能”的階段,無法等同于人類智能,核心原因在于算法無法幫助機器“理解語義邏輯”。也就是說,“人工智能如果不能使用自然語言作為知識的表示基礎,人工智能就實現(xiàn)不了實質的跨越?!币虼?,旨在讓機器以有價值的方式閱讀、解密和理解人類語言,實現(xiàn)人機互動的自然語言處理,是人工智能、機器學習的核心研究對象,具有重要的行研價值和廣闊的發(fā)展空間。自然語言處理科學家更是高精尖科技企業(yè)爭相搶奪的對象。自然語言處理的具體應用包括谷歌語音識別、科大訊飛自動翻譯、百度自然語言處理平臺等等。

項目介紹:項目內容包括線性回歸、邏輯回歸、決策樹、SVM機器學習算法和自然語言處理中的文本分類問題。學生將深入探究Word2Vec詞向量嵌入、Doc2Vec文本向量生成、基于LSTM和其他RNN的分類算法,了解RNN模型缺陷以及基于Attention的Transformer語言模型如何彌補這些缺陷。學生將在項目結束時,提交個性化研究課題項目報告,進行成果展示。
個性化研究課題參考:
基于雙向LSTM語言模型的多義詞消歧
根據(jù)推文內容語義與語言習慣分析判斷用戶所在城市
發(fā)表基于NLP的微博內容調查報告
評估句子片段幽默程度的自注意力算法優(yōu)化

項目大綱:自然語言處理及深度神經網絡 Introduction to Language Modeling and DNN Word2Vec模型詞嵌入 Word embeddings using the Word2Vec model Doc2Vec: 文檔的向量化表示 Doc2Vec: vectorized representation of documents 數(shù)據(jù)驅動的分類算法與循環(huán)神經網絡和長短期記憶網絡 Data-driven classification algorithms; recurrent neural networks and LSTM 循環(huán)神經網絡的缺陷;基于Attention的Transformer模型 Drawbacks of RNNs; attention-based transformers 精度優(yōu)化 SOTA 基于遷移學習的語言模型Transfer Learning for Language Models 項目回顧與成果展示 Program Review and Presentation 論文輔導 Project Deliverables Tutoring

更多課程分類
驗證碼

獲取驗證碼