【時(shí)間】2025年3月13日(周四)下午14:30 開(kāi)始
【地點(diǎn)】線下講座,9A103會(huì)議室
【主題】deepseek-r1模型介紹及其訓(xùn)練方法研究
【主講人】蘇航博士
【內(nèi)容簡(jiǎn)介】
近年來(lái),大語(yǔ)言模型在文本生成、對(duì)話等任務(wù)中展現(xiàn)了強(qiáng)大能力,但在需要嚴(yán)格邏輯推理的場(chǎng)景(如數(shù)學(xué)證明、代碼生成)中仍存在顯著缺陷。如何提升大語(yǔ)言模型的復(fù)雜推理能力并保證推理過(guò)程的可解釋性,成為亟待解決的關(guān)鍵問(wèn)題。為解決此問(wèn)題,推理語(yǔ)言模型應(yīng)運(yùn)而生,然而大規(guī)模的推理語(yǔ)言模型需要更大規(guī)模的監(jiān)督學(xué)習(xí)數(shù)據(jù)和計(jì)算資源。DeepSeek-R1通過(guò)更加存粹的強(qiáng)化學(xué)習(xí)方法重塑了大語(yǔ)言模型推理能力的訓(xùn)練方法基準(zhǔn)。使模型能夠自主學(xué)習(xí)和發(fā)展推理行為,其第一代模型DeepSeek-R1在性能上已達(dá)到甚至超越 OpenAI 等前沿專用系統(tǒng)的水平,樹(shù)立了新的行業(yè)基準(zhǔn)。并且DeepSeek通過(guò)新的知識(shí)蒸餾技術(shù),將先進(jìn)的推理能力遷移到更小、更高效的模型中,使強(qiáng)大的人工智能變得更加易得且經(jīng)濟(jì)高效。這種對(duì)可擴(kuò)展性和效率的雙重關(guān)注,使得 DeepSeek 成為了推動(dòng)國(guó)內(nèi)大模型AI發(fā)展的重要力量。本次講座將基于DeepSeek-R1的原論文內(nèi)容探討其訓(xùn)練方法。
誠(chéng)摯歡迎廣大師生參加。