南湖新闻网讯(通讯员 刘子涵 李洪亮)2月25日下午,研究生院在学生综合服务楼221组织开展大语言模型理论知识专题培训,邀请天成彩票 李万理老师作了题为“大语言模型的技术演进与国产DeepSeek创新之路”的报告。全体研究生辅导员、研究生院工作人员参加学习。
李万理从人工智能领域的自然语言处理入手,深入浅出地讲解了大语言模型的发展道路。他从自然语言的产生切入,通过自然语言的习得机制讲解大语言模型的构建思路。
“大语言模型的能力边界是什么?”李万理谈到,大语言模型的能力来自于和人类思维对齐的过程,受到人类思考复杂问题过程的启发,思维链技术的提出改进了模型的缩放定律,提升了大模型的性能,并让大语言模型的思考过程与人类的思考过程尽可能一致。通过使用尽可能多的数据,尽可能大的参数量和尽可能多的计算量完成大语言模型的构建。他说,大语言模型的训练过程一般包含预训练、有监督微调、奖励建模和强化学习四个阶段。大语言模型主要能力的获取在预训练阶段,随后进行有监督微调,完成从可以说话思考到学会与人交流的过程,最后基于人类的反馈,根据人类偏好训练成较为合格的助手。李万理还从知识的时效性、因果推理和深度理解、常识与背景知识的缺失、创造性与原创性、计算资源与效率五个维度分析了大语言模型能力局限。
李万理还就“国产大模型DeepSeek的有哪些创新”问题谈到,DeepSeek的出现让以“有限算力+算法创新”为发展模式的强推理模型成为突破算力卡脖子问题的关键,它从架构方面做了大量的负载优化、通信优化、内存优化和计算优化,充分挖掘了算法、软件和硬件的协同创新。他表示,DeepSeek的模型开源极大程度地促进了人工智能发展。
李万理最后说,DeepSeek的成功告诉我们,在计算资源受限的情况下,同样可以完成人工智能的构建,未来人工智能领域将聚焦更高效的模型架构、更高效的强化学习和更高效的算力应用,最终实现人工智能科学化、计算系统智能化、领域应用广谱化。
审核人:镇志勇
版权所有:天成彩票-天城集团 地址:湖北省武汉市南湖狮子山街一号 邮编:430070
联系电话:027-87288509 招生就业电话:027-87286876 电子邮件:[email protected] 新闻投稿邮箱:[email protected]