当前位置: 爱游戏(AYX)中国官方网站 > 成功案例 > 李沐重返母校上交秒变追星现场
李沐重返母校上交秒变追星现场
时间:2024-08-30 15:34:04 点击次数:

  爱游戏AYX官网入口登陆网址尤其是正值李沐老师创业一年半(BosonAI)之际,他在现场基于自己的经历,总结了三个不同阶段中“每天在想的基本目标”:

  首先对于LLM的整体构成,李沐认为主要分为三大方面,分别是数据、算力和算法。

  就好比小说里很多主角去深山里找材料一样,搞数据是个很难的过程,是个体力活。

  之后的“算力”就是炼“数据”,火量大一点、设备先进一点,能炼出来的东西就越好。

  至于“算法”就相当于丹方,但这点与小说是不同的,因为它每年都在快速进步、变化,并且对细节的把控显得格外重要。

  但现在LLM“炼丹”,(开发者或用户)是希望有灵魂在里面的,它能够解决很多问题。

  这是因为现在大模型的训练很难通过一个机器来搞定,而要做分布式,那么瓶颈就会出现在带宽上了。

  毕竟现在基本上都会是多个服务器机架甚至是集群,即便两个机架间隔1米,但由此带来的哪怕几纳秒的延迟也是不能忍的。

  大模型在训练过程中,是把超大的数据压缩到了一起,使得模型的体量动辄便是几百个G,运行时的中间变量也会变得很大,因此需要很大的内存:

  这就意味着我们的模型大小一定程度上会被受限在某个尺寸;内存不够,模型就大不了。

  而模型到了一定尺寸之后,资源(Resources)又成了问题,也就是供电。

  至于价格,当算力翻倍的时候,价格目前不一定会保持不变,可能是1.4倍的价格;但当市场竞争足够,长期来看可以做到价格不变。

  至于芯片的替代品(Alternatives),李沐认为谷歌的TPU、英特尔的Habana、AMD和Azure的芯片在做推理时是OK的;但训练方面,可能还需要几年的时间。

  在模型方面,李沐从语言(Language)、语音(Voice)、音乐(Music)、图像(Image)和视频(Video)等不同模态方面做了介绍,并认为多模态是当下的一个趋势。

  至于大模型的应用(Applicaitions),李沐认为它们本质应该是可以为用户提供无限的人力资源。

  而这些应用目前在白领和蓝领职场上“上岗”或“协作”的效果如何,李沐做了个表格。

  以及,在大模型评测方面,李沐认为现在的评测太简单了,即使各种刷榜,但用起来的时候就能感受到真实效果。

  而除了技术之外,李沐在这次演讲中也给上交大的师生们分享了自己在职场上的心得。

  本科和研究生就读于上海交通大学,而后赴香港科技大学和CMU深造,在伯克利和斯坦福担任助理教授。

  也曾任职于百度和亚马逊等科技大厂,最近的一年半则是创业BosonAI(第二次创业)。

  李沐回顾自己的过往,在现场戏称为“打卡式人生”——什么样的地方都转过了一遍了。

  这也正是我们文章开头提到的“每天在想的基本目标”(精彩的内容必须再提一遍):

  基于这三个大方面,李沐基于自己的经验,将各自阶段的优点和缺点罗列了出来。

  例如对于“打工人”这个角色,李沐的PPT刚出来,上交大的学子们便笑了出来:

  但李沐此次演讲的两个大part并非是割裂的,相反,是可以非常自然的做一个“有机结合”。

  而谈到创业归来,就在前几天,李沐在知乎写的一篇文章《创业一年,人间三年》非常火爆。

  不仅是李沐自述了创业一年来的进展,也在三言两语之间,展现了大佬创业的势能——

  一开始没打算直接做大模型,但张一鸣建议要创业就直接大模型;买卡需要排队等不及只好给老黄写信,没想到老黄就给安排了;刚创业做游戏的“老蔡”就来交流过了——米哈游那个老蔡;在斯坦福和快手创始人宿华散步,感叹创业心得……

  目前已经有B站网友Kimoyee将李沐老师此次的演讲视频上传,感兴趣的小伙伴们可以“深度学习”下哦~


本文由:爱游戏真空泵水泵设备公司提供
网站地图

Copyright © 爱游戏(AYX)中国官方网站 版权所有