爱游戏AYX官网入口登陆网址尤其是正值李沐老师创业一年半(BosonAI)之际,他在现场基于自己的经历,总结了三个不同阶段中“每天在想的基本目标”:
首先对于LLM的整体构成,李沐认为主要分为三大方面,分别是数据、算力和算法。
就好比小说里很多主角去深山里找材料一样,搞数据是个很难的过程,是个体力活。
之后的“算力”就是炼“数据”,火量大一点、设备先进一点,能炼出来的东西就越好。
至于“算法”就相当于丹方,但这点与小说是不同的,因为它每年都在快速进步、变化,并且对细节的把控显得格外重要。
但现在LLM“炼丹”,(开发者或用户)是希望有灵魂在里面的,它能够解决很多问题。
这是因为现在大模型的训练很难通过一个机器来搞定,而要做分布式,那么瓶颈就会出现在带宽上了。
毕竟现在基本上都会是多个服务器机架甚至是集群,即便两个机架间隔1米,但由此带来的哪怕几纳秒的延迟也是不能忍的。
大模型在训练过程中,是把超大的数据压缩到了一起,使得模型的体量动辄便是几百个G,运行时的中间变量也会变得很大,因此需要很大的内存:
这就意味着我们的模型大小一定程度上会被受限在某个尺寸;内存不够,模型就大不了。
而模型到了一定尺寸之后,资源(Resources)又成了问题,也就是供电。
至于价格,当算力翻倍的时候,价格目前不一定会保持不变,可能是1.4倍的价格;但当市场竞争足够,长期来看可以做到价格不变。
至于芯片的替代品(Alternatives),李沐认为谷歌的TPU、英特尔的Habana、AMD和Azure的芯片在做推理时是OK的;但训练方面,可能还需要几年的时间。
在模型方面,李沐从语言(Language)、语音(Voice)、音乐(Music)、图像(Image)和视频(Video)等不同模态方面做了介绍,并认为多模态是当下的一个趋势。
至于大模型的应用(Applicaitions),李沐认为它们本质应该是可以为用户提供无限的人力资源。
而这些应用目前在白领和蓝领职场上“上岗”或“协作”的效果如何,李沐做了个表格。
以及,在大模型评测方面,李沐认为现在的评测太简单了,即使各种刷榜,但用起来的时候就能感受到真实效果。
而除了技术之外,李沐在这次演讲中也给上交大的师生们分享了自己在职场上的心得。
本科和研究生就读于上海交通大学,而后赴香港科技大学和CMU深造,在伯克利和斯坦福担任助理教授。
也曾任职于百度和亚马逊等科技大厂,最近的一年半则是创业BosonAI(第二次创业)。
李沐回顾自己的过往,在现场戏称为“打卡式人生”——什么样的地方都转过了一遍了。
这也正是我们文章开头提到的“每天在想的基本目标”(精彩的内容必须再提一遍):
基于这三个大方面,李沐基于自己的经验,将各自阶段的优点和缺点罗列了出来。
例如对于“打工人”这个角色,李沐的PPT刚出来,上交大的学子们便笑了出来:
但李沐此次演讲的两个大part并非是割裂的,相反,是可以非常自然的做一个“有机结合”。
而谈到创业归来,就在前几天,李沐在知乎写的一篇文章《创业一年,人间三年》非常火爆。
不仅是李沐自述了创业一年来的进展,也在三言两语之间,展现了大佬创业的势能——
一开始没打算直接做大模型,但张一鸣建议要创业就直接大模型;买卡需要排队等不及只好给老黄写信,没想到老黄就给安排了;刚创业做游戏的“老蔡”就来交流过了——米哈游那个老蔡;在斯坦福和快手创始人宿华散步,感叹创业心得……
目前已经有B站网友Kimoyee将李沐老师此次的演讲视频上传,感兴趣的小伙伴们可以“深度学习”下哦~
本文由:
爱游戏真空泵水泵设备公司提供