智见|林咏华:基础大模型是AI中的“CPU”|智源|top|算法|ai

文章ID:445时间:2025-04-18人气:

林咏华 大模型 智源 top 算法 ai

用微信扫码二维码

智见林咏华基础大模型是AI中的CPU

分享至好友和朋友圈

随着 Chatgpt 等的发布,全球人工智能掀起了新一轮发展热潮,国内外大模型技术研究与产业发展日新月异,通用人工智能进入全新发展时期。

在2023大会上,大会除了邀请到了图灵奖得主 Geoffrey Hinton、Yann LeCun、Joseph Sifakis、麻省理工学院未来生命研究所创始人 Max Tegmark,openai 首席执行官 Sam Altman 等200余位人工智能顶尖专家以国际视角共话通用人工智能发展面临的机遇与挑战外,智源研究院发布了全面开源的“悟道3.0”系列大模型及,报告了在高精度生命模拟和有机大分子建模方面的最新进展。

此次悟道3.0包含的项目有「悟道・天鹰」(Aquila)语言大模型系列、FlagEval (天秤)大模型语言评测体系以及「悟道・视界」视觉大模型系列。此外 FlagOpen 飞智也带来了开源大模型技术体系最新进展。

作为北京智源人工智能研究院副院长兼总工程师,谈到此次智源发布天鹰有两个重要的亮点。

第一个亮点是高效,主要体现在两方面:一方面通过大量对训练架构的优化,提升了训练的吞吐量;一方面通过大量对数据、数字的精细化处理和清洗,达到用少的数据量来训练出一样性能甚至性能更好的模型。

第二个亮点是通过这次打造迭代循环的生产线和流水线,能够对模型的质量、安全性、价值观以及所缺乏的能力很快速的进行调整和提升。这两个亮点构成了未来大模型创新发展的良好基座。林咏华还谈到,

基础模型已经成为AI大模型时代,单一“产品”投入最大的部分。打造基础大模型,就是在打造AI中的“CPU”。基础模型很大程度上决定了后续模型能力、产业落地等因素

大模型评测体系搭建时最核心的要素是什么?智源研究院发布的这套评测体系跟企业会有什么样的合作,以及具体的评测流程是怎样的?国内外开源生态的差距如何?智源“悟道”和LLaMA在发展战略上相比,有哪些独特之处?带着这些问题,网易科技与林咏华进行了深入交流。

提问:智源发布了一整套评测体系,您在这套评测体系搭建时最核心考虑哪些方面?

林咏华:这个评测体系是三个维度、600多个评测的子任务。

首先需要考虑的是要满足文字语言的理解能力,所以有时候评测体系里有很多理解能力的任务在里面。

其次,现在咱们的模型已经从理解变成了生成模型,所以能够应对各种任务之下的生成能力是我们第二个要去考虑的。但是它还有更往前的是它的认知能力。因此,我们会把它作为一个人类助手进行考究,例如它的认知能力需要哪些维度的提升,包括代码的编写、改写以及帮助人类做计划甚至组织文字等等。

最后,我们还会有安全和伦理的评测在里面。目前我们是从这三个维度去考虑和实施。今天我们在“天秤”评测体系还没能做到,也是最后一个台阶,即人的心智评测。这有很多心理学的东西在里面,这是很难的一个话题。未来我们会更多跟心理学进行交叉融合,去研究和探索怎样把类人类的心智评测也能做到。

提问:我们这套评测体系跟企业有什么样的合作?它们大模型使用我们这个评测体系的流程是什么样的?

林咏华:现在我们有两种模式,一个是在线,一个是离线。所谓在线评测,因为我们已经开源API和例子,它只要接入API和例子,就可以在上面申请做这样一个评测。那个模型是运行在这些企业和被评测团队自己的环境里,调用API来评测。

第二类是离线评测,离线评测更精准、更可信。企业在我们的平台上上传它的被评测模型,我们平台自动拉起评测的环境,在我们平台的算力来帮助它完成整个评测,这是更细、更可靠的评测方法。

提问:小模型企业和大模型技术怎样结合以获得更好的发展?

林咏华:我把这种结合归纳成三点,我加入智源的前10年一直做小模型,加入智源之后走入大模型赛道。所以从小模型和大模型的结合,或者大模型怎么帮助小模型企业发展来讲有三个维度:

第一个维度,对于小的AI模型来说,它可以把原有的算法进行更新,使其使用起来更加高效,可以大大帮助企业把原来的算法进行更新换代,节省产品成本。例如在计算机视觉方面,CNN为主的卷积神经网络已经用了很久,但是transformer出来之后,基于transformer同样的视觉分类,比如大家经常听到的VIT。我做过对比实验,视觉领域以前我们一直用ResNet-50,另外一个是VIT,VIT是诞生于大模型时代的一个视觉模型,它要能达到一样训练后的性能只需要四分之一的显存,也就是说用VIT去训练视觉的分类。另外,上线推理的速度,它是ResNet-50的大概只有60%,这是个典型的例子,是计算机领域的小模型。

第二个维度,利用大模型时代新的算法和能力,可以催生以前我们想做但受制于当时小模型时代而落地不了的方案。举个例子,CV领域很多行业落地的场景是数数,例如我的货架上有多少瓶可乐,我的仓库里有多少瓶油。以前这个事情一直做不好,因为通过传统的方法,它的精度达不到,稍微远一点点它就算不出来了。SAM模型能够通过大模型海量训练数据,分割键盘上的一颗颗按键,加上智源研究院推出的分割模型SegGPT,它的能力是如果我想把所有叫“可乐”的东西都抠出来,点一下某瓶可乐,它就把所有的可乐都出来。

当我们把这两种大模型技术结合起来时,可以做到高精度的按需来数数的能力,这个就很好的解决了过去这么多年传统的小模型在CV领域没能解决的很重要的产业落地的问题。

第三个维度,应用大模型中的小模型。我们在这次开源里放进了量化实践,可以做到4比特量化,量化之后这个模型尺寸只是4G的尺寸,这个意味着什么?现在有很多新一代边缘侧小的推理芯片都已经可以做到8G的显存了,意味着这种大模型中的小尺寸模型就可以放进去。这种边缘侧的这些芯片可能只是一二十美金一片,现在已经大量出现在很多应用领域,这也是很多传统小模型赛道公司可以做的。这是我认为的第三个维度,把大模型里的小模型应用进去。

提问:智源“悟道”和LLaMA在发展战略上相比,有没有中国的特有之处?

至于发展战略,这就看主体差异了,我们与Meta开源战略不同。Meta把LLaMA研发出来,它本身有自己商用的那一套,贡献给学术界做开源开放的研究探索。因此它发布的是非商用的协议,希望能够驱动纯研究的探索,而不是驱动商业的。

首先,智源是个研究机构,希望推动学术发展,但同时智源承担着作为国内重要的AI大模型的牵头创新体,我们希望早日看到大模型真的能够产业落地,而不是只停留在研究界。

其次,我们很清楚我们会持续迭代模型,不仅是不同的尺寸、不同的形态,甚至是同一个尺寸、同一个形态、同一个模型下,我们仍力求两周后的版本比今天的版本更优秀,这也是我们帮助这个产业打磨好大模型往前走的道路。

提问:智源开发“悟道”的时候,是如何进行数据训练的?

但是相对于英文数据,我们严重缺少的是重要的高质量的数据,如中文书籍类的数据、中文文献类的数据等等。在中文世界,它没有像英文世界那么开放,英文世界已经有这些做好的数据集,但是在中文世界没有。中国的文献集聚在各大出版社或者各个文献平台。

由于智源是个中立的非赢利机构,所以在北京市政府及相关机构的支持下,我们也获得了一些重要的数据机构,愿意把高质量的数据给到智源让我们训练这个,因为它知道智源不是拿它赚钱,而是回馈产业。

提问:现在是不是类似BAT这样的公司掌握越多的数据,它们就一定在这个“大模型”食物链最顶层?

林咏华:我觉得是这样的。像大的互联网公司,如果它们自己的模型是应用在它们自己的应用领域,无疑它们拥有的数据是最多的。例如小红书、字节,它们有最多的视频数据或者图文数据,是互联网这种类型的,它们开发的模型如果是服务于它们的应用领域,无疑是最多的。但是放眼国内各个行业所需要的基座模型,光有这种数据是不行的,还需要很多知识性数据,缺乏的那些数据也没在它们那。类似天鹰这种最基础性、最通用性的模型,还是需要各家力量一起,可以把数据开放、合理使用的问题去解决。

提问:大模型在目前应用过程中会产生一些杜撰的问题,您怎么看这个问题?解决的路径是什么?

林咏华:基于大模型有很多随机与概率作为理论的基础,所以很难百分之百消灭这个事情。我们需要用不同的方法,让这样的发生尽量的减少。

从研发角度,有一些是现在可以做的事情,有一些则需要研究。

现在可以做的事情:第一还是数据问题。现在海量数据让模型训练时,有可能海量数据里对于某个概念或某个认知,里面同时存在两份定义,这两份定义有矛盾或者有差异。打个比方,医学名词,有专业的医学典著里的定义,也有可能出现在某些名科上,所以本身在训练语料里可能出现对同一个事情不同的声音。因为太海量了,所以我们一直在做过滤,尤其对重要的领域、严肃的领域,我们需要过滤掉不正确的定义或者有偏差的定义,尽量有比较官方的定义,而避免出现我问一个问题,它看到有两个答案,也不知道回答哪个答案,所以第一是需要从数据的角度去做回答功夫。

第二个是解决一些事实性的问题。现在比较有效的方法是叠加外部知识的增强。打个比方,怎样通过大模型技术和检索技术的结合,把外部的数据库、外部的知识库和外部企业重要的信息系统打通,因为我们不可能把所有的知识、重要的条例等等全部让大模型去学,并且效率可能也不够、不好,这是个重要的研发领域。但现在用大模型和检索技术结合,把外部的知识体系引进来,这个是切实可行的。

第三个则是还需要在研究中不断摸索。现在有一些研究学者在不断探究怎样修改模型里的结构,包括一些基础理论,让它可以减少不确定性。目前,第三点还在研究里摸索,没有像前面第一步、第二步那样切实可行。

提问:之前业内观点认为模型变得越来越闭环,他们说GPT3.5很详细,但是GPT4.0一直没有公布,您怎么看TOP模型未来开源和闭源的,思想搏弈是为什么?

林咏华:我觉得这里没有对错,更多是主体和背后的机构的诉求。因为现在TOP模型只能是互联网大厂或者特别有实力的机构才能做。他们投入了那么高昂的经费去做,比如千亿模型需要大几千万,这种情况下,本身它是个商业机构,它决定闭源这个战略是很正常的,因为它要考虑怎样让这个投资可以有回报,所以站在它的立场是一个很正确的决定。

对于智源的特殊性来说,因为我们是中立的研发机构,又是非赢利的,又是在科技部和北京市支持下发展。发展过程中,智源希望对产业有更多技术影响和回报,所以这决定了智源通过开源,尤其是商用可用的开源去做。

所以这里没有对错,而是主体本身的性质来决定。OpenAI也不是第一天就闭源,它当时也是开源,但是当它面对跟微软达成合作,就不得不做这样一个选择。

提问:一些企业基于开源生态去训练模型,能够发展成为TOP模型吗?

林咏华:我觉得是可以的。第一,今天国内的某些有资金实力的互联网大厂,也是基于开源继续往前去走,做它认为自己业务和应用所需要的TOP的模型。

第二,这些年AI领域受益于开源,如果没有开源,AI不会发展到今天,每次AI都是站在别人的肩膀上往前走。我相信,基于开源去做,可以让大家走得更快。

提问:我国目前有超过30个城市建设或者提出建设智算中心,其中近10个城市智算中心投入运营,为当地各行各业提供算力支撑,这对我国AI产业发展有怎样的作用?

林咏华:这两年不断推动和发展智算中心,包括利用“东数西算”。我们欣喜的看到“东数西算”慢慢有些节点,因为“东数西算”不是一开始就做智算这块的,我们所定义的“智算”需要有AI加速计算能力。在过去两年大模型的拉动下,有越来越多“东数西算”的节点,把它在新的数据中心打造成智算中心,这对AI产业发展尤其国内的产业发展很有帮助。

这里一方面有充沛的算力,更重要的是它这样做可以帮助拉动我们AI算力的成本。因为大家要知道,在AI算力方面,无论用英伟达,还是国内新的AI芯片,这里最后的使用成本有很大一部分是电费。这个电费基于不同芯片的能耗比、不同区域电费的高昂,通常会占到使用成本的大概10%,甚至更高。但是咱们国内城市电费的差异可能差好几倍,所以如果在电力能源充裕的地方和电力电费更低的地方去发展智算中心,无疑会大大降低大家的算力成本,这是很明显、很有必要和很应该做的。

刘姚尧的文字城堡 2025-04-18 07:10:15

基础模型已经成为AI大模型时代,单一“产品”投入最大的部分。打造基础大模型,就是在打造AI中的“CPU”。基础模型很大程度上决定了后续模型能力、产业落地等因素

内容声明:

1、本站收录的内容来源于大数据收集,版权归原网站所有!
2、本站收录的内容若侵害到您的利益,请联系我们进行删除处理!
3、本站不接受违规信息,如您发现违规内容,请联系我们进行清除处理!
4、本文地址:https://www.717b.com/hlwzxwz/445.html,复制请保留版权链接!


温馨小提示:在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位!
随机文章:

王煜全:AI独角兽必须进行业务升级否则必死无疑|云计算|阿里云|人工智能|谷歌

王煜全:AI独角兽必须进行业务升级否则必死无疑,王煜全,独角兽,云计算,阿里云,人工智能,谷歌

互联网资讯 2025-04-18 20:20:48

北邮经管学院院长吕廷杰:5G时代最大的受益者是中小企业|运营商|互联网|大数据|史蒂夫·乔布斯

北邮经管学院院长吕廷杰:5G时代最大的受益者是中小企业,吕廷杰,中小企业,运营商,互联网,大数据,史蒂夫·乔布斯

互联网资讯 2025-04-18 20:20:40

智见丨王立军院士:Web3.0路口:VR向左,AR向右|ar|vr|vr眼镜|vr设备

智见丨王立军院士:Web3.0路口:VR向左,AR向右,ar,vr,王立军,vr眼镜,vr设备,智见

互联网资讯 2025-04-18 20:19:59

智见丨对话梅宏院士:数字化转型不是想不想,而是必须转|机器人|互联网

智见丨对话梅宏院士:数字化转型不是想不想,而是必须转,院士,机器人,互联网,梅宏

互联网资讯 2025-04-18 20:19:58

问天实验舱升天!这个23吨“大家伙”,将完成什么KPI?|航天员|载人飞船|航天器|货运飞船

问天实验舱升天!这个23吨“大家伙”,将完成什么KPI?,航天员,载人飞船,航天器,货运飞船,实验舱

互联网资讯 2025-04-18 20:18:53

爽约多次的“阿耳忒弥斯1号”火箭终于发射时隔50年人类重启登月计划|火星|月球|阿尔忒弥斯

爽约多次的“阿耳忒弥斯1号”火箭终于发射时隔50年人类重启登月计划,登月计划,火星,火箭,月球,登月,阿尔忒弥斯

互联网资讯 2025-04-18 20:18:47

“刘畊宏女孩”刷屏背后的终极推手|刘耕宏|潮头|周杰伦|抖音

“刘畊宏女孩”刷屏背后的终极推手,刘耕宏,潮头,周杰伦,抖音

互联网资讯 2025-04-18 20:18:10

那些被贾跃亭坑过的人们|乐视|孙宏斌|乐视体育

那些被贾跃亭"坑过"的人们,贾跃亭,乐视,孙宏斌,许家印,恒大集团,乐视体育

互联网资讯 2025-04-18 20:17:32

告别2018|各位大佬不祝你一帆风顺祝你乘风破浪|张一鸣|程维|腾讯|李彦宏

告别2018|各位大佬不祝你一帆风顺祝你乘风破浪,张一鸣,刘强东,丁磊,程维,腾讯,李彦宏

互联网资讯 2025-04-18 20:17:23

“故宫操盘手”单霁翔|文物|国家文物局|李韵

“故宫操盘手”单霁翔,单霁翔,故宫,文物,国家文物局,李韵,张忠培

互联网资讯 2025-04-18 20:17:15

柳传志:我不是教父|杨元庆|任正非|联想|郭为|倪光南

柳传志:我不是教父,柳传志,杨元庆,任正非,联想,郭为,倪光南

互联网资讯 2025-04-18 20:16:48

三星S23Ultra体验:长焦能力提升明显定制芯片拉高综合体验|手机|ultra|像素

三星S23Ultra体验:长焦能力提升明显定制芯片拉高综合体验,三星,手机,ultra,像素

互联网资讯 2025-04-18 20:12:37

华为WATCH4星球系列手表体验:预警潜在健康风险智能手表领域革命之作|手机|watch|表带

华为WATCH4星球系列手表体验:预警潜在健康风险智能手表领域革命之作,智能手表,华为,手机,手表,watch,表带

互联网资讯 2025-04-18 20:12:14

一文看懂三星折叠屏新品发布会:多款新机持续轻薄化约7146元起售|三星galaxy|保护壳|s-pen|像素

一文看懂三星折叠屏新品发布会:多款新机持续轻薄化约7146元起售,三星,三星galaxy,保护壳,s-pen,像素

互联网资讯 2025-04-18 20:08:12

华硕ZenFone10上手:细节拉升体验这款小屏手机真的不一样|zenfone|三星手机|安卓

华硕ZenFone10上手:细节拉升体验这款小屏手机真的不一样,zenfone,手机,华硕,三星手机,安卓

互联网资讯 2025-04-18 20:08:00

RedmiNote13Pro+体验:性能升级,个性设计搭配全新2亿像素主摄|note|redmi

RedmiNote13Pro+体验:性能升级,个性设计搭配全新2亿像素主摄,像素,note,redmi

互联网资讯 2025-04-18 20:07:37

realme真我GT5Pro体验:性能依旧出众,质感与影像再升级|索尼|gt|质价比

realme真我GT5Pro体验:性能依旧出众,质感与影像再升级,realme,索尼,gt,性能,质价比,影像

互联网资讯 2025-04-18 20:06:59

全球芯片竞争他是唯一有原创发言权的华人科学家|林本坚|科研|通信

全球芯片竞争他是唯一有原创发言权的华人科学家,林本坚,芯片,科研,通信

互联网资讯 2025-04-18 20:04:44

容淳铭院士:安卓有教训,中国要有自己的区块链生态|区块链技术|互联网|云计算

容淳铭院士:安卓有教训,中国要有自己的区块链生态,区块链,容淳铭,区块链技术,互联网,云计算

互联网资讯 2025-04-18 20:03:44

郑皆连院士:中国是桥梁大国却非桥梁强国输在了软件上|拱桥|悬索桥|斜拉桥|桥型

郑皆连院士:中国是桥梁大国却非桥梁强国输在了软件上,郑皆连,拱桥,悬索桥,斜拉桥,桥型

互联网资讯 2025-04-18 20:03:15

何祚庥院士:希望杨振宁李政道有生之年能化解恩怨|邓稼先|物理学家

何祚庥院士:希望杨振宁李政道有生之年能化解恩怨,杨振宁,何祚庥,李政道,院士,邓稼先,物理学家

最新资讯 2025-04-18 20:02:20

中国论文遭大撤稿陆汝钤院士:学术道德气氛营造不够|人工智能|吴文俊|科学

中国论文遭大撤稿陆汝钤院士:学术道德气氛营造不够,人工智能,论文,学术,院士,吴文俊,科学

最新资讯 2025-04-18 20:02:11

余承东眼中25万内最好的SUV来了,卖一辆亏3万|黑科技|奇瑞汽车|suv|驾控

余承东眼中25万内最好的SUV来了,卖一辆亏3万,余承东,华为,黑科技,奇瑞汽车,suv,驾控

最新资讯 2025-04-18 20:01:05

豆包“王炸”,字节版Sora来了,有多厉害?|翻译|sora|ai|大模型

豆包“王炸”,字节版Sora来了,有多厉害?,翻译,豆包,字节,sora,ai,大模型

最新资讯 2025-04-18 20:00:40

对话喻友平:大模型已从“暴风骤雨”到“润物细无声”|智能化|中关村

对话喻友平:大模型已从“暴风骤雨”到“润物细无声”,喻友平,大模型,润物细无声,智能化,中关村

最新资讯 2025-04-18 20:00:20

黄仁勋化身美国队长新“核弹“炸翻全场新GPU卖1.6万|英伟达|cuda|人工智能|机器人|gpu

黄仁勋化身美国队长新“核弹“炸翻全场新GPU卖1.6万,黄仁勋,英伟达,cuda,人工智能,机器人,gpu

最新资讯 2025-04-18 19:59:17

张亚勤何小鹏等9位大咖的24年遗憾和25年期待|网易科技《请回答2025》

张亚勤何小鹏等9位大咖的24年遗憾和25年期待|网易科技《请回答2025》,何小鹏,张亚勤,请回答2025

最新资讯 2025-04-18 19:59:09

对话投资人姚海波:人形机器人尚未解决“手”和“脑”问题|黄仁勋|马斯克|人工智能

对话投资人姚海波:人形机器人尚未解决“手”和“脑”问题,姚海波,机器人,黄仁勋,马斯克,人工智能

最新资讯 2025-04-18 19:58:31

小米「人车家全生态」的未来,是三万亿以上大市场|雷军|卢伟冰|小米手机|苹果

小米「人车家全生态」的未来,是三万亿以上大市场,小米,车家全,雷军,卢伟冰,小米手机,苹果

最新资讯 2025-04-18 19:57:43

英特尔新任CEO陈立武首秀讲三件事:砍业务、拼AI,誓夺半导体战场|amd|英伟达

英特尔新任CEO陈立武首秀讲三件事:砍业务、拼AI,誓夺半导体战场,陈立武,英特尔,amd,英伟达

最新资讯 2025-04-18 19:57:27

智能汽车“智驾”事故频发,谁该为此负责?|自动驾驶|驾驶员|自动驾驶技术|方向盘

智能汽车“智驾”事故频发,谁该为此负责?,智驾,自动驾驶,驾驶员,汽车,自动驾驶技术,方向盘

最新资讯 2025-04-18 19:57:24

IDC发布2024年中国超融合市场报告,深信服蝉联第一|私有云|idc

IDC发布2024年中国超融合市场报告,深信服蝉联第一,深信服,私有云,idc

最新资讯 2025-04-18 19:56:03

AIGC创新社沙龙|国海证券姚蕾:AI正在重塑传媒行业内容生产方式|aigc创新社|分析师

AIGC创新社沙龙|国海证券姚蕾:AI正在重塑传媒行业内容生产方式,姚蕾,aigc创新社,传媒行业,国海证券,ai,分析师

最新资讯 2025-04-18 19:55:15

一个App轻松管理多个邮箱!鸿蒙版QQ邮箱已支持三方邮箱登录|qq|app|gmail

一个App轻松管理多个邮箱!鸿蒙版QQ邮箱已支持三方邮箱登录,qq,app,gmail,云盘

最新资讯 2025-04-18 19:53:42

高新区打造东北地区单体面积最大电商直播间|产业园

高新区打造东北地区单体面积最大电商直播间,电商,直播间,高新区,产业园,东北地区,成都高新技术产业开发区

最新资讯 2025-04-18 19:53:36

安永消博会期间发布多份行业报告和业界首个AI智能问答产品|外贸|消费品|跨境电商|国内市场|安永会计师事务所

安永消博会期间发布多份行业报告和业界首个AI智能问答产品,外贸,消费品,行业报告,跨境电商,国内市场,安永消博会,安永会计师事务所

最新资讯 2025-04-18 19:52:58


TOP