谷歌最近发了篇论文,重申了一个来自信息论的不雅点——“压缩即智能”。虽然,论文的新意,在于通过对“压缩率”的界说并提倡相干盘算才略,从而不错尝试对“压缩即智能”给出一个定量的证明,并将其与东谈主工智能大模子经营起来。
所谓“压缩”,全称虽然是“数据压缩”。正如一册写得超过灵活意旨的进步读物《数据压缩初学》所指出的:
“咱们需要知谈这么一件事:咱们当下生存在其中的这个盘算天下,十足设备在数据压缩算法之上。
是的,每个部分都是如斯。
每个网页、每个图像、每首歌、每个对于猫的视频、每部流媒体麇集电影、每张自拍照、每次电子游戏下载、每个袖珍买卖,以致是操作系统的每次更新,所有这一切都收获于压缩算法。事实上,哪怕仅仅思通过互联网传输一个二进制位的数据,也离不开压缩的内容。
数据压缩技艺最让东谈主惊异之处在于,它与夙昔40年里个东谈主盘算的好多紧要篡改相干,但很少有东谈主知谈这一丝。”
信息论独创东谈主克劳德·香农在为传输信息进行压缩编码的历程中,意志到这种压缩是有一个极限阈值的,越过这个阈值,被压缩编码的信息就无法通过解码,规复为原始信息了,而是有超过一部分信息就此被亏蚀掉,比如行为“有损压缩”的MP3音乐体式,听上去恶果就要比CD差不少。这个阈值被定名为“香农熵”。相应地,“无损压缩”便是压缩率适度在“香农熵”以下,比如解码后不错相比好地回复到CD音质的APE、FLAC等体式。所有的当代压缩算法,不错说都是在核定地与“香农熵”作来回,但愿开发出以尽可能高的压缩率来“高保真”地保存、传输和复制信息的技艺。
但其实数据压缩远不仅仅算法问题,而是触及东谈主类对天下根蒂的融会面貌。
咱们且撇开数据压缩算法中的数学旨趣,单就“压缩即智能”这一不雅点,其实和我在某篇机器学条记里所说的“模子即智能”,十足是等价的,因为所谓模子,便是给无尽变量的复杂天下建一个有限变量的模,通过被大大压缩的变量数目,过头相互作用的结构,来有用模拟复杂天下在某一特定时空中的运作形式(用本届诺奖得主杰弗里·辛顿的术语来说,就叫作念“泛化”,即通过极少已知数据准确先见大批未知数据),从而让咱们不错作出展望和方案。
事实上,所有的科学公式都不过乎是一种模子,因此也不过乎是一种数据压缩面貌。模子老是只可在一定时空中起作用,哪怕它是牛顿定律,因为模子对数据的压缩根原本说老是为了拟合目下的“事实”——这恰是“实验科学”的履行。更高的压缩率一般意味着更好的模子,也就意味着更高的智能,就好比万有引力定律对近代的不雅测天地有最高的压缩率(也便是用最精熟的公式界说了这一天地的运作面貌),因此牛顿不仅比绝大多数东谈主,而且比绝大多数科学家有更高的智能。
为什么咱们不错说“压缩即智能”或“模子即智能”?因为压缩变量数据简略建模,就意味着“主动”地挑选出一部分被合计是要道的变量,而铁心绝大多数被合计是冗余的信息,来为这个看上去无比复杂的天下建模,这种融会的“主动性”、这种粗拙天下的“主动性”——而不是像(咱们是以为的)石头那样被迫接管一切——不恰是当咱们谈及“智能”的时刻,真的让咱们嗅觉make sense的东西吗?
况且智能和学习才能高度相干。什么是学习?不管东谈主的学习仍是机器学习,履行不都是学惯用设备在有限数据集基础上的模子去粗拙这个无尽天下,并在粗拙的历程中笔据响应不停调整以至迭代模子吗?是以“学习即智能”很猛进度上也与“压缩即智能”等价,东谈主工智能大谈话模子,正如“GPT之父”伊尔亚·苏茨克维屡次强调的,履行上便是个遵守极高的数据压缩机。

《数据压缩初学》
[好意思]柯尔特·麦克安利斯 亚历克斯·海奇 著
东谈主民邮电出书社2020年3月版
举报 著述作家
毕席
经济东谈主的东谈主文修养阅读 相干阅读
“光谷AI新势力八强”出炉,竞逐东谈主工智能产业“第四极”光谷已建成算力5000P,集结东谈主工智能企业近800家。
6 70 11-27 17:41
数亿元成本涌入AI医疗赛谈,商汤医疗值不值30亿?医疗科技公司都在争夺多样数据进口,一方面积极与各大病院结合,霸占病院端进口,另一方面也在霸占患者端进口,但愿把低频的医疗举止造成高频的健康咨酌量诊举止。
193 11-17 17:35
AI是技艺立异仍是投资泡沫?业内合计AI投资热“浇不冷”“AI范畴投资飞扬催生股市‘狂热’,但举座上仍属于‘感性泡沫’。”
6 206 11-14 10:35
IMF与英国央行皆发劝诫:AI飞扬下的阛阓泡沫AI带来的成本飞扬正激动好意思股估值快速攀升,但风险也在积累。
7 187 10-09 07:04
AI进化速递丨福建省智能机器东谈主产业定约建立福建省智能机器东谈主产业定约建立;英伟达与富士邃晓成结合......天元证券官网-线上配资平台_全国十大线上配资平台
300 10-03 20:45 一财最热 点击关闭天元证券官网-线上配资平台_全国十大线上配资平台提示:本文来自互联网,不代表本网站观点。