
Sign up to save your podcasts
Or
在上一期节目里,我们提到:人工智能可以做短视频实时分类。短视频里面是广场舞、吉他弹唱,还是头文字D的车技飘移,都可以被AI识别出来。
这是怎样做到的呢?
我们先思考这样一个问题:今天如果你来看视频,你自己,如何识别出里面的车呢?
“车”是一个抽象概念,并不与生俱来,而是在后天的过程中,通过数据的学习训练,逐步形成的。
小时候的看图识字、生活中的观察、驾校培训、好莱坞大片...这些数据,不断地帮助我们构建和完善大脑中的模型:一辆车,应该具有轮子、门、挡风玻璃、尾灯、排气管、后视镜等要素,这些要素之间还有空间关系(当然,除了视觉等采集到的数据,发动机轰鸣声、汽油味等其他感官要素,也是大脑中车模型的组成部分)。
值得一提的是,大脑基于原有模型,还可以吸收新的数据进行叠加学习,比如特斯拉不需要排气管,现在路上见到的绿色牌照是新能源车,等等。
对于一张全新的图像,视网膜采集像素,神经元提取颜色、轮廓等信息,大脑将图像信息与抽象概念进行比对,然后形成了图像中是否有车的判断。
那么,AI如何能做到图像识别呢?
我们很自然想到一种方法,就是模仿人的信息处理过程:通过大量的数据,让计算机形成模型,建立图片与抽象概念之间的关联关系。
我们用一个非常简单的等式,来说明这个过程。
这个等式是:
X * W = Y
这里,X是输入,也就是我们看到的图像;
W是模型,你可以理解为我们大脑中关于车的模型;
Y是输出,也就是抽象概念中的“车”。
AI图像识别,有两个步骤:
第一步,学习训练。也就是已知X和Y,求解W的过程。学习的方法,是找来大量的车的照片,给这些图像都打上”车“这个标签,进行模型训练。打个比方,还没有完成训练的AI,有点像个小孩,你需要给他很多张图片,用这些数据来训练他,告诉他这些都是车,他才能慢慢掌握车的特征。
第二步,预测判断。也就是已知W,给出新的X,求解新的Y的过程。打个比方,已经完成训练的AI,有点像车的专家,因为他见过了太多的车,抓住了车的特征,所以就很容易做出判断,即便是有些新款式的概念车,他也能识别出来。
这样的方法,还可以推广到很多其他的应用场景:
比如机器翻译,左边的X是英文,右边的Y是中文,google的Chrome浏览器就可以帮你翻译你看不懂的英文网页。
语音识别,左边的X是语音,右边的Y是文字,苹果的Siri和小米的小爱同学就能听懂你的话
包括更为复杂的自动驾驶等等,其基本原理都是一致的。
总结一下我们今天的内容,其实是一个简单的公式:
X * W = Y
采用海量的标签化数据,人工智能可以被训练出来,帮助我们做预测和判断。
在后续的节目中,我将继续介绍我们身边的科技,感兴趣的朋友们,可以订阅这一专辑,也欢迎你在留言区,分享你的观点,我们共同进步。
在上一期节目里,我们提到:人工智能可以做短视频实时分类。短视频里面是广场舞、吉他弹唱,还是头文字D的车技飘移,都可以被AI识别出来。
这是怎样做到的呢?
我们先思考这样一个问题:今天如果你来看视频,你自己,如何识别出里面的车呢?
“车”是一个抽象概念,并不与生俱来,而是在后天的过程中,通过数据的学习训练,逐步形成的。
小时候的看图识字、生活中的观察、驾校培训、好莱坞大片...这些数据,不断地帮助我们构建和完善大脑中的模型:一辆车,应该具有轮子、门、挡风玻璃、尾灯、排气管、后视镜等要素,这些要素之间还有空间关系(当然,除了视觉等采集到的数据,发动机轰鸣声、汽油味等其他感官要素,也是大脑中车模型的组成部分)。
值得一提的是,大脑基于原有模型,还可以吸收新的数据进行叠加学习,比如特斯拉不需要排气管,现在路上见到的绿色牌照是新能源车,等等。
对于一张全新的图像,视网膜采集像素,神经元提取颜色、轮廓等信息,大脑将图像信息与抽象概念进行比对,然后形成了图像中是否有车的判断。
那么,AI如何能做到图像识别呢?
我们很自然想到一种方法,就是模仿人的信息处理过程:通过大量的数据,让计算机形成模型,建立图片与抽象概念之间的关联关系。
我们用一个非常简单的等式,来说明这个过程。
这个等式是:
X * W = Y
这里,X是输入,也就是我们看到的图像;
W是模型,你可以理解为我们大脑中关于车的模型;
Y是输出,也就是抽象概念中的“车”。
AI图像识别,有两个步骤:
第一步,学习训练。也就是已知X和Y,求解W的过程。学习的方法,是找来大量的车的照片,给这些图像都打上”车“这个标签,进行模型训练。打个比方,还没有完成训练的AI,有点像个小孩,你需要给他很多张图片,用这些数据来训练他,告诉他这些都是车,他才能慢慢掌握车的特征。
第二步,预测判断。也就是已知W,给出新的X,求解新的Y的过程。打个比方,已经完成训练的AI,有点像车的专家,因为他见过了太多的车,抓住了车的特征,所以就很容易做出判断,即便是有些新款式的概念车,他也能识别出来。
这样的方法,还可以推广到很多其他的应用场景:
比如机器翻译,左边的X是英文,右边的Y是中文,google的Chrome浏览器就可以帮你翻译你看不懂的英文网页。
语音识别,左边的X是语音,右边的Y是文字,苹果的Siri和小米的小爱同学就能听懂你的话
包括更为复杂的自动驾驶等等,其基本原理都是一致的。
总结一下我们今天的内容,其实是一个简单的公式:
X * W = Y
采用海量的标签化数据,人工智能可以被训练出来,帮助我们做预测和判断。
在后续的节目中,我将继续介绍我们身边的科技,感兴趣的朋友们,可以订阅这一专辑,也欢迎你在留言区,分享你的观点,我们共同进步。