ChatGPT-4 Vision 催生万亿产业-526互联

（做了多年视觉分析，谨以忐忑的心情写下本文）

2023年9月25日，微软发布ChatGPT-Vision的研究报告（文章末尾有下载地址），同日openai发布重要更新：听，说，看。

2023年10月3日，openai发布Dall-E3.0。距离ChatGPT获得全部人类技能，还差触觉，嗅觉和味觉。

听，说基于文本，Dall-E有Midjounery大家已经熟悉了。今天重点说下Vision，视觉。大家可能低估了这个更新带来的飓风。

vision是识别图片，将图片化为数据（1和0）。基于大模型，可以理解图片中的内容，再结合ChatGPT自身的数据集（所有互联网上的人类知识）。能完成人类做得到和做不到的事。可以输出文本，语音和修改后的图（Dall-E）。

这段时间，国外网友脑洞大开，尝试了无数场景，结合微软的报告。给大家举例，看看我是不是标题党。

1、教学

网友Peteryang 使用ChatGPT Vison给学生演示人体结构，从大脑到心脏都逐一讲解。只需要一句话提问：“我现在一年级。给我解释一下。”

2、停车

在国外停车牌，有时候异常复杂。需要停下来看清楚，才知道自己停去哪里。同样是Peteryang,拿出手机拍照，一句话解决：「请一句话告诉我：现在周三下午4点，我能在这停车吗？」

3、饮食健康

网友Mckay Wrigley拍照，要求分析食物中的热量，蛋白，脂肪等等。再结合食谱建议，就可以管理起来自己的健康。Mckay Wrigley还要求输出Json数据，可以用来编程。

4、故事脚本分析

网友Mckay Wrigley,还让Vison分析《盗梦空间》的设计图标，ChatGPT对图表的结构和流程，有深入的理解，可以连贯的拼凑在一起。

5、图片对照

网友Andrew Morgan，用Vision做图片对比，也就是【找不同】的玩法。

6、学术研究

教授Ethon Mollick 让Vision识别手稿，识别率很高，并且还进行了文本推理。

7、室内设计

网友Pietro Schirano拍照，要求Vision 给出设计上的建议。发现其从颜色到触感都非常出色。

8、摄影建议

还是Pietro，要求Vision对一张照片，给出建议。回复看来很专业，还给出参数建议。

9、看照片说位置

将测试照片的GPS信息去掉，让VIsion凭一张照片找出位置。

10、医疗-看X片

还有很多其他的案例。充分的展示了ChatGPT Vision的能力。我们回答上面的问题，Vision能价值万亿吗？随意展开2个例子吧。

1、监控

所有装有监控的地方，都有识别的需求。传统的方式是，先训练，再识别。标注了的能识别，未标注的识别不了。现在完全不同了。人类能识别的，都能识别。还能推理。

比如，公安系统。小偷进去时候空手，出来多了个包。在人群里找出来，就是一句话的事情了。

或者一张照片找出嫌犯的位置，就可以不用麻烦水哥了。

交通系统，更具现有人流，车流预测堵车。识别安全头盔等等。做过相关项目的公司，就明白这里面带来的冲击。

2、医疗

人眼有时候，受视力和光线的影响，看不清微小的细节。同时，知识储备无法和AI相比。用vision看x片，给出所有的细节和建议。可能是未来所有医生每天都要做的事。

另外，会诊，医疗事故判定，医学科研，药物研究，都是不可或缺的。

其他的比如，设计，教学，编程，导游。无法想象它到底可以颠覆多少行业。

本质上，ChatGPT Vision和这么多年来的视觉分析有本质的不同。他不需要预先标注训练。其次，他有海量的知识背景。这让他无比强大。仿佛上帝视角。

我们拭目以待把。技术背后的价值，投资人应该更加清楚，万亿是夸张，但谁也无法否定。因为不可估量。

目前ChatGPT Vision只有北美地区开放。国内想试用ChatGPT的话，给大家推荐我在用的这个吧。http://www.ppword.cn

手机上使用，搜索ppword，也可以点击下方公众号。（有个细小的行业，能马上被颠覆，有兴趣的加ppword网站上的群）

微软测评报告下载地址：https://arxiv.org/pdf/2309.17421.pdf

transformer vision vit

transformer模型vision

computer example beyond vision

transformer sampling vision super

convolutions transformers introducing vision