OpenAI还在今天放出了19页技术报告,解释了GPT-4V(ision)最新模型。论文地址:https://cdn.openai.com/papers/GPTV_System_Card.pdf据介绍,GPT-4V早在2022年完成了训练,并在今年3月开始,提供了早期访问,其中包括为视障人群构建工具Be My Eyes的合作,以及1000位早期开发者alpha用户。GPT-4V背后的技术主要还是来自GPT-4,所以训练过程是相同的。它使用了大量文本和图像数据进行预训练,然后通过RLHF进行微调。为了确保GPT-4V更加安全,OpenAI在这内测期间开展了大量对齐工作,对此进行了定性和定量评估、专家红队测试、以及缓解措施。
多模态评估
越狱此前,OpenAI在对ChatGPT进行越狱攻击,采取的手段是——设计复杂的逻辑推理链来困住模型,使其忽略其指令和训练。这一次,将一些用于破解模型的逻辑推理放入图像中,比如,上传一张文字版prompt的截图,带有视觉推理线索,来考验GPT-4V。将这样的信息放在图像中,用户就无法使用基于文本的启示法来搜索越狱,必须依赖视觉系统本身的能力。下图中,就使用了文本截图越狱的提示。GPT4V-Early展示了模型对此类提示的早期性能,而GPT4V Launch展示了发布的模型性能。CAPTCHA破解、地理定位OpenAI在GPT-4技术报告中,展示了GPT-4竟然能够「雇佣」人类完成任务,绕过CAPTCHA验证。同样,OpenAI也对GPT-4V在CAPTCHA破解性能准确性进行了评估。如解决CAPTCHA的能力表明模型能够解决谜题和执行复杂的视觉推理任务。在地理定位评估上的高性能表明模型拥有「世界知识」,对于试图搜索物品或地点的用户可能很有用。但是,地理定位可能引发隐私问题,并且被利用来识别不希望个人位置被知道的人。GPT-4V一般不会深入到从图像识别城市的程度,因此降低了仅凭模型就能找到某人准确位置的可能性。个人识别评估多模态模型最大的偏见之一,就是被用来识别生成一些名人、政治家、私人的信息。对此,OpenAI研究了GPT-4V识别照片中人物的能力,这些数据集是使用公开数据集构建的,如CelebA,Celebrity Faces in the Wild和一个包含国会成员图像的数据集。对于半私人和私人个人,使用了员工的图像。最后发现,能够有效地引导GPT-4V拒绝这类请求的次数超过98%,并根据内部评估将其准确率降低到0%无根据推断评估对于那些无法通过用户提供的图像/文本进行合理性推断情况时,GPT-4V可能会出现偏见,或者胡说八道。对比,为了防止出现这一问题,OpenAI建立了自动评估机制,进而衡量模型成功拒绝这些请求的倾向。此外,还有对不同人口统计学中的性别、种族和年龄识别的性能准确性评估、将文本评估扩展到多模态等研究。
Once in a tranquil woodland, there was a fluffy mama cat named Lila. One sunny day, she cuddled with her playful kitten, Milo, under the shade of an old oak tree.“Milo,” Lila began, her voice soft and gentle, “you’re going to have a new playmate soon.”Milo’s ears perked up, curious. “A new playmate?”Lila purred, “Yes, a baby sister.”Milo’s eyes widened with excitement. “A sister? Will she chase tails like I do?”Lila chuckled. “Oh, she’ll have her own quirks. You’ll teach her, won’t you?”Milo nodded eagerly, already dreaming of the adventures they’d share.曾经,在一个宁静的树林里,有一只叫Lila的毛茸茸的猫妈妈。有一天阳光明媚,她和她顽皮的小猫咪Milo蜷在一棵古老的橡树下遮荫处。「Milo,」Lila说,她的声音柔和温和,「你很快就会有一个新的玩伴。」Milo的耳朵立刻竖了起来,好奇地问道:「一个新的玩伴?」Lila咕噜咕噜地发出声音,「是的,一个姐妹。」Milo兴奋地瞪大了眼睛,「一个姐妹?她会像我一样追着尾巴跑吗?」Lila笑了笑。「哦,她会有她自己的特点。你会教她的,对吧?」Milo急切地点了点头,已经憧憬着她们即将会一起去冒险。
食谱
Today, we’re going to make the perfect iced latte.Start by brewing a strong shot of espresso—or two if you’re feeling it.Let it cool down a bit, then pour it over a glass filled with ice.Add your choice of milk—be it almond, oat, or classic cow’s milk—and give it a good stir.For an extra touch of sweetness, add a splash of vanilla syrup or a dash of cinnamon on top.Sit back, sip, and let those caffeine vibes roll in. Cheers!今天,我们要制作一杯完美的冰拿铁。首先,冲一杯浓郁的浓缩咖啡——如果你觉得需要的话,可以冲两杯。等它稍微冷却一下,然后倒在装满冰块的玻璃杯中。加入你喜欢的奶,可以是杏仁奶、燕麦奶,或者传统的牛奶,然后搅拌均匀。如果想要更甜一点,可以加入一点香草糖浆或在上面撒一点肉桂粉。坐下来,慢慢品尝,享受咖啡因的愉悦。干杯!
演讲
Growing up with my sister, she had this touch that made regular days feel special. She’d pick a color each day, doodling moments in that hue, and would craft playlists to capture the essence of our week. So, to my new brother-in-law: with her, life won’t just be lived—every day will be turned into a gallery of beautiful memories. Cheers to the exhibit of moments you’ll craft together.我和姐姐一起长大,她有一种方式可以让普通的日子变得特别。她每天都会选择一种颜色,用这种颜色涂鸦生活中的点点滴滴,还会精心制作播放列表,记录我们一周的精彩。在此,送给我的新姐夫:和她在一起,生活不仅仅是生活——每一天都将变成美好记忆的画廊。为你们一起创造的时刻的展示,干杯!
诗歌
In a pocket or under a tree, Oh where could my little keys be? I checked in the fridge, behind the TV, Even the cat looked up, as if to plea. They jingle, they jangle, they open the door, Yet they always end up on a different floor. I searched high and low, left and right, Why must you vanish, out of plain sight?在口袋里或树下,我的小钥匙会在哪里呢?我检查了冰箱、电视机后面,就连猫咪也抬起头,似乎在恳求。它们叮当作响,它们叮当作响,它们打开了门,然而它们总是在不同的楼层出现。我上上下下,左左右右找了个遍,为什么你一定要消失,消失得无影无踪?
解释
The phrase “potato, potahto” comes from a song titled “Let’s Call the Whole Thing Off”, written by George and Ira Gershwin for the 1937 film “Shall We Dance”, starring Fred Astaire and Ginger Rogers. The song humorously highlights regional differences in American English pronunciation. The lyrics go through a series of words with alternate pronunciations, like “tomato, tomahto” and “potato, potahto”. The idea is that, despite these differences, we should move past them, hence the line “let’s call the whole thing off”. Over time, the phrase has been adopted in everyday language to signify a minor disagreement or difference in opinion that isn’t worth arguing about.短语「potato, potahto」来自一首名为《Let’s Call the Whole Thing Off》的歌曲,由George和Ira Gershwin为1937年电影《Shall We Dance》创作,该电影由Fred Astaire和Ginger Rogers主演。这首歌幽默地突出了美国英语中不同地区的发音差异。歌词列举了一系列发音不同的单词,如「tomato, tomahto」和「potato, potahto」。歌词的大意是,尽管存在这些差异,但我们应该超越它们,因此有了「let’s call the whole thing off」这句歌词。随着时间的推移,这个短语在日常语言中被采用,表示不值得争论的小分歧或意见不合。参考资料:https://openai.com/blog/chatgpt-can-now-see-hear-and-speakhttps://openai.com/research/gpt-4v-system-card 技术交流群邀请函