性能直追GPT-45000个H100训成!DeepMind联创发全新一代大模型
时间:2023-12-06 21:09来源:未知 作者:未知 点击:

  更炸裂的是InfectionAI对这款模型的评价——性能直超谷歌和Meta开发的两款模型,紧随OpenAI的GPT-4之后。

  这款AI模型名叫Inflection-2,在多项标准的基准测试中,成绩碾压谷歌5月发布的PaLM Large 2模型,还在很多不同的项目中击败了Meta开发的LLaMA-2.

  公司内部人员表示,总体而言Inflection的新模型是同类产品中性能最好的,可以说仅次于OpenAI发布的旗舰模型 GPT-4,而后者我们都知道,要大得多。

  InflectionAI的首席执行官Mustafa Suleyman在接受采访时表示,「我们相信,我们只是处于下一步技术推进的起点,AI模型所展现出来的性能,以及即将出现的新功能确实令人震撼。」

  CEO Suleyman也讲到,首先模型的集成还需要一些额外的工作,即「对齐」,技术人员会教它Pi的语气和回答风格,并帮助Pi在吸收最新信息时更好地发挥作用,而不会产生额外的幻觉。

  「无论你想就种族、性别、政治、竞家OpenAI,或当下任何有争议的问题进行可能有那么点敏感的对话,Pi都会非常巧妙、谨慎地与你进行实事求是的交流,并实时在互联网上获取信息。Pi将很快更新出新模式。」

  当然,这之后还发生了我们耳熟能详的OpenAI董事会版宫斗,突然临时解雇了首席执行官Sam Altman(当然现在他已经回来了)。

  不过,预计Pi发布后,InflectionAI的用户量也会有一波大规模的上涨。毕竟Inflection发布的大型语言模型号称是 当今世界上能力第二强的LLM。

  此外,CEO Suleyman表示,Inflection AI在今年早些时候刚刚获得了一轮13亿美元的融资,不过这笔大额融资也并没有提前Inflection-2的发布。

  不过,舆论场中有些声音还是传了出来,InflectionAI将会在年底发布新模型。但Suleyman表示,模型的训练已经结束,还有一些后续工作需要处理,所以发布时间出现了推迟。

  Suleyman表示,新模型的训练速度更快、成本更低,但即便如此,还是能处理大量运算(10的25次方FLOPs)。

  InflectionAI还与微软、英伟达和CoreWeave在进行紧密合作,管理其庞大的计算集群。

  Inflection用一些专业级任务的流行基准(MMLU)测试了新模型的性能,该基准向模型提出了从各类世界知识到问题解决和道德规范等57个主题的各种问题。

  报告显示,新模型在七项科学性回答的基准测试中,除两项外,均击败了LLaMA 2和PaLM 2模型,它还在三项问答任务基准测试中的两项测试中表现最佳,但在一项测试中输给了PaLM 2 Large。

  此外,在四项数学和代码基准测试中,它的成绩依旧可圈可点,虽说这些领域和前面的测试比起来没那么是重点。

  Suleyman继续介绍说,虽然除了AI研究人员和开发人员之外,这些基准测试对其他普通人来说可能并没那么重要,但微小的改进就能让笨拙的原型与生产级、可靠且高质量的模型截然不同。

  总的来说,Suleyman认为Inflection-2在同类产品中可以说是规模最大的,与GPT-4非常非常接近。

  从行动上,我们也可以看到InflectionAI对新模型的满意程度。公司规划显示,从现在起,Inflection就将把培训重点转移到下一个型号的模型上。

  相关人士预测说,下一个型号的模型(大胆猜测是Inflection-3)将在六个月内达到刚聊完的新模型的10倍,而再过六个月,性能又将达到上一代型号的10倍。

  曾经,他还写过一本书《The Coming Wave》,全书有一个核心观点就是,未来AI能让人类彻底远离心理问题。

  1984年,他出生于伦敦北部,父亲是叙利亚人,母亲是英国人。他在贫困中长大,16岁时,父母分居,两人都移居国外,留下他和弟弟自谋生路。

  这种人生经历,让Suleyman格外关注人类的心理健康。当然,就少不了这一part和涌现出来的新技术的结合。

  他的这番说法也绝不是空想,他创立的Inflection AI,目标就是开发出一个全能的个人助理,解决每个人在生活中可能遇到的几乎一切问题。

  测试针对的是人类在不同场景下表现出来的同理心进行打分。测试对象被给予20种情感情境的详细描述,比如葬礼、职业成功或侮辱,并描述他们在这种情况下可能感受到的情绪。

  研究人员使用与人类反应相同的标准来评估ChatGPT的反应,并将结果与先前在法国17至84岁人群(n = 750)中进行的研究进行了比较。

  在进行的两次测试中,ChatGPT获得了85和98的高分,而人类的表现就完全被AI碾压。男性56,女性59分,甚至没有及格。

  很多研究结果都曾指出,AI聊天机器人在心理健康方面可以为人类提供其他任何工具都没法比拟的帮助。

  可以这么说,相比于其他生产效率方面的应用,大语言模型似乎天生就更适合进行感情方面的理解和沟通。毕竟,人类之间传递感情,语言是最重要的载体。

  那么,Suleyman创立的Inflection AI推出的个人助理「Pi」已经上线有几个月,表现究竟如何,大家心里可能也都有定论了。

  聊天机器人也会针对每个场景给用户一个开头的提示,比如选择了「motive myself」之后,系统会提示我要如何开始聊天。

(责任编辑:)

关键词:

随机推荐

联系我们 -