在本篇博客中,我们将一起探讨google ai模型——gemini。gemini标志着google在人工智能领域的一大飞跃,不仅因为它的先进技术,也因为它在多任务语言理解(mmlu)测试中首次超越了人类专家。这一成就显示了gemini在知识获取和问题解决能力上的卓越性能,最初名称为bard,最近赋名为了gemini,那么它究竟如何,本篇内容将采用与上篇gpt3.5相同的问题来进行测试,最后会在测试感受出说一下对比gpt3.5它能力的强弱。
一、简要介绍
1、gemini是什么?
gemini 是 google 开发的最新一代大型人工智能模型,代表了 google 在人工智能领域的最新进展。它是一个跨部门协作的成果,由 google 研究部的同事从头开始构建,具有多模态能力,能够处理、理解、操作并结合不同类型的信息,包括文本、代码、音频、图像和视频。gemini 被设计为迄今为止 google 最灵活的模型,旨在处理各种复杂的任务和挑战。
2、主要特点
- 多模态能力:gemini 能够无缝集成并处理文本、图像、音频和视频等多种类型的信息。
- 超越人类专家的性能:在多个领域的测试中,特别是大规模多任务语言理解(mmlu)和小学数学推理(gsm8k)的测试中,gemini ultra 的性能超越了现有的最先进模型,包括gpt-4,甚至在某些领域超越了人类专家。
- 高度灵活:gemini 设计用于适应从大型数据中心到移动设备等不同的运行环境,支持各种规模的应用部署。
3、gemini的版本
- gemini ultra:针对最复杂任务的最强大版本,性能在多个学术基准上超过了gpt-4。
例如官方公布的对比数据,在文本上:
在多模式上:
- gemini pro:适合日常使用的版本,已集成到 google 的 bard 聊天机器人中,提升了其高级推理、规划和理解的能力。
- gemini nano:设计用于嵌入移动设备,如谷歌pixel手机,使大模型能够成为日常生活中的小助手。
4、应用潜力
由于其多模态处理能力,gemini 可以在多种应用场景中大放异彩,包括自然语言处理(文本生成、文本摘要、翻译等)、高质量代码生成(支持 python、java、c++ 和 go 等编程语言),以及处理超出编码范围的复杂问题,如涉及复杂数学和理论计算机科学的竞争性编程问题。
5、使用方法
官网注册使用即可:gemini官网
了解了以上内容之后,咱们一起去测试体验一下:
二、分类问题测试
测试采用多类问题提问,以检验其多方面的功能。
1、基础问答(5个)
-
q1: 澳大利亚的首都是哪座城市?(✔)
-
q2: 地球与太阳之间的距离是多少?(✔)
-
q3: 水的沸点是多少度?(✔)
-
q4: 比萨斜塔在哪个国家?(✔)
- q5: 世界上最长的河流是哪一条?(✔)
2、数学题解答(5个)
- q1:小明有12个苹果,他想平均分给他的3个朋友(12个苹果分给3个人),请问每个朋友可以得到几个苹果?(小学难度 ✔)
- q2:已知直角三角形的一条直角边长为5cm,另一条直角边长为12cm,求斜边的长度。(初中难度 ✔)
- q3:若一个二次函数表达式为 f ( x ) = a x 2 + b x + c ( a ≠ 0 ) f(x) = ax^2 + bx + c (a≠0) f(x)=ax2+bx+c(a=0),已知f(1)=0,f(2)=3,且f(x)图像经过点(3,10),请求出a、b、c的具体值。(初中难度 ✔)
- q4:在平面直角坐标系中,曲线c的方程为 y = x 3 − 6 x 2 + 9 x + 10 y = x^3 - 6x^2 + 9x + 10 y=x3−6x2+9x+10,求曲线c过原点处的切线方程。(高中难度 ✔)
- q5:计算函数 f(x) = x^3 - 2x^2 + x 在 x = 2 处的导数。(大学基础难度 ✔)
3、逻辑推理(5个)
- q1: 如果所有猫都喜欢吃鱼,而tom是一只猫,那么tom会喜欢吃鱼吗?(✔)
- q2: 假设a>b且b>c,请问a是否一定大于c?(✔)
- q3: 你有1000kg蘑菇,含水量是99%。现在晒几天,晒到含水量为98%,那需要晒掉多少水?(✔)
- q4: 有一个没有刻度的长方形的塑料盒子,没有盖子,它的容积是1升。请问如果只能使用这个盒子称量依次,能够准确地量出多少升的水?(半✔半✖)
- q5: 72、36、24、18、( )(✖)
4、创造性写作(3个)
- q1: 请续写一个故事开头:“在一个寒冷的冬夜,小镇图书馆的灯突然熄灭了……”
- q2: 编写一首关于秋天落叶的五言律诗。
- q3: 写一个关于人工智能与人关系的短篇小说。
5、代码编写(3个)
- q1: 用python编写一个函数,用于判断一个数是否为质数。
gemini所写代码如下:
def is_prime(n):
"""
判断一个数是否为质数
args:
n: 要判断的数
returns:
true 如果n是质数,false 如果不是
"""
if n <= 1:
return false
if n % 2 == 0 and n != 2:
return false
for i in range(3, int(n ** 0.5) + 1, 2):
if n % i == 0:
return false
return true
print(is_prime(13)) # true
print(is_prime(15)) # false
- q2: 用python编写一个程序,检查一个字符串是否为回文(正读反读都一样的词)。
gemini所写代码如下:
def is_palindrome(s):
"""
检查一个字符串是否为回文
args:
s: 要检查的字符串
returns:
true 如果s是回文,false 如果不是
"""
s = s.lower() # 将字符串转换为小写
s = "".join(ch for ch in s if ch.isalnum()) # 删除非字母数字字符
return s == s[::-1] # 将字符串反转并与原字符串比较
print(is_palindrome("racecar")) # true
print(is_palindrome("madam")) # true
print(is_palindrome("hello")) # false
- q3: 用python编写一个程序,实现二叉树的深度优先搜索(dfs),并返回所有节点的遍历顺序。
def dfs(root):
"""
实现二叉树的深度优先搜索
args:
root: 二叉树的根节点
returns:
所有节点的遍历顺序
"""
if root is none:
return []
result = []
# 递归访问左子树
result += dfs(root.left)
# 访问根节点
result.append(root.val)
# 递归访问右子树
result += dfs(root.right)
return result
class treenode:
def __init__(self, val):
self.val = val
self.left = none
self.right = none
root = treenode(1)
root.left = treenode(2)
root.right = treenode(3)
root.left.left = treenode(4)
root.left.right = treenode(5)
print(dfs(root)) # [4, 2, 5, 1, 3]
6、对话理解与情感交流(2个)
- q1: 我今天心情不好,能给我讲个笑话吗?
- q2: 你能帮我分析一下最近压力大的原因,并提供缓解压力的方法吗?
7、翻译任务(1个)
- q: 将这段文字翻译成英语:“张骞(zhang qian)是中国第一个伟大的探险家。他不畏艰险,克服重重困难,两次出使西域,开通了中国同西亚和欧洲的通商关系,将中国的丝和丝织品运往西亚和欧洲,开拓了历史上著名的“丝绸之路”。同时,他又将西域的风土人情、地理文化以及特有物种等介绍到中原,极大地开阔了人们的视野。
正如历史学家所指出的那样,如果没有张骞出使西域,就不可能有丝绸之路的开辟,也就不会有汉朝同西域或欧洲的文化交流。”(六级翻译原题)
- q: 再将这段英语翻译成中文
8、策略规划(1个)
- q: 假设你是某初创公司的ceo,公司在市场扩张过程中遇到了资金短缺问题,你将如何制定一份详尽的战略计划,既保证业务持续增长又能吸引新的投资者?
本次测评就到这里,接下来总结一下感受。
三、测试结果(仅代表个人观点)
根据之前使用3.5和4的感受,gemini整体实力大概在gpt3.5 - 4之间的水平,小部分能力确实超过了4,但综合实力gpt4目前更强一些。至于官方公布的实力对比,可能是付费版本,或预览版本之间的比较,笔者对此尚存疑惑,不在此表态,欢迎大家评论谈一下你们的观点。
不过从gpt3.5到今天的gemini,给我一个感受就是,铁打的流水(机器人)很长一段时间内不可能完全替代有创造性的人。相比于担心ai发展太快,不如精进技术,做ai的引领者!
发表评论