微软希望将生成式ai带到windows及其运行的电脑的前沿。
在本周年度build开发者大会的两场主题演讲中,该公司发布了一系列名为copilot+的windows新机型,以及如recall等生成式ai功能,帮助用户查找过去浏览过的应用、文件和其他内容。copilot是微软的生成式ai品牌,将很快更加深入地集成到windows 11体验中。此外,新的微软surface设备也即将面世。
相关阅读:gpt-4o通过整合文本、音频和视觉实现人性化的ai交互,openai推出了其新的旗舰模型gpt-4o,它无缝整合了文本、音频和视觉输入与输出,有望提高机器交互的自然性。现在plus用户可以直接使用gpt-4o,关于如何开通plus,可以使用wildcard平台。
体积应用(volumetric apps)
微软正在将windows体积应用(基本上是具有空间感知的互动vr应用)引入meta quest头显。通过与meta的合作,微软表示将把windows 365和本地pc连接带到quest头显上,使开发者能够将他们的应用扩展到3d空间。wildcard也支持claude, midjourney, adobe, patreon, midjourney, of, x等的订阅。
在周二的主题演讲中,微软展示了从meta quest 3头显视角看一个xbox控制器的数字爆炸3d视图——佩戴者可以用手操控这个数字对象。微软windows和设备部门副总裁pavan davuluri在演示中表示:“我们正在加深与meta的合作,使windows在quest设备上成为一流体验。”
开发者可以注册预览版以获取微软新体积api的访问权限。
copilot+电脑
copilot+电脑是微软对ai优先、旗舰windows硬件的愿景。所有这些电脑都配备了名为npu的专用芯片,以支持recall等ai体验,并且标配16gb内存和ssd存储。
首批copilot+电脑将搭载高通的snapdragon x elite和plus芯片,微软声称这些芯片可提供高达15小时的网页浏览和20小时的视频电池续航。芯片制造商英特尔和amd也承诺与包括宏碁、华硕、戴尔、惠普、联想和三星在内的一系列制造商合作,为copilot+设备制造处理器。
copilot+电脑起售价为999美元,部分型号今天即可预购。
surface pro和surface laptop
微软新发布的surface设备surface laptop和surface pro专注于性能和电池续航。
最新的surface laptop——提供13.8英寸或15英寸显示屏——采用了“现代线条”重新设计,屏幕边框更窄。它一次充电可持续使用长达22小时,比surface laptop 5快了86%。它还支持wi-fi 7并配备了触觉反馈触控板。
至于新的surface pro,微软表示它比上一代surface pro(surface pro 9)快了90%,并配备了新的hdr oled显示屏、wi-fi 7(和可选的5g)以及升级的超广角前置摄像头。此外,其可拆卸键盘——经过额外的碳纤维加固——现在也具有触觉反馈。
recall
即将推出的windows 11 recall功能可以“记住”用户几周甚至几个月前在其pc上访问的应用和内容,例如帮助他们找到曾讨论购买衣物的discord聊天。用户可以使用recall的时间轴“回滚”查看最近的工作内容,并深入到powerpoint演示文稿等文件中,以找到可能与他们搜索相关的信息。
微软表示,recall可以在颜色、图像等之间创建关联,让用户几乎可以用自然语言搜索pc上的任何内容(与初创公司rewind的技术类似);开发者可以通过向其应用添加上下文信息来改进recall。微软声称,所有与recall相关的用户数据都是私密且在设备上的——重要的是,这些数据不会被用于训练ai模型。
微软表示:“您的快照是您的;它们保存在本地pc上。您可以删除单个快照、调整和删除时间范围,或在任何时候通过任务栏系统托盘中的图标暂停。您还可以过滤不想保存的应用和网站。”
图像编辑和实时翻译
windows中现在的ai功能比以往任何时候都多,其中一些功能仅在新的copilot+电脑上可用。
一项名为super resolution的新功能可以通过自动放大来修复旧照片。copilot现在还可以分析图像,为用户提供创意构图的建议。通过名为cocreator的功能,用户可以生成图像,并要求ai模型按照他们的绘图进行修改或重新设计图像。此外,实时字幕和实时翻译功能可以将通过pc传输的任何音频(无论是youtube还是本地文件)翻译成用户选择的语言。实时翻译最初将支持约40种语言,包括英语、西班牙语、普通话和俄语。
微软edge浏览器中的一个独立但相关的新功能在linkedin、youtube、coursera、路透社、cnbc、彭博等网站上提供实时视频翻译。该功能将在不久的将来推出,支持将西班牙语翻译成英语,以及英语翻译成德语、印地语、意大利语、俄语和西班牙语,通过配音和字幕进行实时翻译。
team copilot和扩展
team copilot是微软不断扩展的生成式ai技术套件的最新扩展。它与公司的视频会议应用teams集成,帮助管理会议议程并记录会议笔记,会议中的任何人都可以共同撰写笔记。它还扩展到loop和planner,微软的协作和计划平台,用于创建和分配任务、跟踪截止日期并在需要团队成员输入时通知他们。
在相关的copilot新闻中,微软已推出(私密预览版)copilot扩展,允许开发者使用第三方应用和技能扩展github的代码生成工具github copilot。启动合作伙伴包括datastax、docker和lambdatest;扩展将存在于github marketplace中,但开发者也可以创建自己的私人扩展,以与其内部系统和api集成。
windows copilot runtime
支持recall和super resolution等功能的是windows copilot runtime,这是大约40个生成式ai模型的集合,构成了微软所描述的windows的“新层”。结合语义索引,一个本地于单个copilot+ pc的基于向量的系统,windows copilot runtime允许生成式ai支持的应用(包括第三方应用)运行,而不一定需要互联网连接。
“[运行时]由现成的ai api组成,如studio effects、live captions翻译、ocr、用户活动的recall等,这些将于6月向开发者提供,”davuluri在周二表示。
微软表示,tiktok母公司字节跳动的流行视频编辑器capcut将使用windows copilot runtime及其随附的新windows copilot库(一组api和ai开发工具)来加速其ai功能。meta也将在whatsapp中添加前述的studio effects,以提供视频通话中的背景模糊和眼神接触等功能。
升级的机器人构建工具
azure ai studio是微软azure openai服务中的工具集,允许客户结合ai模型并构建能够“推理”这些数据的应用,开发者很快可以使用按需付费的推理api创建应用——开发者可以通过这些api访问和微调托管在azure基础设施上的生成式ai模型。微软称之为“模型即服务”,并将首先推出来自nixtla和core42的模型。
在相邻的copilot studio产品套件中,微软推出了copilot代理,微软将其描述为可以“独立协调特定角色和功能的任务”的ai机器人。 (copilot studio提供了将microsoft 365中的copilot——如excel和word中的ai助手——连接到第三方数据的工具。)利用内存和上下文知识,copilot代理可以导航各种类型的业务流程,从用户反馈中学习,并在遇到不知如何处理的情况时请求帮助。
snapdragon开发工具包
高通推出了一款面向为搭载arm芯片的copilot+电脑开发应用的开发者的新开发工具包。
售价899.99美元的snapdragon开发工具包——尺寸与苹果的mac mini相似——搭载高通的snapdragon x elite芯片,配备32gb内存、512gb存储和大量i/o接口。该开发工具包支持wi-fi 7和蓝牙5.4,并且通过各种usb-c和hdmi端口可以同时驱动多达三个4k显示器。
phi-3
微软宣布其生成式ai模型家族phi的新成员phi-3-vision,可以执行一般的视觉分析和推理任务,如回答有关图表和图像的问题。该模型可以读取文本和图像,并且高效到可以在移动设备上运行。
phi-3-vision目前处于预览阶段,而之前宣布的仅文本版本——phi-3-mini、phi-3-small和phi-3-medium——现在已普遍可用。
与可汗学院的合作
微软与可汗学院合作,捐赠云计算基础设施的使用权,使可汗学院能够为美国的教育工作者免费提供其ai驱动的工具。两家公司还将合作探索通过生成式ai改进数学辅导ai应用的机会,微软在周二表示。
发表评论