Jina AI开源第二代文字嵌入模型,整体表现接近OpenAI同级模型

德国人工智慧新创Jina AI开源了该公司的第二代文字嵌入模型jina-embeddings-v2,新模型现在可以处理多达8,192个token上下文长度。以大规模文字嵌入基准(Massive Text Embedding Benchmark)评估jina-embeddings-v2的能力,整体来说已非常接近同等级模型OpenAI text-embedding-ada-002的表现。

jina-embeddings-v2是完全由Jina AI开发团队研发、收集资料集和调校的新模型,能力较前一版本大幅提升,其最重要的进步,便是能够处理8,192个token上下文长度。可以处理更长的上下文,也就代表模型可以应用的领域更为广泛,像是可以分析法律文件,更细致地捕捉法律文件中的细节,或是从财务报表中解析关键资讯,进行财务预测,也能够用於开发对话机器,以应对复杂的用户查询。

在大规模文字嵌入基准的排名中,开源的jina-embeddings-v2排名第17,与商用的OpenAI text-embedding-ada-002的15名相去不远,而且在分类、重新排序、检索和摘要生成等自然语言处理任务,jina-embeddings-v2的表现已经超越text-embedding-ada-002。

目前用户可以从Huggingface免费下载jina-embeddings-v2模型,官方释出两个模型版本,第一个是针对学术研究或是商业分析等高准确性需求任务设计,大小为0.27 GB的基础模型,另一个则是适用於轻量级应用程式,能够整合行动应用程式或是供运算资源资源有限的装置使用的小型模型,容量只有0.07 GB。

Jina AI持续扩展jina-embeddings-v2模型,正着手开发API平台,供用户能够根据需求简单扩展使用规模,同时Jina AI也将扩增jina-embeddings-v2的能力,支援更多的语言。…

FCC批准AR与VR装置使用6GHz频段

Meta

美国联邦通讯委员会(Federal Communications Commission,FCC)周四(10/19)开放了6 GHz频段给新一类的超低功耗(Very Low Power,VLP)装置,涵盖虚拟实境(VR)、扩增实境(AR)、穿戴式感应器及各种物联网装置(IoT)。Google Pixel团队当天即透过X向FCC致谢。

其实包括Google、苹果、博通(Broadcom)与Meta(Facebook)在2020年就罕见地连署,请求FCC开放6 GHz供VLP装置免授权使用。宣称6 GHz频段将让这些装置不需再利用缆线,更具行动力,若再佐以低延迟及高传输率,则能支援更重要的应用,像是救生手术的训练或协助视障人士。

一直到今年9月,FCC主席Jessica Rosenworcel即提议了相关规定,指出有无数令人们生活更方便的创新都仰赖免授权频段,6 GHz频段已经改善了人们每天所使用的Wi-Fi,期望藉由推动新一波的装置创新浪潮,来吸引消费者,同时巩固美国於先进无线技术上的领导地位。

FCC委员本周无异议地通过了该提议,同意需要弹性来推动免授权创新,并建立规则以允许那些短距离运作的VLP装置具备高速传输能力。不过,为了保护6 GHz频段上既有授权装置的运作,目前该规定谨慎地将装置限制在非常低的功率水平,也要求它们满足其它技术及操作需求。

具体而言,新规定允许VLP装置在6 GHz频段的U-NII-5与U-NII-7部分运作,总计为 850 MHz,功率等级明显低於其它免授权装置的运作得以出现在任何地方,不管室内或户外,也无需任何频率协调系统。

其实FCC委员会也已提议将这些VLP免授权装置的运作,扩大到6 GHz频段的其它部分,以及允许这些装置以更高的功率运作,同时透过地理围栏系统来避免干扰。

Google Pixel团队表示,6 GHz频段对未来的无线连结非常重要,FCC本周的决议意味着该频段将可用来进行端对端的高速Wi-Fi传输,为Pixel用户及美国消费者的胜利。…

115位CIO看ChatGPT冲击 (上)

iThome

全球ChatGPT浪潮在台湾各产业也掀起了一股生成式AI热潮,有的企业看好发展大力拥抱,有的企业则戒慎忧虑高度管制,更多企业则在积极采用和警戒管控中来回摆荡。我们透过多种管道,搜集了115位,来自一般制造业、高科技业、服务业、金融业、医疗、政府机关与学校的IT和资安主管,分享他们对ChatGPT浪潮的第一手观察和看法,可以作为资讯长和资安长决策的参考。

变化加速,典范快速转移,它(编按:IT)时代真的来了!
── 台湾大哥大资讯长 蔡祈岩

 机会  1.透过自动生成AI智能,提供客户个性化服务。2.强化诈骗侦测与预防能力。3.协助数据分析与决策之辅助。4.透过自动化提升效率与节省成本。
 挑战  1.客户隐私与商业机密之确保。2.人工智能运用管理与维运。3.新兴科技导入与法遵规范之平衡与拿捏。4.自动化带来既有人力与职务之取代与转型。
── 银行IT副总

 机会  1. 能够更快速的优化及提升程式开发的品质,降低开发的时间。
2. 让团队更专注於系统架构的设计。
3. 对於既有程式码的解析与知识化,能大量的缩短时间。
 挑战  1. 如何能让员工使用此类工具,但又需要避免个资及公司机敏资料外泄  2. 为避免AIGC一本正经地胡说八道,商转的进程有待观察。
── 金融业IT兼资安最高主管

ChatGPT的确带来很大的改变,搜寻资料时,从关键字变为「听得懂人话」,从没有创造力变成有想像力,然而,这议题的回答,对不同产业别会有不同的答案。通常我们听到AI可以取代一些分析性常态性的工作,其他产业,我无法评论,但是,就建筑设计来说,要到好用易用的阶段还有一段路要走。

我们可以看见透过Midjourney可生成令人惊艳的作品,但生成式AI目前无法精准地产生设计上的成品,可能是我们这一行比较局限,现阶段对我们而言,只有提升一般基础问题搜寻的容易度。不过,对企业而言可能在这一两年内将会杀手级应用的出现,值得我们持续关注。

PS.我觉得ChatGPT就是技术爆炸的典范。ChatGPT点燃了一个火花,在黑暗中特别明显,终将造成全面燃烧。
── 服务业IT兼资安负责人

ChatGPT的出现颠覆了传统的网路科技公司发展模式,让所有企业都能够站在同一个起跑点,共享这项强大的语言模型技术。在竞争激烈的市场中,具备敏捷开发产品的团队可以快速利用ChatGPT技术优势,开发出更具有创新性和竞争力的产品和服务,提高市场占有率和企业收益。以我们自家为例,在过去的每个月我们都上线了基於大型语言模型的新功能,持续的在市场创造声量、也让消费者能够体验到基於最新AI模型所打造出的产品服务。
── 爱料理技术长 李致纬

 机会  IT人员的职能从原本的系统开发与维运、系统分析与系统设计等,将转变为「数位转型师」,需更接近业务流程需求,并将资讯系统的开发与数据应用赋能予用户。
 挑战  生成式AI对系统开发维运的帮助,目前仍只是局部片段。因发展过程是渐进的,有待观察与持续尝试探索。
── …

美自驾AI新创Comma.ai更新开源自驾车软体,内建自动辅助导航自驾功能,让即使非高阶的市售车也能开始试用

george hotz archive

不让电动车龙头特斯拉专美於前,以开源自驾车软体而闻名的美国自驾AI新创Comma.ai近日在自家技术年会中,宣布在最新一版的自驾车软体Openpilot中,开始内建自动辅助导航自驾功能,让即使非高阶车款的市售车款,现在也能通过在车上安装这套软体,来实现地图导航自驾,就像是特斯拉电动车的自动辅助导航自驾一样,而且改装费不用2千美元。不过该功能目前还是实验版本。

Comma.ai是由美国知名骇客George Hotz在2016年成立的自驾AI新创,以面向自驾车後装市场为主,让非高阶的一般市售车,也能够透过安装一套开源自驾车软体Openpilot,搭配客制硬体,就能具备有先进驾驶辅助(ADAS)的功能。

Openpilot推出短短几年,已经支援逾250款市售车,并且用户更遍布美国、中国、韩国、日本及台湾等。这些年来,Openpilot软体历经多次改版更新,增加不少新功能,让它的自驾功能的表现越来越好。例如,其中一个重要功能是交通号志辨识,让自驾车行驶时遇到前方红灯时会自动停车等待,直到转为绿灯後继续行驶。

在今年技术年会中,Comma.ai宣布在新释出的0.9.4版Openpilot更新中,推出实验的自动辅助导航自驾功能,透过这项新功能,将使得以後汽车开启自驾模式时,不只是在道路上稳定行驶而已,还能进一步决定行驶路线,可以根据原先设定的导航地图路线来行驶,减少人为的介入。

早在去年底一场Taco Bell技术挑战赛中,Comma.ai工程师就曾展示用一台装有Openpilot软体和Comma 3硬体的市售车,成功将车开到指定的地点,全程没有人为介入,完全依靠导航自驾的方式来开车。

在新推出的自动辅助导航自驾功能中,使用者输入目的地後,Openpilot会根据Mapbox地图规画的行驶路线来控制汽车沿着绿色的导航线行驶。做法上,是透过将Comma 3装置两颗镜头的前车影像画面和导航地图输入到AI自驾模型中,来预测接下来的行驶路线。为了方便AI自驾模型撷取地图资讯,地图输入模型前,会先经过重新渲染并压缩成每米256×256像素的图像,并与GPS的经纬度资讯,一起输入到推论模型中进行预测。

在训练方面,Comma.ai自驾车团队以大量60秒的行车影像片段,搭配地图图资建立训练资料库,提供自驾模型进行训练学习,让模型能够预测在特定地图路线上的行驶情况,并学习如何像人类一样开车。

这项导航自驾功能目前已能运用在如高速公路等场景中,可以辅助驾驶完成上下交流道的导航自驾。不过记者实际测试当接近要驶离交流道时,Openpilot会控车自动变换到外车道,但仍需要使用者手动打方向灯并轻碰方向盘,才能进行切换。出交流道遇岔路则会依绿色的导航自驾路线走,不会呈现迷航状态而开错路。

不过,目前在市区里导航自驾仍具有一定难度,需要较多人为介入,不过随着後续的版本更新,透过持续优化将使得它在各种市区场景的表现逐步提升。另外,值得注意的是,需要是订阅方案的用户,才能够使用导航自驾功能。

Comma.ai同一天还更新硬体,推出改良的Comma 3X版本,升级了电源架构和加入立体声喇叭,处理器则是与前一代Comma 3使用相同的处理器,并搭配2160×1080解析度的OLED萤幕,但价格更便宜,每款售价1,250美元,约台币3.9万元。…

DeepMind AI模型不下围棋了,新AlphaDev模型可加速资料中心运算效率

DeepMind

Google AI部门DeepMind曾经以AlphaGo击败棋王一时声名大噪,本周DeepMind宣布最新AI模型研发成果AlphaDev,可加速资料中心运行速度并具节能之效。

AlphaDev是以精通下棋及电玩游戏的AlphaZero(曾经击败过AlphaGo)和MuZero模型改良而成。两者後来改以优化资料中心和影像压缩为主轴。而AlphaDev则是AlphaZero的特化版,它发现新的资料排序(sorting)及杂凑(hashing)演算法,可加速软体程式码的执行。

AlphaDev找寻新演算法是从让电脑读取的低阶程式指令,而非人类撰写如C++之类的高阶语言着手。他们相信,低阶的组合指令比高阶程式语言更容易找到改善空间,电脑储存和运算在这个层次更为弹性,意谓更容易有突破性的技术,以提升速度或降低耗能。他们希望能由AlphaDev找到新的资料排序及杂凑演算法,因为这是今天人们资料排序、储存及检索的二个最基本流程。排序演算法能影响数位装置处理和显示资讯,从搜寻或社群网站贴文排序、或使用者推荐等。

作为AlphaZero的变种,AlphaDev也是增强学习(reinforcement learning)模型。为了训练AlphaDev寻找新演算法,研究人员将排序变成一人玩家的「组合游戏」。每回合AlphaDev都观察它产生的演算法及由CPU取得的资讯,然後再选取一个指令加入演算法再展开下回合。AlphaDev必须要从非常多的指令组合中找出排序演算法,每回合再找出更快、更好的演算法。而指令组合数量,大概等同於宇宙的分子数量,或是西洋棋(10的120次方)与围棋(10的700次方)棋步。而走错任何一步,整个演算法可能就没用了。研究人员会从两方面来奖赏AlphaDev的排序,一是正确性,二是效率、速度。

最後AlphaDev发现到新的演算法,可改善低阶虚拟机器(LLVM)libc++排序函式库的速度,在较短(3到5 element)序列可提升70%,而在超过25万个element的长序列则提升1.7%。短序列的演算法是DeepMind研究重点,因为更为常用。DeepMind指出,在简单的使用者搜寻任务上,AlphaDev演算法可提升排序速度,但一旦应用到更大规模环境,例如资料中心,将能大量节能及省下成本。

寻找杂凑演算法也是AlphaDev的任务之一。杂凑常用於资料储存和检索,如资料库中。AlphaDev找到的演算法应用在资料中心内9到16 byte的杂凑函式时,可提升30%的效率。

自从发表用於LLVM标准C++函式库的排序演算法来取代用了十多年的副程式(sub-routines),及发表用於abseil函式库的杂凑演算法,已有数百万次下载,这些演算法已用於各种产业,包括云端、线上购物和供应链管理。

DeepMind预期,一如其演算法从下棋开始跨到资料中心运算,未来有更多通用型AI模型会进一步用於现代生活。…

Google发表具5,620亿参数的多模态语言模型PaLM-E,实体机器人更能解决复杂长任务

Google发表视觉语言模型PaLM-E,这是一个可用於机器人的嵌入式多模态语言模型,PaLM-E由视觉模型ViT以及语言模型PaLM相结合而成,综合了语言、视觉和视觉语言的训练,使机器人可以理解人类的指令,解决需要多种推理能力的长时间指令(Long-Horizon Instruction)。

虽然大型语言模型已被证明足够强大,可以解决复杂的任务,但是要用於真实世界的一般性推理,像是要让一个实体机器人听懂人类语言并且完成任务,仍有一大段距离需要努力,Google提出了实体(Embodied)语言模型,使得语言模型能接受连续的感测器讯号,将文字和感知连结起来。

实体语言模型的输入是多模态的语句,综合视觉、连续状态评估和文字输入编码,研究人员端到端训练这些编码,结合预训练的大型语言模型,便能用来完成各种实体任务,诸如机器人操作、视觉问答和产生字幕等。

PaLM-E结合具220亿参数的ViT视觉模型,以及5,400亿参数的PaLM语言模型,因此PaLM-E总共拥有5,620亿个参数。具220亿参数的ViT视觉模型是Google在今年发表的大型视觉Transformer模型,ViT使用了在自然语言处理领域中,已经非常成功的视觉Transformer模型,影像讯号会被编码成序列画素或是影格,透过Transformer网路进行处理。

而PaLM则是Google研究院在2022年发表的模型,建立在Pathways人工智慧架构之上,运用分散式机器学习加速器,训练出高达5,400亿参数的PaLM语言模型,在语言、推理和程式码任务都具有良好的表现。

PaLM-E可说是集语言模型技术大成的实体多模态模型,在多种实体装置上以多种观察模式,解决各式各样推理任务,且由於PaLM-E的训练资料集包括语言、视觉和视觉语言类型,该模型经多样化资料联合训练,因此能够表现出正迁移的特性,也就是在执行任务时,能够因为不同的学习经验而获得正向影响。

研究人员解释,Palm-E的主要架构思路是持续注入实体观察,将图像、状态评估和各种感测器模式,输入到语言模型的语言嵌入空间中。由於图像、状态和感测器等观测资料,都会编码成和语言权杖嵌入空间相同维度的向量序列,因此语言模型也能够处理图像、感测器数值等这类非语言资料,而这些连续资料也以类似语言权杖的方式,持续注入到语言模型中。

Google展示PaLM-E的范例之一是一个长时间指令「从抽屉拿玉米片给我」,在人工智慧领域的长时间指令,是要求机器人执行一个需要执行多个子任务,才能完成的长任务,而「从抽屉拿玉米片给我」的这项指令,机器人需要听懂人类的指令,辅以电脑视觉的回馈,移动到柜子前拿起玉米片,并克服其他研究人员的干扰,将玉米片取回给发出指令的人。

PaLM-E还表现出独特的泛化能力,即便是指令中包含过去没有见过的物体,PaLM-E也能驱动机器人完成任务,像是「将绿色积木推给乌龟」的这项范例指令,即便PaLM-E没有看过乌龟,也能成功执行任务。

除了赋予机器人更强大的能力之外,PaLM-E本身就是一个优秀的视觉语言模型,可以看图说故事,或是依据图片内容回答提问。…

OpenAI释出可用文字提示快速生成3D模型的AI

OpenAI发表最新文字生成3D模型的人工智慧模型Point-E,研究人员提到,虽然Point-E模型所产生的3D模型品质,还未达最先进的水准,但是因为Point-E的样本生成速度快了其他方法一到两个量级,因此在部分用例可供使用者权衡使用。

目前文字生成图像模型爆炸性成长,先进的模型在数秒中内,就能够根据自然语言描述,快速生成高品质图像,这和目前3D模型生成发展,产生极大的对比,而由於3D生成的使用案例很广,可被用於虚拟实境、游戏和工业设计等,因此发展文字生成3D模型技术,对於普及3D内容创作有很大的发展潜力。

研究人员提到,目前使用文字产生3D合成模型的方法主要有两种,其一是直接使用文字和模型的资料对,或是未标记的3D资料训练模型,虽然这些模型可以利用现有的生成建模方法,有效地生成样本,但因为目前缺乏大规模3D资料集,因此很难广展其多样性和复杂文字提示。

另一种方法则是利用预训练文字图像模型,以最佳化可微分3D表示的方法,研究人员解释,这些方法通常能够处理复杂多样的文字提示,但需要更昂贵的最佳化过程才能生成每个样本。OpenAI的Point-E的目标则是结合文字到图像模型,以及图像到3D模型技术,来总和两种方法的优点。

文字到图像模型利用大量文字、图像对语料库,使Point-E能够遵循多样且复杂的提示,而图像到3D模型,则是在较小的图像、3D对资料集训练。因此Point-E从文字提示生成3D物件,首先是使用文字生成图像模型进行采样,然後将采样图像作为条件生成3D物件样本,这两个步骤可以在数秒钟内完成模型点云,不需要昂贵的最佳化程序。

研究人员最後使用回归方法,从点云生成网格,Point-E整个过程只要一到两分钟,就可以在单个GPU上生成3D模型,虽然目前Point-E所产生的模型品质较差,但在部分需要短回应时间的用例上,Point-E为一个权衡的方法。目前OpenAI已经在GitHub上发布预训练模型,以及评估程式码和模型。…

Google发表两款文字转影片工具Imagen Video与Phenaki

Google

不让Meta的Make-A-Video专美於前,Google也在本周发表两款文字转影片工具,分别是强调影片品质的Imagen Video,以及主打影片长度的Phenaki。

其中,Imagen Video奠基於Google的Imagen文字生成图像人工智慧系统上,采用串连扩散模型(Cascaded Diffusion Models,CDM)来产生高解析度的影片。先透过自然语言处理预训练模型T5嵌入使用者所输入的文字後,由一个基本的影片扩散模型以每秒3帧的速度产生一个解度析为24×48的16帧影像,之後再利用多个Temporal Super-Resolution(TSR)与Spatial Super-Resolution (SSR)模型,最终产生每秒24帧,总长128帧且解析度高达1280×768的5.3秒影片。

Google是以公开的LAION-400M图像/文字资料集,以及6,000万笔图像与文字的配对,再加上1,400万笔影像与文字的配对来训练Imagen Video,并宣称Imagen Video可用来创造类似梵谷(Van Gogh)水彩画风的影片。

至於Phenaki则可用来建立总长多达数分钟的影片,只是影像品质不若Imagen Video。Phenaki可将一段具备一定长度的提示文字变成任意长度的影片,或许只是一段一直骑着摩托车的影像,或者是有一头狮子奔驰在长型的办公桌上,最後却穿上了西装办公。令人惊喜的是,Phenaki所呈现的影片非常贴近文字描述,而且Google认为它不仅可用来产生描述单个概念的影片,还能可根据一系列的文字,产生有连贯性的多个影片。

图片来源/Google

由於图像资料集的数量远大於影片,使得不管是Imagen Video或Phenaki都同时利用影片与图像进行训练,并发现它的确对产出的品质与多样性都有所助益。

有监於用来训练Imagen Video的资料中可能含有许多不适当的内容,因此Google目前并不打算释出或开源该模型。…