在AI服务方面的一些尝试

说说最近在AI服务方面做的一些尝试吧,这事说来有点话长,本来是给声湃做的服务,但后来发现公开提供出来也不妨,然后发现公开提供出来似乎还有更多的事情可以做,就大概成了现在的格局。

首先是一个音频(视频)转文本的服务,这个服务不仅做了音频转文本,还做了对音频的预处理,保证录制质量较差的录音也可以被处理,比如说采访音频、会议时在远处录的音频等等。另外对转换出的内容做了角色标注、标点符号规整等操作,确保转出的内容的是可读的,且可以被其他应用直接使用的。在这个基础上,我们还对内容做了摘要、要点提取之类的NLP处理,这个功能本来是用来给声湃的内容后台用的,利于用户快速的了解这期节目的要点、快速写成节目shownote,结果实践起来发现,很多人需要这样的功能来获取会议要点之类的信息(现在很多会议软件也在做这个功能)。同时这个服务也是支持多语言的,比如可以把英文的播客节目转成中文,并快速的了解节目里聊了什么。

大家可以从这里看到一些转换的例子,并与现在市场上的服务做个对比:https://drive.google.com/file/d/1L_XOyT7AIKc2DL027pkTuz6pP7yAfk3m/view?usp=share_link

肯定会有朋友有疑惑:这个看上去这个功能跟飞书妙记之类的差不多啊,你们做这个干啥?首先,区别可能会在于它是一个API,任何愿意在应用层加入这个功能的开发者,都可以方便的调用这个API来使用,而不用关心背后的细节。另外一个关键可能就是非常非常非常便宜,至于为什么便宜,就不得不提到在满足这个需求的时候,做的另外一个服务:https://gpu4us.com

在尝试做AI相关开发的初期,我们经常困于显卡不够用的问题——倒不是因为我们要训练大模型,大多数时间只是希望做个开发验证,比如验证多机并行、集群化的服务时,一个开发机的显卡肯定就不够了,而租用云服务的GPU,或者现在一些GPU租用平台的GPU,不是贵,就是根本抢不到。

所以当时我们希望把大家的开发机连接起来,用某种形式来共享算力,而远程办公的缘故,大家的机器都不在一个物理地点,直接拿局域网连起来又有点麻烦,所以就开发了一个GPU的共享系统,把分布到大家家里的机器连起来,让大家可以在别人空闲时,利用别人家里的机器做一些测试。

后来我们发现,似乎这个服务可以商品化——我们提供这样一个共享网络,加上大家家里的电脑,不就是一个更轻量级、更容易获得的GPU共享平台么?所以就有了gpu4us的雏形。

做这件事情有赖于我们早期的一些积累,首先是当年JooMe路由器项目的积累,当时为了连接分布在不同商家的路由器,帮助我们利用极低的带宽管理路由器,开发了一套分布式的系统。后来JooMe被鹏博士收购后,这个技术被移植到了大麦路由器上——当时这个路由器有将近百万级的在线数量。当然了,由于后来这个公司的内部一些原因,这个项目没有被真的被落实,包括在路由器里内置的TF卡也没有被利用,当时我们希望用这个TF卡做一个分布式CDN网络,就是今天的PCDN,但很可惜,当年还没人能理解这个东西的价值,所以也就搁置了,直到我离职这个技术也没有被开发实现。所以今天我们用当时的一些想法,将其具体的开发出来,就是这个GPU共享网络的调度底层了,这些年的容器化技术的发展、网络带宽的提升,也带来了更多开发、应用上的便利。

另外一个积累就是当年比特币矿场的经历了,有些朋友可能知道,当年我跟李笑来弄了国内第一个比特币矿场,虽然当时技术不太成熟,特别是电力问题在北方不好解决,导致这个项目最终没有做下去,但一些积累今天又被我用上了——怎么低成本的搭建一个计算集群,并且弹性的部署在任何便宜的地方。这个东西说来简单,实际做起来坑还是不少,但仍然有赖于之前在分布式计算方面的一些积累和技术的进步,这个问题也解决了,让我们有了更便宜的算力资源。

而这两点结合起来,就是gpu4us的服务了。我们希望综合利用我们自建的GPU集群,以及放置在用户家里的私有GPU的闲时资源,建立一个堪用的GPU网络——虽然它的可用性不足以让你做大模型的训练,但是开发、基本应用、推理的工作是可以被很好完成的,而且成本非常低。这也是文章开始说的音频转文本服务为什么会做到非常便宜的答案。

AI发展到今天,仍然有很多不确定的事情,但是我们希望能在这个过程中提供更多开发、应用测试的资源给大家,让每个人、每个用到GPU算力的服务都有便宜的GPU可以随时用起来,低成本的尝试一些可能性。

所以,欢迎大家多提建议,服务陆续在上线中。

发表回复

您的电子邮箱地址不会被公开。 必填项已用 * 标注