最近两天的科技新闻简短的新闻播报科技今日新闻

科技 作文素材2023-06-29Aix XinLe

  一个叫作“一笔两划”的创业公司,公开声讨曾经的教培龙头“学而思”,说它用“扒库”的方式,“偷”走了自己辛辛苦苦攒下的数据

最近两天的科技新闻简短的新闻播报科技今日新闻

  一个叫作“一笔两划”的创业公司,公开声讨曾经的教培龙头“学而思”,说它用“扒库”的方式,“偷”走了自己辛辛苦苦攒下的数据。

  故事的起因,是在今年4月中旬,“笔神作文”(一笔两划公司旗下产品)发现,服务器接口出现大量有规律的异常访问,导致服务器承载压力快速升高。

  访问量远超日常平均值。笔神作文对深AI透露,平时的日访问量大约是几百或几千,那几天暴增至每天超过50万。一周之内,他们的数据被爬取了258万次最近两天的科技新闻。

  通过查阅服务器日志,笔神作文发现,单一IP通过“爬虫”技术,高密度地爬取了他们的数据库科技今日新闻。这个IP每次访问的搜索词,都是作文相关,系统会每页返回30篇作文,每次访问都是用搜索词从第一页逐页向后翻,基本上把库里同个题目的所有作文,全部抓取完了。

  “扒库”事件发生后没多久科技今日新闻,笔神作文发现,学而思在进行数学大模型MathGPT的研发,并表示将于近期上线一款“AI助手”,其中一项功能,就是作文。

  笔神作文被“扒库”,和学而思开发“作文AI助手”,这两起事件之间是否有关联,目前尚没有明确结论。

  但笔神作文认为,自己的权益被侵犯了。它向对方发去律师函,并将这件事公之于众,试图讨要一个说法。学而思方面则给出公开回应,称对笔神素材内容的使用均符合合同要求,且其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

  这家公司成立于2017年,产品“笔神”是一款人工智能辅助写作软件,算是AI+教育的产物。一开始“笔神”面向内容创作平台和相关工具厂商,后来深入到垂直领域,用AI教学生写作文,于是就有了“笔神作文”。

  你可以简单理解:它处在教育行业,面向的是学生群体,利用了人工智能技术,解决的是写作文的场景。

  AI写作文,跟今天大火的ChatGPT,在技术上有很多共通之处。它们都涉及到自然语言处理、语义分析预测、机器学习等技术最近两天的科技新闻。笔神作文创始人宋嘉伟,曾担任过索尼高级系统架构师、奇点机智CTO。

  早在五年前,宋嘉伟就说过,在考虑如何将bert或GPT-2这些预训练语言模型技术运用到应用中去。当时GPT尚未出圈,不像今天这样广为人知。

  据笔神方面介绍,2020年12月,笔神作文跟学而思达成合作最近两天的科技新闻。笔神作文为学而思提供“笔神作文范文素材服务接口”,用于学而思相关服务中,按调用次数结算费用。为此,笔神作文为学而思开放了服务接口。

  作文素材,是这项交易中的一个核心资产,也是笔神作文商业模式的基石。事实上简短的新闻播报,笔神作文最早就是从素材这个点切入的。它当年主打的“一键找素材”功能,用户通过搜索关键词,系统可以自动匹配素材,资源从古诗词经典、公文,到现代网文均有涵盖。在写作过程中,系统还可以实时推送素材。

  这些素材不是来源于网络,而是笔神自有的数据库。通过AI技术的智能识别、翻译、匹配,笔神能向用户的搜索行为反馈回合适的素材。

  当这些作文素材的量足够大、质量足够优质、匹配够精准,就具备了一定的商业价值,甚至可以对外售卖。这才有了跟学而思的合作。

  按照笔神作文对深AI的介绍,他们对与学而思的合作范围进行了限定,“我们开放接口让他们调用我们的数据,显示在他们自己的APP里,但合同中并未包括存储数据或用于AI算法的权限简短的新闻播报。数据应仅供他们的用户调用,不能被存储在他们的机器上。”

  4月中旬的那次异常调用,让笔神作文认为,超出了正常的商业合作范围。“他们的行为触发了我们的防御机制,这才使我们发现了这一情况。”

  笔神作文称,他们查看了后台的访问日志,发现是由单一IP通过“爬虫”技术发起的非法访问。“我们已经掌握了这个IP地址。”

  国内某人工智能创业公司的CEO刘然对深AI分析,这种穷举关键词的方式,肯定是想要获取库里的数据,这是非常明显的行为。

  笔神作文对深AI透露,事发后他们与学而思的运营人员求证,对方直接承认,是学而思的算法组在爬取数据并作为己用。不过,针对此说法,深AI尚未得到学而思方面的证实。

  学而思方面则在6月13日的公开回应中称,其对笔神作文接口的调用,并未超出双方合同范围,对笔神素材内容的使用均符合合同要求,未用于合同以外的任何用途。学而思专门强调,其自研的MathGPT大模型和“作文AI助手”,没有使用笔神作文的任何数据。

  为了提升算力,很多科技公司都在花重金抢夺英伟达的GPU。在算法端,国内外的一些大厂将算法开源,大大降低了模型开发的门槛。

  生成式AI大模型需要使用大量且多样化的数据来进行训练,以提高模型的泛化能力和生成能力。不同的模型可能使用不同的数据来源。ChatGPT这类通用大模型,用了很多公开数据,如各类新闻网站、书籍、科学论文、网页等等。一些垂直领域的大模型,则需要找到有针对性的语料库和数据集。

  国内某头部科技公司的大模型负责人对深AI表示,ChatGPT其实也用了很多非公开的数据,网上的公开数据很多都质量非常差,高质量的数据是有门槛的。数据的获得、清洗,都面临很大挑战。

  好未来CTO田密在5月4日公开表示:“很多领域是有数据壁垒和行业know-how的,大模型还是得和领域知识深度结合,加上足够多的领域数据来训练领域大模型。”

  就像田密说的,领域大模型要和领域知识深度结合。在AI作文领域,作文素材就是训练机器的重要数据。

  早在2019年,笔神公司就开始有目的性地收集数据,训练自己的作文语料库,覆盖名人名言、诗词、公文、网络语言等。他们利用训练机器模拟人工标签的方式,对每条语料打标签。

  在垂直语料库中,只有对数据打过标签,才能基于向量匹配、用户当前创作内容的语义分析和预测,进行精准的内容推送。

  刘然对深AI说科技今日新闻,建立模型需要大量经过验证的数据,如果这些数据已经整理好了,那么就可以节省大量的人力工作。笔神作文整理的作文,可能被当作标注数据使用。

  这个过程是持续且漫长的。笔神作文称,创业六年,他们总共积累了超过500万篇作文素材,月批改量超3万篇。这些作文素材,是经过一篇篇人工审核、筛选投稿、打标签、分级、数据纠正,最后累积起来的。

  这些数据不仅能在APP的页面以素材形式呈现,还能拿去在后台训练算法。所以在跟其他公司合作开放接口时,笔神作文在协议中专门加了一条——不得“缓存,存储,作为语料进行计算,训练”。

  笔神作文认为学而思“盗”走了数据简短的新闻播报,揣测学而思将数据用于数学大模型MathGPT以及学而思学习机“作文AI助手”的训练和研发。但这似乎很难证明。

  刘然认为,正常来讲,作文数据应该会提前设置一些限制,比如不接受高并发,在数据里加密,而且应该能追踪到数据的去向和用途。不过他同时认为,作文数据不像用户关键行为数据那么关键。

  “你可以让AI学习什么是好的作文,然后让它按照这些标准生成。但我认为,其实不需要那么大量的数据。几万篇高质量的作文应该就够了。”他说。

  笔神作文态度强硬,连发两篇公告,要求学而思道歉,同时索赔1元。它甚至想给这次事件扣上“AI大模型数据被盗第一案”的帽子。

  上海曼昆律师事务所主任刘红林律师对深AI表示,笔神作文自建的语料库或素材库,本身是有知识产权权益的。但是否属于著作权法上的作品,需要看独创性是否符合相关的判定标准简短的新闻播报。

  “如果笔神作文有足够的证据能证明学而思恶意抓取了他们的数据,那么可以发起知识产权侵权或不正当竞争诉讼。”他说。

  另外,笔神作文与学而思有合作协议,如果对知识产权的尊重和授权进行了约定,他们也可以通过合同违约来保护自己的权益。

  值得注意的是,笔神作文素材库中的很多作文,是用户投稿而来。笔神作文自称,每个月都会收到30万篇作文投稿。因此,在认定是否侵权之前,先要厘清这些素材的知识产权归属。

  刘红林分析,这要看作文的创作者(投稿人)与笔神作文之间科技今日新闻,如何对知识产权进行约定。如果用户在投稿时对笔神作文进行了知识产权授权,那么笔神作文就享有对应的权益。

  深AI查询笔神作文的用户服务协议,发现其中有这么一条:用户在笔神作文发表的内容(包括但不限于留言、评论、笔记),授予笔神作文免费且不可撤销的非独家使用许可。

  刘然想不明白的是,笔神作文为什么会与学而思合作。“如果是我,绝对不会跟学而思合作,因为我们是强竞争关系。”他认为,“在大模型时代,仅仅提供作文数据库的做法是没有机会的。”

  有业内人士分析,学而思有流量,有场景,有知名度,尤其是在面向用户的前端产品方面,学而思的优势要比笔神作文大。而在后端收集数据、建设素材库的工作,费时费力,短期难见成效。对于学而思而言,直接拿现成的素材库接入是最方便的。笔神作文则靠出售素材库的调用权限,实现了商业变现科技今日新闻。

  但对笔神作文这种创业公司而言,这样的合作就像是带刺的玫瑰。因为巨头随时可能打进你的领地,甚至在业务层面形成直接竞争。

  AI批改作文是笔神作文很重要的一项功能。而早在三年前,好未来(学而思母公司)也曾推出过“中英文作文批改解决方案”,通过AI实现智能化中英文作文批改。

  现在,AI改作文只是好未来庞大AI产品矩阵的冰山一角。在其最新的产品介绍中,中文作文批改,属于中英文听写批改中的一个模块。

  ChatGPT带火生成式AI之后,人工智能行业的创业者既兴奋又焦虑。他们兴奋的是,行业终于又热起来了;焦虑的是,ChatGPT实在是太强大了,很多垂直领域的创业项目一夜之间失去了壁垒。

  像笔神作文这样的公司,竞争壁垒在哪里,如何与巨头对抗,是很现实的问题。而人工智能行业的加速内卷,同质化竞争的加剧,会让创业公司与巨头的对抗升级。

科技新闻最近两天的科技新闻简短的新闻播报科技今日新闻

2023-06-29Aix XinLe0

最近两天的科技新闻简短的新闻播报科技今日新闻  一个叫作“一笔两划”的创业公司,公开声讨曾经的教培龙头“学而思”,说它用“扒库”的方式,“偷”走了自己辛辛苦苦攒下的数据…

科技新闻新闻稿如何排版近日社会新闻新浪科技讯

2023-06-29Aix XinLe0

新闻稿如何排版近日社会新闻新浪科技讯  为了持续凝练办刊方向,凸显本刊特色,有效推进决策的科学化和化,2022年《软科学》杂志更加聚焦科技创新驱动经济高质量发展、促进共同富裕等现实问题,在已有常规栏目的基础上,广泛征集吸收编委、专家意见和建议,确定了2022年重点选题方向:  一、所投稿件须坚持正确的方向和理论导向,符合本刊范畴,立论新颖,观点明确,论据充分,语言规…

科技新闻新闻稿图片排版新闻1+1董倩新闻体裁作文两百字

2023-06-29Aix XinLe0

新闻稿图片排版新闻1+1董倩新闻体裁作文两百字  没有正式的道别,旧的一页悄然翻篇,新的一年如约而至…

科技新闻新闻体裁的学校作文今日新闻联播文字稿时事新闻是什么意思

2023-06-29Aix XinLe0

新闻体裁的学校作文今日新闻联播文字稿时事新闻是什么意思  符合其尺寸和喜好的衣服…

科技新闻科技方面的作文权威科技网站

2023-06-29Aix XinLe0

科技方面的作文权威科技网站  科技常识在事业单位考试当中占有一定比例,并且多以识记型的题目作为考察形式,出题难度中等,经常会将时事新闻的热点与科技常识结合起来…