开启辅助访问

万千宠爱

 找回密码
 立即注册

扫一扫,访问微社区

新浪微博登陆

只需一步, 快速开始

搜索
热搜: 活动 交友 discuz
查看: 101|回复: 0

男子因病失明,用复读机自学编程, 开发黑科技帮盲人“...

[复制链接]
发表于 2021-4-14 18:45:58 | 显示全部楼层 |阅读模式
很多人并不知道,通过无障碍优化,视障人士也可以正常使用手机。
  对一位视障者来说,障碍无处不在,它们是身旁无处不在的磕磕绊绊,也是漫漫人生里难以逾越的座座山丘。
  2014年,刘彪越过山丘,从北方来到深圳,当了一名程序员。
  时隔多年后,他庆幸当初做了这个决定,不然现在的他,应该是一位盲人按摩师,在按摩室的小小天地里,度过重复的时光。
  刘彪体会过从光明到失明的过程,视网膜色素变性一点点夺走了他的视力。多彩的世界随短暂的童年一起逝去后,他的未来逐渐被黑暗笼罩。
  因为曾经拥有,所以更懂珍惜,不愿轻言放弃。
只有在强烈的光线下,刘彪的眼睛才有微弱的光感。
  “我想当一名程序员”
  2005年,15岁的刘彪立下志向,当一名程序员。
  这个理想源于一本志愿者赠送的《C语言程序设计》,它指引刘彪走到了编程的门前,但打开这扇门的过程,却异常艰难。
  母亲和八九岁的妹妹,两个女人用一台复读机、几盘磁带,把这本书逐行逐句转化成声音,遇到不认识的单词,就拆成单个字母来念。
  刘彪再将声音转录到盲文笔记里,“4、5百页的书,每天读8页,花了一个夏天才抄完”。
  他明白选择这条路,前途必然障碍重重,但他不想回头。
  家里没有电脑,程式只能在刘彪脑子里演算。而第一次上机实操,已是两年以后,家里花500元钱,为他购买了一台最低配置的二手电脑。
  第一次上机刘彪就懵了,“之前脑子里想的,和真实场景完全不一样”。
  借助早期的读屏软件,将屏幕上的文字转化为语音,刘彪用耳朵代替眼睛,开始了编程之旅。他很快发现,读屏软件功能少、缺陷多,版本多年未更新,用起来大费周章。
  “举个例子,编程软件有代码自动补全、提示功能,明眼人能看见,但读屏软件读出不来,你只能摸着键盘,把代码一点点敲进写字板里,再反复测试”。
  刘彪在虚拟世界中遇到的困境,和现实如出一辙,“我们有读屏软件,但并不实用。我们有无障碍设施,但很多形同虚设”,出门依然是一件危险的事,“你可能在盲道撞上电杆、单车,甚至被带入坑里,一脚踏空”。
  刘彪试图通过编程,改变这种状况,让更多像他一样的视障朋友,享受到无障碍的便利生活——哪怕只是在网络上。
刘彪和同事在一起工作。
  2010年,刘彪考入长春大学特教学院,针灸推拿专业。
  刘彪并没把心思放在“主业”上,绝大多数时间,他都窝在宿舍学习编程,“从每天几个小时,到十几个小时,假期时我可以一整天不出门”。
  2014年,临毕业前一年,得知深圳市信息无障碍研究会(中国最早专注信息无障碍的专业机构)在招募视障程序员,刘彪认为机会来了。
  他坐了36个小时火车,从长春来到广州,再转汽车赶往深圳。
  尽管有同行的广州同学帮助,对刘彪来说,这依然是一趟异常艰难的旅途。
  “那时可以网上购票,但网页没有无障碍适配,光是验证码就能把你卡死”,刘彪说,他只能选择到购票大厅买票。
  跌跌撞撞的旅途中,刘彪曾很多次向路人求助,“别人可能帮,也可能不帮”,离开宿舍,离开代码构成的世界,现实中的刘彪举步维艰。
手机和盲杖,是刘彪出门必带的两件工具。
  距刘彪第一次到深圳已过去6、7年,常人眼中的世界,变化并不显著,但刘彪却感受到了天翻地覆的改变。
  他把耳朵凑近手机,一连串语速极快,常人难以听清的语音倾泻而出,在声音的指引下,他用手指触摸屏幕,像明眼人一样接收、回复微信消息。
  除了聊天,他可以用手机购物、买票、打车、订餐,甚至步行导航。“而在几年前,这还是很难想象的”。
  刘彪认为,在信息无障碍的推广上,国内近几年的进步可谓突飞猛进——只是这种进步很难被普通人感知,“很多人甚至都不知道,盲人也可以正常使用手机”。
  “障碍消除者”
  让刘彪自豪的是,这场“信息无障碍”运动,他是重要的推动者之一。
  2021年3月底的一天,刘彪出现在信息无障碍研究会办公区,地上铺设的盲道,把他指引向工位。他和伙伴们一起,在电脑前开始了一天的工作。
信息无障碍研究会的办公区地面,铺设了一条盲道。
  15岁那年的理想,在深圳这片开放、包容的土壤里生根发芽、开花结果,刘彪如愿成了一名程序员。
  不仅是程序员,他同时也扮演着用户、测试者、意见领袖的角色,协助国内的科技公司、合作伙伴,推动其产品信息无障碍的进程。
刘彪在电脑前工作,为了直观地向我们演示,他点亮了屏幕。
  刘彪最早参与的无障碍优化产品,是手机QQ和QQ空间。
  之后,他和微信、腾讯文档、微云、腾讯会议……几乎所有的腾讯产品都有过合作,通过定期例会、Tapd平台(腾讯敏捷研发协作云平台),为腾讯的技术团队提供无障碍优化方案。
  刘彪估算了一下,这些年他已为包括腾讯在内的合作伙伴反馈了上万条优化意见。
  “和腾讯的合作让我印象最为深刻”,刘彪说,“这是一家把无障碍纳入标准研发流程的公司,它重视我们的意见,对反馈的处理也很及时”。
刘彪使用手机QQ的OCR功能,扫描牛奶的包装。
  但刘彪也承认,并非所有公司都能达到这样的响应速度,“有些产品的无障碍优化,一直处于修修补补的状态,我们的需求优先级也很低”。
  站在程序员的角度,刘彪对同行表达了理解,“一是使用场景少,开发耗费大;二是这本身不是别人的KPI(绩效考核),有时我们提了需求,对方说先排期,再从长计议,但后来就没有再议”。
  “你花了心思和精力做的工作,普通用户感知不到”,刘彪说,“换了你,也不一定有动力去做,对吧?”
同样是使用手机QQ的OCR功能,对图案进行扫描测试。
  刘彪对“无障碍”的朴素理解,就是用耳朵代替眼睛的功能,帮助视障人士“看见”这个世界。
  “举个例子,用QQ聊天,别人发来表情,以前手机读屏软件是不能识别的,你不知道别人说了啥,也搭不上话,通过无障碍优化,现在表情可以读了,沟通就更顺畅了”。
  另一个与之相似,但更为实用的功能,是手Q的OCR识图技术,“它可以将图片中的文字提取、识别、转化为语音,被视障者‘看见’”。
  讲到这里,刘彪记起了母亲和妹妹为自己录制编程教程的往事,“如果当时有这样的技术,她们就不至于那样辛苦”。
刘彪的工位背后,写着“让每个人都能通过科技,平等享受现代文明”的标语。
  除开聊天场景,OCR技术在现实中也大有用武之地,它为视障人士提供了“第三只眼”,“可以用它扫描药品、食物包装,了解它们的功效、保质期,避免误食”。
刘彪通过OCR功能扫描包装盒的二维码。
  “我们常用的功能,对99%的普通用户来说,可能都是‘隐藏功能’”。
  以安卓版QQ空间的“图像描述生成”技术为例,利用AI学习和理解图像、组织语言,为图片生成一句话描述,比如,“一位戴着棒球帽的中年男士端着一杯咖啡”,让视障者用耳朵“看见”图像。
  在视障用户中,这是一个很受欢迎的功能,“但普通用户一辈子都不会用上”。
  “清障”之路,永无止境
  相比协助合作伙伴开发创新性功能,刘彪的日常工作,大部分时间花在了对细碎、复杂的“犄角旮旯”的清障中。
  例如,手机上代表搜索的“放大镜”图标,明眼人都会用,“但视障者是看不见这个图标的”,如果不在图标上增加“搜索”的语音标签,那视障者就无法正常使用。
  “一个产品,有无数的界面、数不清的图标,需要我们逐一测试,进行无障碍优化”。
刘彪独自在商店选购饮料。
  刘彪认为,科技的发展,带来了更便捷的生活,但也会产生新的障碍。“清障”的工作,呈现着螺旋式上升的状态。
  “比如,触屏手机出现前,视障人士可以用键盘打字,触屏手机普及后,他们无法摸到键盘,也无法使用智能机的软件,障碍就形成了”。
  “而我们要做的,就是不断清除掉这些障碍”。
  面对未来,刘彪依然保持乐观,他认为,“越来越多的互联网产品,将无障碍优化前置到产品设计之初,这体现了社会对残障人士的关爱”,传递了充满善意,让人振奋的信号。
  一次失足
  深圳市某小区,郑锐的家中,他向我们展示了左脚膝盖上的一处旧伤痕,它来自4、5年前,他在公交站台的一次失足。
  “马路到站台原本只有一层台阶,但其中一个被切成了两阶”,郑锐一脚踏空,摔倒在地上。膝盖手术、住院一周后,他又在家躺了三个月。
  他至今仍有些愤愤不平,不明白台阶为什么要那样设计。
几年后,膝盖的伤痕已经淡去,但郑锐依然难以释怀。
  “这样的伤痕,我的(视障)朋友身上都有,只是多少的问题”。
  相比刘彪的乐观态度,面对“无障碍”的进度,郑锐更像是一位不留情面的批评者。他认为,即使是在深圳,这样一个残障人士福利在国内领先的城市,无障碍建设仍存在很大的提升空间。
  “由此也可以想象,其它城市盲人出行的处境”。
  对于“信息无障碍”,郑锐的态度较为温和,承认“它一直在进步”,但还没有达到他的预期,“归根到底,一是产品经理对(视障)用户的需求不够了解,二是实体企业和互联网企业没有形成配合”。
郑锐和儿子辰辰在一起。
  “提个问题,假如你是一名产品经理,你认为在网络聊天时,视障人士更愿意接收语音消息,还是文本消息?”
  “你会想当然地以为,视障人士愿意收到语音消息,因为我们看不见嘛”,但实际上情况是,“我们更喜欢文本消息”。
  “一段约300字的语音,你需要花60秒去听”,而换成300字的文本消息,用读屏软件不到10秒就能读完。
  “这就是为什么我们需要像刘彪这样的程序员,因为他们能从视障人士的角度,协助产品经理,提出有价值的改进意见”。
  但要解决互联网企业和实体企业配合的难点,仍需要时间。
读屏软件极快的语速,只有长期适应的人才能听清。
  郑锐举例,当他拿到一个包装盒,“我可以用手机去扫,但我并不知道拿的是正面还是背面,哪一面有字?”光是找准拍摄角度,就要花很多时间。
  “如果盒子有一个盲文标识,告诉我哪边是正面,二维码在哪儿”,这个过程会简单很多。
  “有的药品包装,字体特别小,甚至超出了手机的识别范围”,这些都需要优化,“但它不是互联网产品经理自己就能解决的问题”。
郑锐使用手Q的OCR识图功能,辨别孩子的故事书。
  “再好用一些”
  手Q的OCR识图,是郑锐比较常用的功能。
  孩子辰辰3岁了,出门在外,他已可以充当爸爸的向导。走到不熟悉的地方,“孩子会帮我用把路牌拍下来,我再用OCR功能识别”。
  另一个场景,是郑锐为孩子讲故事时,可以拍摄图书文本,将其转化为语音。
  “我希望它能增加一个功能,扫描时可以提醒我,有没有对齐文字,如果没有对齐,镜头需要往哪个方向移动”。
在孩子的协助下,郑锐用手机识别图书。
  同时郑锐希望,面对复杂的应用场景,产品能更加智能和细分。
  在现实场景里,曾有一位志愿者帮郑锐打饭,“我请他描述一下饭盒里是什么。他说,是‘一根长条状、有根和叶子的、绿颜色的蔬菜’”,郑锐问,“你说的是不是青菜?”
  “他说是。我说,你直接告诉我这两个字不就好了吗?”
  而在网络场景里,郑锐却有着相反的需求——同样一幅画面,一般识图软件只会识别为“女孩”,而安卓版QQ空间则为它增加了这样的描述,“蓝天白云下,一个穿着白色裙子的女孩站在草地上”。
  “这样我脑子里就有一幅清晰的画面了”,不同的场景,需要不同的描述方法。
出门在外,孩子是郑锐的小向导。
  面对郑锐的意见,腾讯优图实验室OCR研究组组长刘银松认为,不久之后,这些都不成问题。
  刘银松回忆,OCR技术在无障碍优化上的应用,始于2016年上半年与手Q项目的合作,至今已经历了三次升级。
  视障人士在使用中遇到的问题,“比如应用场景复杂,抖动、光照、运动对识别造成的干扰……”都随着产品升级,在不断得到解决。
腾讯优图实验室OCR研究组的工作日常。
  “第一代是端到端的检测识别;第二代侧重高精度,结合语义上下文信息识别;第三代更多关注结构化的场景”。
  所谓结构化场景,“即结合图像上的纹理信息、上下文语义信息、文字之间的位置信息等,来做结构化提取”,让OCR识图功能更加精准、好用。
  “随着人工智能的技术的完善,将推进更多产品的无障碍化”,刘银松相信,它们将会为障碍人士的生活,提供更多的便利和可能性。
  摄影 | 邹璧宇
  编辑 | 匡匡 周维
  联合出品 | 腾讯新闻 腾讯产业互联网公众号

来源:腾讯网

本帖子中包含更多资源

您需要 登录 才可以下载或查看,没有帐号?立即注册 新浪微博登陆

x
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 新浪微博登陆

本版积分规则

QQ|小黑屋|Archiver|手机版|万千宠爱  

GMT-6, 2021-10-27 09:24 , Processed in 0.362758 second(s), 37 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表