撰文
李楠(国家天文台)
责编
韩越扬、吕浩然
我曾经写过一篇文章《和Wall-E一起仰望星空》,里面介绍了机器学习在大数据天体物理时代的应用,其高效性、自动化、准确性都给人们留下了深刻的印象。
看上去,人工智能也许能够帮助天文学家有效地解决大数据天体物理时代所面临的难题。然而,人工智能真的是万能的么?本文将从目前机器学习的局限性探讨一下机器学习在天体物理中的应用范围。
01刚需:大数据天体物理时代到来随着观测技术的发展,天文数据呈指数型增长。例如,著名的斯隆巡天(TheSloanDigitalSkySurvey)[1]开始于年,观测到了约万个天体,数据量大约是40TB。而目前正在运行的暗能量巡天(TheDarkEnergySurvey)[2]的数据量至少是斯隆巡天的倍。未来欧洲的欧几里得巡天(Euclid)[3]以及美国的大视场时空巡天(LSST)[4]则会把数据量推到惊人的50PB和PB(1PB=TB)。
仅仅是可观测星系一种天体的样本数目,就将达到数十亿。因此,以往传统编程加人工处理方式的效率已经不足以应付这样庞大的数据量了。例如,把上百亿的星系按照哈勃星系图表(图1)分类的工作量就多到让人望而却步,这还仅仅是天体物理学研究的基本操作。
也就是说,高效的自动化数据处理将成为刚需。幸好人工智能技术在过去的十几年里有了突飞猛进的发展,比如图样识别技术已经可以快速地把互联网上的图片进行分类。天文学家们受此启发,开始把人工智能领域里的相关技术应用到天文数据的自动化处理中。
图1.哈勃星系分类图表,最左侧分支(E)是椭圆星系,由左到右椭率逐渐增大。S0代表椭圆星系和漩涡星系的临界点。Sa,b,c分支代表常规漩涡星系,由a到b星系的光度中漩臂占的比重越来越大。SB分支代表具有棒结构的漩涡星系,由a到b的排序不只考虑了光度比还考虑的悬臂的开放程度。图片来源: