巴西华协会馆设计最终审定会召开建筑融入中国元素

中新网12月16日电 据巴西南美侨报网报道,巴西华侨华人关注的华人协会会馆设计方案,日前在中国商会会议室举行了最后审定会议,巴西华人协会会长张伟、监事长叶周永等主要理监事出席会议。

当天,负责华协会馆设计的工程师,在电视屏幕上展示了经过多次修改的设计方案。该设计蓝图为四层现代化建筑,融入了中国元素,总建筑面积达1720平方米。

我们看到上述三种分布图都有很长的尾巴。在尾部的某些值可能是合法的,而其他值可能是错误的数据输入。无论如何,现在我们还是保守一点,只考虑票价、总票价和小费低于 200 美元的行程。我们还要求票价金额、总金额值大于 0 美元。

该会馆底层入口处,设有娱乐室,放置两个台球桌,还附设管理部门储物间,清洁工人宿舍等。

纽约 10 亿多次出租车出行持续时间的直方图

纽约市黄色出租车数据预览

对于一个超过 10 亿个样本的 Vaex 数据帧,在笔记本电脑上使用四核处理器进行 8 个聚合的分组操作只需不到 2 分钟

从 descripe 的输出来看,很容易注意到数据中包含了一些严重的异常值。首先,让我们从检查取货地点开始。删除异常值的最简单方法是简单地绘制出上下车的位置,并直观地定义我们希望重点分析的纽约市的区域。由于我们使用的数据集太大了,直方图是最有效的可视化方法。用 Vaex 创建和显示直方图和热图是如此的快,这样的绘图可以更好地互动!

再一次注意,单元执行时间非常短。这是因为显示 Vaex 数据帧或列只需要从磁盘读取前 5 行和后 5 行。这就引出了另一个重要的问题:Vaex 只会在必须的时候遍历整个数据集,它会尽可能少地传递数据。

在本文中,我将向你展示一种新的方法:只要数据可以被存进笔记本电脑、台式机或服务器的硬盘上,那么这种方法可以让使用几乎任意大小的数据进行数据科学研究更快、更安全、更方便。

让我们把注意力转移到出租车旅行的成本上。从 describe 方法的输出中,我们可以看到 fare_amount、total_amount 和 tip_amount 列中有一些异常值。首先,这些列中的任何值都不应为负。与此相反,这些数字表明,一些幸运的司机几乎成了百万富翁,只有一辆出租车。让我们看看在一个相对合理的范围内,这些量的分布:

让我们做一个与前面的旅行距离相似的练习。由于这是一个连续变量,我们可以绘制行程的分布。参考最小和最大距离,我们用一个更合理的范围绘制一个柱状图。

在上面的单元块中,我们执行一个分组操作,然后是 8 个聚合,其中 2 个在虚拟列上。上面的单元块在我的笔记本电脑上执行不到 2 分钟。这相当令人印象深刻,因为我们使用的数据包含超过 10 亿个样本。不管怎样,让我们看看结果。以下是多年来驾驶出租车的费用演变过程:

我们还有 11 亿多次旅行!通过这样大量的数据,可以获得一些关于出租车旅行的宝贵见解。

从上面的图表我们可以看出,旅行次数随着距离的增加而减少。在大约 100 英里的距离上,分布会有一个很大的下降。目前,我们将使用此作为截止点,以消除基于行程距离的极端异常值:

无论如何,让我们首先从极端异常值或错误的数据输入中清除这个数据集。一个好的开始方法是使用 describe 方法获得数据的高层次概述,该方法显示每个列的样本数、缺少的值数和数据类型。如果列的数据类型是数字,则平均值、标准偏差以及最小值和最大值也将被显示。所有这些统计数据都是通过对数据的一次传递来计算的。

另外,韩国动力电池供应商SKI计划投资10.5亿美元(约合人民币73.8亿元),在江苏盐城建立一座全新的动力电池工厂。日本松下公司宣布研发出新型动力电池,原材料的钴含量将减半,这将大幅降低生产成本。这意味着宁德时代的技术将不再具有价格竞争力优势。

从上面的图中我们可以看到 95% 的出租车使用都不到 30 分钟就能到达目的地,尽管有些旅程可以花费 4 到 5 个小时。你能想象在纽约被困在出租车里超过 3 个小时吗?不管怎样,让我们开诚布公,考虑一下总共持续不到 3 小时的所有旅行:

日前,工信部发布了《新能源汽车推广应用推荐车型目录(2019年第11批)》,国产特斯拉进入推荐目录,其两种配置分别搭载了松下及LG的单体电池。这是首次有搭载国外电池单体的车型进入推荐目录,标志着国家提前全面放开外资电池。

从上图中我们可以看出,乘客数超过 6 人的旅行可能是罕见的异常值,或者只是错误的数据输入。上面也有大量的 0 名乘客的旅行。既然现在我们还不知道这些旅行是否合理,那就让我们把它们过滤掉吧。

平均票价和总金额,以及乘客每年支付的小费百分比

出租车每年旅行的平均行程和弧距。

根据上图,我们可以推断出出租车平均速度在 1 到 60 英里每小时的范围内,因此我们可以更新过滤后的 DataFrame:

在简单的情况下,当我们只关心为提供的服务获得最大票价时,最佳接送乘客的区域是纽约机场以及主要的大道,如 Van Wyck 高速公路和 Long Island 高速公路。当我们把旅行的距离考虑进去时,我们得到的是一张稍微不同的图片。 Van Wyck 高速公路、Long Island 高速公路大道以及机场仍然是接送乘客的好地方,但它们在地图上的重要性要小得多。然而,在 Hudson 河的西侧出现了一些新的热点地区,这些地区似乎可以赚到相当的利润。

该建筑三层是教学、会议、阅读、娱乐功能的区域,设有会长办公室、两间大教室、乒球室,图书室,还有休闲的露台,以及举办派对的烤肉炉。露台上眺望阿哥利马松公园,可一览翠树绿湖与天水一色的自然风光。

建筑二层为VIP大厅,设有气派高端的会客厅,多组沙发可供26人就座,专门用来接待来自四面八方的贵客。会议桌一侧附设可供26人就座的多组沙发。会议厅过道设有玻璃展示柜,可展示华人协会历年收到的重要礼物和纪念品及奖状等。

出租车平均速度的分布

对于用 numpy 编写的复杂表达式,vaex 可以在 Numba、Pythran 甚至 CUDA(如果你有 NVIDIA GPU)的帮助下使用即时编译来大大加快计算速度

宁德时代虽市占率不断提升,前三季度业绩也大幅增长,但销售毛利率却持续下滑,三季度公司毛利率27.93%,同比下降3.34 个百分点,环比下降2.91个百分点。三季度单季,实现营业收入125.92亿元,同比增长28.80%,增速大幅下滑,净利润13.62 亿元,更是同比下降7.2%。

使用 Vaex 打开内存映射文件只需要 0.052 秒,即使它们超过 100 GB

出行距离列中极端离群值的存在是考察出租车出行持续时间和平均速度的动机。这些功能在数据集中不易获得,但计算起来很简单:

描述方法很好地说明了 Vaex 的功耗和效率:所有这些统计数据都是在我的 MacBook Pro(15″, 2018, 2.6GHz Intel Core i7, 32GB RAM)上 3 分钟之内计算出来的。其他的库或方法需要分布式计算或 100GB 以上的云实例来执行相同的计算。有了 Vaex,你所需要的只是数据,你的笔记本电脑只需要几 GB 的内存。

最后,在对所有数据进行初步清洗之后,让我们看看我们的分析有多少出租车行程。

建筑一层入口是接待柜台,通过前厅后便是可容纳320个人的剧场。剧场的舞台背景设计为落地全开方式的玻璃窗,平时可直视外面阿哥利马松公园自然风光,当演出或举行会议时,拉上帷幕便可以进行各种文艺演出及学术会议。

在宁德时代强势的带领下,锂电池板块大幅上扬,板块指数创出近8个月的新高,中科电气、美联新材涨停,赣锋锂业、当升科技、赢合科技等涨幅居前。

纽约市彩色热图编码:平均票价金额(左)和票价金额与行程的平均比率

早在2015年,工信部公布《汽车动力蓄电池行业规范条件》,其主要目的在于保护本土动力电池企业。当年底工信部正式公布了第一批符合《规范条件》的公司,其中,宁德时代彼时的母公司众和股份赫然在列。此后,工信部又陆续公布了第二批、第三批以及更多的企业,松下、LG等外资巨头被挡在了补贴的门外。

现在让我们研究出租车的平均速度,同时也为数据限制选择一个合理的范围:

使用 describe 方法获得数据帧的高级概述。注意,数据帧包含 18 列,但在此屏幕截图中只有前 7 列可见

上面的数字是有道理的:最好的收入发生在高峰时段,特别是在一周工作日的中午。作为出租车司机,我们的一小部分收入是出租车公司的,所以我们可能会对哪一天的顾客给的小费最多感兴趣。因此,让我们生成一个类似的图,这次显示平均小费百分比:

为了说明这个概念,让我们在一个数据集上做一个简单的探索性数据分析,这个数据集非常大,可以放入一个典型的笔记本电脑的 RAM 中。在这篇文章中,我们将使用纽约(NYC)出租车数据集,其中包含 2009 至 2015 年之间的超过 10 亿个标志性黄色出租车。数据可以从这个网站下载,并以 CSV 格式提供。完整的分析可以在这个 Jupyter notebook 中单独查看。

上图显示,出行距离和弧线距离都有小幅增加,这意味着,平均而言,人们每年的出行都会稍微远一点。

开出租车是一项相当灵活的工作。为了更好地利用这种灵活性,知道什么时候开车是最有益的。为了回答这个问题,我们制作一个图表,显示每天和一天中每小时的车费与出行距离的平均比率:

每周每天和每天小时的平均小费百分比

上面的代码块需要的内存为零,不需要时间执行!这是因为代码导致创建虚拟列。这些列仅包含数学表达式,并且仅在需要时计算,否则,虚拟列的行为与任何其他常规列一样。请注意,其他标准库在相同的操作中需要 10GB 的 RAM。

在我们的旅程结束之前,让我们再停一站,调查一下乘客如何支付乘车费用。数据集包含付款类型列,因此让我们看看它包含的值:

我们今天使用的数据集跨越了 7 年。我们可以看到,随着时间的推移,一些收益的数量是如何演变的。使用 Vaex,我们可以快速执行核心分组和聚合操作。让我们来探讨 7 年来票价和行程是如何演变的:

多年来的黄色出租车公司

弧长计算公式涉及面广,包含了大量的三角函数和算法,特别是在处理大型数据集时,计算量很大。如果表达式或函数只使用来自 Numpy 包的 Python 操作和方法编写,Vaex 将使用机器的所有核心并行计算它。除此之外,VAEX 支持通过 NUBBA(使用 LLVM)或 Pythran(通过 C++加速)及时编译,从而提供更好的性能。如果你碰巧有一个 NVIDIA 图形卡,你可以通过 jit_CUDA 方法使用 CUDA 来获得更高的性能。

在处理这些数据集时,通常使用 3 种策略。第一个是对数据进行子抽样。它的缺点是显而易见的:可能会错过关键的部分,或者更糟的是,不看全部内容可能会对数据和它表达的事实有所曲解。还有一个策略是使用分布式计算。虽然在某些情况下这是一种有效的方法,但它会带来管理和维护集群的巨大开销。想象一下,必须为一个不在 RAM 范围内的数据集(比如在 30-50GB 范围内)设置一个集群会是什么样子的。对我来说,这似乎难以承受。或者,你可以租用一个强大的云实例,该实例具有处理相关数据所需的足够内存。例如,AWS 提供了具有兆字节 RAM 的实例。在这种情况下,你仍然需要管理云数据存储桶,在每次实例启动时等待从存储桶到实例的数据传输,处理将数据放到云上带来的遵从性问题,并处理在远程计算机上工作带来的所有不便。当然,成本就更不用说了,虽然起价很低,但随着时间的推移,成本往往会越来越高。

上面代码块最酷的地方是它需要的内存可以忽略不计!它在过滤 Vaex 数据帧时,不会生成数据的副本,相反,它只创建对原始对象的引用,并在其上应用二进制掩码。掩码选择显示哪些行并用于将来的计算。这为我们节省了 100GB 的 RAM。

纽约出租车数据集的行程距离直方图

第一步是将数据转换为内存可映射文件格式,如 Apache Arrow、Apache Parquet 或 HDF5。将 CSV 数据转换为 HDF5 的示例可以在这里找到。一旦数据是内存可映射格式,用 Vaex 打开它是即时的(0.052 秒!),尽管磁盘上的数据超过 100GB:

现在,让我们检查一下乘客计数栏。在一次出租车行程中记录的乘客人数最多为 255 人,这似乎有点极端。让我们计算一下每一位乘客的出行次数。这很容易通过值计数方法实现:

由于市场份额的大幅提升,宁德时代的业绩逆行业颓势大幅增长。2019年三季报显示,前三季度实现营收328.56亿元,同比增长71.7%,净利润34.64亿元,同比增长45.65%。

我们看到出租车价格,以及小费随着岁月的流逝而增加。现在让我们来看一下出租车的 trip_distance 和 arc_distance,出租车是以年为单位行驶的:

从数据可以看出,我国新能源汽车发展暂时处于调整阶段,但这有利于淘汰落后产能,令头部企业进一步做强做大。作为市占率第一的锂电龙头宁德时代牢牢抓住了这次行业调整的良机,随着行业下跌,市场份额不断提升。截至第三季度,宁德时代市场份额高达63.8%,比一、二季度的44.6%和46%大幅提升。

一周中每天和一天中每小时的车费与出行距离的平均比率

为什么这么快?使用 Vaex 打开内存映射文件时,实际上没有数据读取。Vaex 只读取文件元数据,如磁盘上数据的位置、数据结构(行数、列数、列名和类型)、文件描述等。那么,如果我们想检查数据或与数据交互呢?打开一个数据集会生成一个标准数据框,检查它的速度是否也很快:

但是现在,这些数据集使用起来并不方便。它们可能小到可以装进你日常笔记本电脑的硬盘,也可能大到和 RAM 匹配。因此,它们已经很难被打开和检查,更不用说探索或分析了。

11月初,宝马汽车宣布,已经和宁德时代以及三星SDI签署了价值超过100亿欧元的两份动力电池采购合同。其中,宝马与宁德时代在2018年签署的价值40亿欧元的订单增加到73亿欧元,合同供货时间为2020年至2031年。其中宝马集团采购45亿欧元,宝马中国基地采购28亿欧元。

有趣的是,arc_distance 从来没有超过 21 英里,但是出租车实际行驶的距离可以是 5 倍大。事实上,有数百万的出租车旅行,下车位置在上车地点 100 米(0.06 英里)以内!

张伟会长再次感谢所有理监事们以及广大侨胞对华协会馆的热心捐助,捐款大部分已入账,在会馆即将破土地动工之际,他呼吁捐款尚未到位的50多位理监事们,能尽快完成共建会馆的爱心之举。(袁一平)

假设我们是一个未来的出租车司机,或出租车公司的经理,并有兴趣使用这个数据集来学习如何最大限度地提高我们的利润,降低我们的成本,或者只是改善我们的工作生活。

纽约 10 亿多个出租车出行的票价、总金额和小费的分布情况。在笔记本电脑上创建这些图只用了 31 秒!

中汽协数据显示,2019年11月,我国新能源汽车销售9.5万辆,同比下降43.79%,销量连续五个月下滑。2019年1月—11月合计销售104.29万辆,同比增长2.08%。

而随着新能源汽车的发展壮大,补贴全面退坡的时候也将到来。2019年补贴就相较之前大幅退坡,动力电池企业经营业绩受到重大影响。

北上资金11月以来也是连续净买入宁德时代,持股由1567万股增至3292万股历史最高点,增长1倍多,持股市值也历史首次突破30亿元。在基本面和资金推动的双重作用下。11月以来,宁德时代大幅上涨。截至今日最高97.17元,宁德时代累计上涨逾41%。

一旦我们以交互方式决定要关注纽约市的哪个区域,我们就可以简单地创建一个过滤数据框:

让我们先找出平均来说能带来最好收益的接送乘客的地点。天真地说,我们可以画出一张接送地点的热图,用平均票价进行编码。然而,出租车司机自己也有成本,例如,他们得付燃料费。因此,把乘客带到很远的地方可能会导致更高的票价,但这也意味着更大的油耗和时间损失。此外,要从偏远的地方找到一个乘客带去市中心的某个地方可能不那么容易,因此在没有乘客的情况下开车回去可能会花销很大。一种解决方法是用车费和旅行距离之比的平均值对热图进行颜色编码。让我们考虑这两种方法:

左:行程距离和弧距离的比较;右:弧距<100 米的行程分布。

上面的图很有趣。它告诉我们,乘客喜欢在早上 7 点到 10 点之间和在本周早些时候的晚上给出租车司机小费。如果你在凌晨 3 点或 4 点接乘客,不要指望会有太大的小费。结合上面两个地块的分析,早上 8 点到 10 点是上班的好时间:每个人每英里可以获得不错的车费和满意的小费。

Vaex 是一个开源的数据框架库,它可以在与硬盘大小相同的表格数据集上进行可视化、探索、分析甚至机器学习。为此,Vaex 采用了一些概念,如内存映射、高效的核心外算法和延后计算。所有这些都被一个和 pandas 类似的 API 类绑定起来,任何人都可以马上开始使用它。

良好的业绩及成长性叠加巨额订单吸引了市场资金的竞相追逐。宁德时代融资余额由11月初的10.73亿元增长至目前14.68亿元,近期更是加速流入,连续6个交易日净买入,昨日1日就融资净买入逾1.39亿元。

在本文的前一部分中,我们简要介绍了 trip_distance 列,在从异常值中清除它的同时,我们保留了所有小于 100 英里的行程值。这仍然是一个相当大的截止值,特别是考虑到黄色出租车公司主要在曼哈顿经营。Trimih 距离列描述出租车在接到乘客和乘客下车位置之间行驶的距离。然而,为了避免交通堵塞或道路工程等原因,人们通常可能会选择不同的路线。因此,作为 trip_distance 列的对应项,让我们计算上车和下车位置之间的最短可能距离,我们称之为 arc_distance:

在政策的保驾护航下,宁德时代、比亚迪、亿纬锂能等一大批国产品牌争取到了宝贵的发展机会,并借助中国新能源市场的发展与影响力与奔驰、宝马屡签大单。

华人协会会长张伟表示,会馆设计与兴建是30万华人期盼已久的工程,也是2020年华协工作的重中之重,一定不负大家期望把它做好。如今拆迁手续已获市府批准,设计方案一但获得批复,就可开工建造。这是百年大计的工程,一要合法合规,在手续上不留隐患。二要保证质量,经得起历史检验。

在欣欣向荣的背后,宁德时代也略微存在一定隐忧。

Categories长城

Begin typing your search above and press return to search. Press Esc to cancel.