Zillow: машинное обучение и данные меняют сферу недвижимости

  • Oct 15, 2023

Узнайте, как большие данные и Zillow Zestimate изменили и изменили рынок недвижимости. Это важный пример использования моделей машинного обучения и цифровых инноваций.

Любой, кто покупает или продает дом, знает о Zillow. В 2006 году компания представила Zillow Estimate, или Зестимат для краткости, который использует различные источники данных и модели для определения приблизительной стоимости жилой недвижимости.

Влияние Zestimate компании Zillow на индустрию недвижимости было, мягко говоря, значительным.

С точки зрения покупателя жилья, Zestimate от Zillow обеспечивает значительную прозрачность цен и информации, которая исторически была доступна только брокерам. Компания действительно имеет демократизированный информацию о недвижимости и добавляет огромную ценность для потребителей.

С другой стороны, для брокеров по недвижимости Zillow сопряжен с большими трудностями. Я спросил лучшую недвижимость маклер работает в Сиэтле, на родине Зиллоу, из-за своего мнения о компании. Эдвард Кригсман продает в городе дома стоимостью в несколько миллионов долларов и объясняет некоторые проблемы:

Автоматизированные методы оценки существуют уже несколько десятилетий, но Zillow внедрила эти методы для розничной торговли в больших масштабах. Это была их основная инновация. Однако данные Zillow часто неточны, и заставить их исправить проблемы сложно.

Zillow формирует ценовые ожидания среди потребителей и стала третьей стороной, занимающейся предпродажными аспектами жилой недвижимости. Верно это или нет, но Zillow влияет на общественное восприятие стоимости дома.

Влияние Zillow на рынок недвижимости велико, и данные компании оказывают важное влияние на многие сделки с недвижимостью.

Зиллоу предлагает хрестоматийный пример того, как данные могут изменить устоявшиеся отрасли, отношения и экономику. Материнская компания, Группа Зиллоу, управляет несколькими рынками недвижимости, которые вместе генерируют около 1 миллиард долларов по доходам, как сообщается, 75 процентов Доля рынка онлайн-аудитории недвижимости.

В рамках CXOTALK После серии бесед с подрывными инноваторами я пригласил главного аналитика Zillow (который также является их главным экономистом), Стэн Хамфрис, принять участие в серия 234.

Беседа предлагает увлекательный взгляд на то, как Zillow думает о данных, моделях и их роли в экосистеме недвижимости.

Посмотрите видео, встроенное выше, и прочитайте полную стенограмму на CXOTALK сайт. А пока вот отредактированный и сокращенный фрагмент нашей подробной и продолжительной беседы.

Почему вы запустили Zillow?

Вокруг недвижимости всегда было много данных. Однако большая часть этих данных была по большей части [скрыта] и поэтому имела нереализованный потенциал. Как человек, занимающийся данными, вам нравится находить это пространство.

Путешествие, в котором многие из нас были раньше, было похожим пространством, наполненным данными, но люди мало что с этим делали. Это означало, что не пройдет и дня, чтобы ты не сказал: «Черт возьми! Давайте сделаем это с данными!»

В сфере недвижимости возникло множество листинговых услуг, которые оказывались различными агентами и брокерами в сфере недвижимости; дома, которые были проданы.

Однако система государственного учета была полностью независима от этого, и существовало две системы государственного учета: одна для документов и залогов на недвижимость, а другая для налоговых ведомостей.

Все это была разрозненная информация. Мы попытались решить проблему с тем, что все это было оффлайн.

У нас было ощущение, что с точки зрения потребителя это было похоже на «Волшебника страны Оз», где все было за этой занавеской. Тебя не пустили за кулисы, и ты действительно [подумал]: «Ну, мне бы очень хотелось самому увидеть все продажи и выясните, что происходит». Вы хотите, чтобы на веб-сайте были показаны как основные списки продаж, так и основная арендная плата. списки.

Но, конечно, люди, продающие вам дома, не хотели, чтобы вы видели рядом с ними арендуемые дома, потому что, возможно, вы могли бы снять дом, а не купить. И мы такие: «Мы должны собрать все воедино, все в порядке».

Мы верили, что такая прозрачность принесет пользу потребителю.

А как насчет агентов по недвижимости?

Вы по-прежнему считаете, что представительство агентства очень важно, поскольку это очень дорогая сделка. Для большинства американцев это самая дорогая сделка и самый дорогой финансовый актив, которым они когда-либо владели. Таким образом, по-прежнему существует разумная зависимость от агента, который поможет держать потребителя за руки, когда он покупает или продает недвижимость.

Но что изменилось, так это то, что теперь потребители имеют доступ к той же информации, что и представительство, как на стороне покупки, так и на стороне продажи. Это обогатило диалог и облегчило деятельность агентов и посредников, помогающих людям. Теперь потребитель приходит к агенту с гораздо большей осведомленностью и знаниями, как более умный потребитель. Они работают с агентом как с партнером, где у них много данных, а у агента много знаний и опыта. Мы думаем, что вместе они принимают лучшие решения, чем раньше.

Как изменился Zestimate с тех пор, как вы начали?

Когда мы впервые запустили систему в 2006 году, Zestimate представлял собой оценку, которую мы разместили для каждого дома, который на тот момент имелся в нашей базе данных, а это 43 миллиона домов. Чтобы создать такую ​​оценку для 43 миллионов домов, она проводилась примерно раз в месяц, и мы пропускали пару терабайт данных примерно через 34 дома. тысяч статистических моделей, что было, по сравнению с тем, что делалось ранее, гораздо более сложной в вычислительном отношении процесс.

Я должен просто дать вам представление о том, какой была наша точность тогда. Еще в 2006 году, когда мы запустили нашу систему, медианная абсолютная процентная ошибка составляла около 14% для 43 миллионов домов.

С тех пор количество домов выросло с 43 до 110 миллионов; мы оцениваем все 110 миллионов домов. И сегодня мы снизили нашу точность примерно до 5 процентов, что с точки зрения машинного обучения весьма впечатляет.

Те 43 миллиона домов, с которых мы начали в 2006 году, как правило, находились в крупнейших мегаполисах, где скорость транзакций была высокой. Было много сигналов о продажах и ценах, с помощью которых можно было обучать модели. Поскольку мы поднялись с 43 миллионов до 110, теперь вы попадаете в такие места, как Айдахо и Арканзас, где продаж просто меньше, на что стоит обратить внимание.

Было бы впечатляюще, если бы мы сохранили уровень ошибок на уровне 14 %, выбираясь при этом в места, которые труднее оценить. Но мы не только более чем удвоили охват с 43 до 110 миллионов домов, но и почти утроили уровень точности с 14 процентов до 5 процентов.

Скрытая история достижения этого заключается в сборе огромного количества данных и усложнении алгоритмов, что требует от нас использования большего количества компьютеров.

Просто чтобы дать контекст: когда мы запускали, мы строили 34 тысячи статистических моделей каждый месяц. Сегодня мы обновляем Zestimate каждую ночь и генерируем от 7 до 11 миллионов статистических моделей каждую ночь. Затем, когда мы закончим этот процесс, мы выбрасываем их и повторяем на следующую ночь снова. Итак, это большая проблема с данными.

Расскажите о своих моделях?

Для системы моделирования мы никогда не превышаем уровень округа, а большие округа с большим количеством транзакций мы разбиваем на более мелкие. регионы внутри округа, где алгоритмы пытаются найти однородные наборы домов на уровне округа для обучения моделированию. рамки. Сама эта система моделирования содержит огромное количество моделей.

Структура включает в себя множество различных способов оценки стоимости домов в сочетании со статистическими классификаторами. Так что, возможно, это дерево решений, рассматривающее его с точки зрения того, что вы можете назвать «гедонистическим» подходом или подходом, основанным на характеристиках жилья, или, может быть, это машина опорных векторов, рассматривающая цены предыдущих продаж.

Комбинация подхода к оценке и классификатора вместе создают модель, и в этом географическом регионе создано множество таких моделей. Существует также множество моделей, которые становятся метамоделями, и их задача состоит в том, чтобы объединить эти подмодели в окончательное консенсусное мнение, которым является Zestimate.

Как вы можете гарантировать, что ваши результаты будут максимально объективными?

Мы считаем, что рекламные доллары следуют за потребителями. Мы хотим помочь потребителям как можно лучше.

Говоря экономическим языком, мы создали двусторонний рынок, куда приходят потребители, желающие получить доступ к инвентарю и связаться с профессионалами. На другой стороне этого рынка у нас есть профессионалы — будь то брокеры или агенты по недвижимости, ипотечные кредиторы или специалисты по ремонту жилья — которые хотят помочь этим потребителям что-то сделать. Мы пытаемся создать рынок, где потребители смогут найти инвентарь и специалистов, которые помогут им добиться цели.

Итак, с точки зрения маркет-мейкера и участника рынка вы хотите быть полностью нейтральными и беспристрастными. Все, что вы пытаетесь сделать, — это предоставить потребителю подходящего профессионала и наоборот, и это очень важно для нас.

Это означает, что когда дело доходит до приложений машинного обучения, например, при оценке, которую мы делаем, наша цель состоит в том, чтобы дать наилучшую оценку того, за что будет продан дом. Опять же, с экономической точки зрения, это отличается от запрашиваемой цены и цены предложения. В контексте сырьевых товаров вы называете это разницей между ценой спроса и предложения между тем, что кто-то собирается запросить в предложении.

В контексте недвижимости мы называем это ценой предложения и запрашиваемой ценой. Итак, то, за что кто-то собирается продать вам свой дом, отличается от того, что покупатель говорит: «Эй, ты бы принял это за это?» Между этим всегда есть пропасть.

Что мы пытаемся сделать с Zestimate, так это обосновать некоторые ценовые решения, чтобы разница между ценой и предложением была меньше, [чтобы не дать] покупателям воспользоваться преимуществами, когда дом стоил намного дешевле. И [чтобы не дать] продавцам продать дом намного дешевле, чем они могли бы получить, потому что они просто не знают.

Мы считаем, что хорошее и компетентное представительство обеих сторон — это один из способов смягчить это, и мы считаем это фантастическим. Также очень важно иметь дополнительную информацию о ценовом решении, которая поможет вам понять соотношение предложения и спроса, как выглядит спред предложения и спроса.

Насколько точен Zestimate?

Наши модели обучены таким образом, что половина Земли будет положительной, а половина — отрицательной; Это означает, что в любой конкретный день половина [всех] домов будет продаваться выше расчетной стоимости, а половина — ниже. С момента запуска Zestimate мы хотели, чтобы это стало отправной точкой для разговора о ценностях дома. Это не конечная точка.

Это должно стать отправной точкой для разговора о ценности. В конечном итоге этот разговор должен включать в себя другие средства оценки, в том числе специалистов по недвижимости, таких как агент, брокер или оценщик; люди, которые обладают экспертным знанием местных территорий, видели дом изнутри и могут сравнить его с другими сопоставимыми домами.

Я думаю, что это важные данные и, надеюсь, они будут полезны людям. Другой способ подумать об этой статистике, которую я вам только что привел, заключается в том, что в любой конкретный день половина продавцов продают свои дома дешевле, чем Zestimate, а половина покупателей покупают дома дороже, чем Zestimate. Зестимат. Итак, очевидно, что они рассматривают что-то другое, кроме Zestimate, хотя, надеюсь, на каком-то этапе этого процесса им это помогло.

Насколько ваши методы со временем стали более совершенными?

Я некоторое время занимался машинным обучением. Я начал свою академическую карьеру в качестве исследователя в университете. Потом в Expedia я очень активно занимался машинным обучением, а потом и здесь.

Я собирался сказать, что самые большие изменения действительно произошли в технологическом стеке за этот период, но мне не следует преуменьшать изменения в самих алгоритмах за эти годы. Алгоритмически вы видите эволюцию Expedia: персонализация, мы больше работали над относительно сложными, но более статистическими и параметрическими моделями для выдачи рекомендаций; такие вещи, как безусловная вероятность и корреляция между элементами. Теперь большинство ваших рекомендательных систем используют такие вещи, как совместная фильтрация для алгоритмов, оптимизированных для больших объемов данных и потоковых данных.

В контексте прогнозирования мы перешли от таких вещей, как деревья решений и машины опорных векторов, к лесу деревьев; все эти более простые деревья с гораздо большим их количеством... И затем, более экзотические деревья решений, которые имеют в своих конечных узлах больше компонентов направления, которые очень полезны в некоторых контекстах.

Теперь, будучи специалистом по данным, вы можете начать работу над проблемой на AWS в облаке. Тогда у вас будет целый ряд моделей, которые можно будет быстро развернуть, гораздо проще, чем двадцать лет назад, когда вам приходилось кодировать кучу всего; начните с MATLAB и импортируйте его в C, и вы будете делать все это вручную.

CXOTALK предлагает вам самых инновационных бизнес-лидеров, авторов и аналитиков в мире для углубленного обсуждения, недоступного где-либо еще.