Index · Правила · Поиск· Группы · Регистрация · Личные сообщения· Вход

Список разделов Мнение оппозиции
 
 
 

Раздел: Мнение оппозиции Можно ли научить человека пониманию ? 

Создана: 17 Мая 2023 Срд 23:07:02.
Раздел: "Мнение оппозиции"
Сообщений в теме: 149, просмотров: 26489

На страницу: Назад  1, 2, 3, 4, 5, 6, 7, 8, 9, 10  Вперёд
  1. 17 Мая 2023 Срд 23:07:02
    перенес тему
  2. 15 Марта 2024 Птн 9:14:08
    Генсек НАТО заявил об уничтожении кораблей Черноморского флота России ракетами альянса

    [внешняя ссылка]
  3. 15 Марта 2024 Птн 9:26:50
    Мобильный оператор протестирует прямую спутниковую связь в Африке

    Компания Omnispace планирует испытать свою группировку из более чем 600 спутников на низкой околоземной орбите для обеспечения связи в областях без покрытия сотовыми вышками. Компания сотрудничает с крупнейшим оператором наземной мобильной связи в Африке, MTN, чтобы подключить телефоны и устройства клиентов к их сети. Omnispace также заключает соглашения с другими телекоммуникационными компаниями в разных странах. Первоначальные услуги спутниковой связи планируется предоставить в 2026 году.

    [внешняя ссылка]
  4. 15 Марта 2024 Птн 9:31:11
    SpaceX с третьей попытки успешно вывела на орбиту корабль Starship

    [внешняя ссылка]
  5. 15 Марта 2024 Птн 23:18:57
  6. 16 Марта 2024 Суб 8:46:52
  7. 16 Марта 2024 Суб 21:49:00
    Векторизация текста для LLM

    Что такое векторизация текста?

    Векторизация текста – это процесс преобразования текста в числовые векторы. Это необходимо, потому что LLM (большие языковые модели) работают с числами, а не с текстом.

    Существует несколько методов векторизации текста:

    Bag-of-words (BOW): этот метод просто подсчитывает количество слов, встречающихся в тексте.
    TF-IDF: этот метод учитывает не только количество слов, но и их частоту в тексте и во всем наборе данных.
    Word2Vec: этот метод использует нейронную сеть для обучения векторов слов.
    BERT: этот метод использует трансформерную архитектуру для обучения векторов слов.
    Какой метод выбрать?

    Выбор метода векторизации текста зависит от задачи.

    BOW: простой и быстрый метод, но он не учитывает порядок слов и семантику.
    TF-IDF: более точный метод, чем BOW, но он все еще не учитывает порядок слов.
    Word2Vec: более точный метод, чем TF-IDF, который учитывает семантику слов.
    BERT: самый точный метод из перечисленных, который учитывает порядок слов и семантику.
    Ресурсы:

    Scikit-LLM: полное руководство по Scikit-LLM: [неправильный URL удален]
    Раскрывая секреты LLM: руководство по основным понятиям больших языковых моделей без хайпа: [неправильный URL удален]
    Общаемся с базой знаний: как мы улучшили точность генеративных ответов LLM с помощью собственного RAG: [неправильный URL удален]
    Пример:

    Предположим, у нас есть два предложения:

    "Я люблю яблоки."
    "Я люблю бананы."
    BOW:

    "Я": 2
    "люблю": 2
    "яблоки": 1
    "бананы": 1
    TF-IDF:

    "Я": 0.5
    "люблю": 0.5
    "яблоки": 1
    "бананы": 1
    Word2Vec:

    "Я": [0.1, 0.2, 0.3]
    "люблю": [0.4, 0.5, 0.6]
    "яблоки": [0.7, 0.8, 0.9]
    "бананы": [1.0, 1.1, 1.2]
    BERT:

    "Я": [0.1, 0.2, 0.3, 0.4]
    "люблю": [0.5, 0.6, 0.7, 0.8]
    "яблоки": [0.9, 1.0, 1.1, 1.2]
    "бананы": [1.3, 1.4, 1.5, 1.6]
    Как видите, векторы для разных предложений отличаются. LLM может использовать эти векторы, чтобы понять смысл предложений и выполнить различные задачи, такие как машинный перевод, summarization, и question answering.
  8. 16 Марта 2024 Суб 22:12:27
    Copilot

    Векторизация текста — это процесс преобразования слов или фраз в векторные представления. Это позволяет алгоритмам машинного обучения работать с текстовыми данными, представляя их в виде числовых векторов. Преимущество заключается в том, что векторы содержат семантическую информацию о словах и их взаимоотношениях 1.
    Существует несколько методов векторизации текста:
    TF-IDF (Term Frequency-Inverse Document Frequency): Этот метод учитывает частоту встречаемости слова в документе и обратную частоту встречаемости слова во всех документах. Он создает векторы, которые отражают важность слова в конкретном контексте 2.
    Word Embeddings (векторные представления слов): Word embeddings — это векторное представление слова. Оно позволяет учесть семантическую близость слов и их смысловые отношения. Один из популярных методов — Word2Vec, который обучает векторы на больших текстовых корпусах 2.
    Doc2Vec: Этот метод расширяет Word2Vec на уровень документов. Он создает векторы для целых документов, учитывая контекст и семантику 2.
    FastText: Этот метод также использует Word2Vec, но учитывает подслова (subword information). Он может работать с неизвестными словами, разбивая их на подслова 2.
    Выбор метода векторизации зависит от задачи и доступных данных. Например, для больших языковых моделей (LLM) таких, как GPT, Word2Vec или FastText могут быть хорошими вариантами для векторизации текста
  9. 16 Марта 2024 Суб 23:46:00
  10. 17 Марта 2024 Вск 19:59:19
  11. 17 Марта 2024 Вск 21:12:22
  12. 18 Марта 2024 Пон 21:52:32
    Великобритания рассчитывает снизить стоимость ИИ-инфраструктур в 1000 раз

    Создание и эксплуатация систем искусственного интеллекта — дорогостоящий бизнес, требующий тысяч чипов. Лучшая модель для ИИ от Nvidia, H100, стоит до $40 тысяч за чип. Более старый графический процессор этой же компании, A100, стоит около $10 тысяч долларов. Его использовали для обучения популярных моделей, таких как GPT-4 от OpenAI.

    Генеральный директор OpenAI Сэм Альтман заявил в прошлом году, что обучение GPT-4 обошлось его компании более чем в $100 миллионов, и что для создания модели потребовалось 25 тысяч чипов A100.

    Кроме технологий, для ИИ нужны огромные природные ресурсы. Например, стандартный центр обработки данных может в день требовать до 1,1 миллиона литров воды — примерно столько же поглощают 100 тысяч домов.

    [внешняя ссылка]
  13. 19 Марта 2024 Втр 9:31:31
    NVIDIA представила самый мощный чип в мире — Blackwell B200, который откроет путь к гигантским нейросетям

    Компания Nvidia в рамках конференции GTC 2024 представила ИИ-ускорители следующего поколения на графических процессорах с архитектурой Blackwell. По словам производителя, грядущие ИИ-ускорители позволят создавать ещё более крупные нейросети, в том числе работать с большими языковыми моделями (LLM) с триллионами параметров, и при этом будут до 25 раз энергоэффективнее и экономичнее в сравнении с Hopper.

    [внешняя ссылка]
  14. 20 Марта 2024 Срд 13:15:48
    Apple договаривается с Google об использовании ИИ Gemini в новых iPhone

    [внешняя ссылка]
  15. 21 Марта 2024 Чтв 10:22:05
    Саудовская Аравия собирается стать крупнейшим инвестором в ИИ

    Страна хочет учредить фонд в размере $40 миллиардов для инвестиций в самые перспективные проекты. Королевство даже привлекло для работы над ним известный венчурный фонд Andreessen Horowitz, который специализируется на вложениях в IT, а также других финансистов. По данным The New York Times (NYT), на сегодняшний день это крупнейший мировой фонд, ориентированный на ИИ.

    Во всем мире корпоративные инвестиции в ИИ стремительно растут, но Саудовская Аравия играет по-крупному: вложение в $40 миллиардов сделает её глобальным лидером в этой области. Оно также поспособствует достижению главной цели королевства на ближайший десяток лет — дифференцировать свои бизнес-модели и увеличить геополитическое влияние. Туризм и нефтяная промышленность, благодаря которым страна получила свои богатства, больше не являются для неё приоритетными.

    [внешняя ссылка]
  16. 21 Марта 2024 Чтв 17:44:34
    Первый пациент, вжививший чип Neuralink, теперь по 8 часов играет в «Цивилизацию»

    [внешняя ссылка]
На страницу: Назад  1, 2, 3, 4, 5, 6, 7, 8, 9, 10  Вперёд